2019-09 归档

Rust学习之二猜字谜

2019-09-24

1.首先cargo一个项目 cargo new guessing game 2.修改toxml 添加依赖 [dependencies] rand = "0.3.14" 3.切换数据源,一来源对于在国内的人来说，Rust开发时有时使用官方的源太慢，可以考虑更换使用国内中科大的源。更换方法如下：在 $HOME...

如何定位java进程中使用最耗内存的进程

2019-09-23

1.清除进程和线程的关系 2.知道linux查看进程对应线程的命令查看进程命令 ps ef grep java 查看进程对应线程命令 top Hp <pid> 找到最大线程的pid号 3.打印堆栈信息 jstack <pid> jstack 里面存的是16进制的数字。所以需要把十进制转换为16...

记一个七牛云生成图片水印的问题

2019-09-21

1.首先七牛云生成图片是没问题的 2.但诡异的是当图片上水印的文字很长的时候，就会涉及到换行问题。换行呢。有主动换行和被动换行。主动换行：是我们自主把文字按照一定长度切换成两组文字然后赋值到图片上。被动换行：就是今天我们遇到的问题，图片加水印然后线上环境app端图片都不显示了。但看后台数据图片是有内容的。在pc端也...

Rust 学习一之环境安装

2019-09-20

1.社区 https://rustlang cn.org/ 2.环境安装 windows 下载地址 https://www.rust lang.org/install.html 下载完之后》rustup init.exe 直接安装走默认的就可以了安装完之后看看版本，确定下是否安装成功了 rustc version ...

来来scrapy爬取各大网站每日热点新闻

2019-09-19

一.背景最近玩爬虫，各种想爬，scrapy又非常好用。想多爬一点东西，决定爬一爬各大网站的热点新闻。想到就开始做了哈项目已经爬取：豆瓣，微博，百度贴吧，虎扑， github，百度今日热点二.上代码 1.开始搭建项目 scrapy startproject crawl everything 起了个叼叼的名...

终极分库分表方案

2019-09-18

一、数据库瓶颈 1、IO瓶颈 2、CPU瓶颈二、分库分表三、分库分表工具四、分库分表步骤五、分库分表问题六、分库分表总结七、分库分表示例一、数据库瓶颈不管是IO瓶颈，还是CPU瓶颈，最终都会导致数据库的活跃连接数增加，进而逼近甚至达到数据库可承载活跃连接数的阈值。在业务Service来看就是，可用数据...

永远记不住不清楚的知识点java

2019-09-12

java基础，高并发，面试

Java虚拟机（JVM）你只要看这一篇就够了！垃圾回收器（2）

2019-09-09

2.5 垃圾回收器收集算法是内存回收的理论，而垃圾回收器是内存回收的实践。说明：如果两个收集器之间存在连线说明他们之间可以搭配使用。 2.5.1 Serial 收集器这是一个单线程收集器。意味着它只会使用一个 CPU 或一条收集线程去完成收集工作，并且在进行垃圾回收时必须暂停其它所有的工作线程直到收集结束。 2....

Java虚拟机（JVM）你只要看这一篇就够了！（1）

2019-09-08

1. Java 内存区域与内存溢出异常 1.1 运行时数据区域根据《Java 虚拟机规范(Java SE 7 版)》规定，Java 虚拟机所管理的内存如下图所示。 1.1.1 程序计数器内存空间小，线程私有。字节码解释器工作是就是通过改变这个计数器的值来选取下一条需要执行指令的字节码指令，分支、循环、跳转、异常处理...

爬虫项目集合

2019-09-07

WechatSogou https://github.com/Chyroc/WechatSogou 微信公众号爬虫。基于搜狗微信搜索的微信公众号爬虫接口，可以扩展成基于搜狗搜索的爬虫，返回结果是列表，每一项均是公众号具体信息字典。 DouBanSpider https://github.com/lanbing510/D...

实战5抓取猫眼电影榜单信息（requests+多进程）

2019-09-06

1.目标网址https://maoyan.com/board/4?offset=0 一、引入相应的模块并编写获取源码的函数 import requests, re, json from lxml import etree from multiprocessing import Pool 获取源码 def get htm...

实战4Scrapy自动爬取腾讯招聘职位信息

2019-09-05

创建爬虫项目: scrapy startproject 项目名 scrapy startproject tencent 查看当前可以使用的爬虫模板: scrapy genspider l 基于任意模板生成一个爬虫文件: scrapy genspider t 模板自定义爬虫名域名 scrapy genspider t...

实战3Selenium的基本使用-登录知乎并爬取信息

2019-09-04

由于 JavaScript 动态渲染的页面不止 Ajax 这一种，有些网站获取数据并不包含Ajax请求，有些网站是对 Ajax 进行加密处理；为了解决这写问题，我们可以直接使用模拟浏览器运行的方式来实现，这样就可以做到在浏览器中看到是什么样，抓取的源码就是什么样，也就可见即可抓。 Python提供了许多模拟浏览器运行的...

实战2之爬取表情包

2019-09-03

一、爬取表情包思路（http://www.doutula.com） 1、打开网站，点击最新套图 2、之后我们可以看到没有套图，我们需要提取每个套图的连接 3、获取连接之后，进入页面提取图片就好了 4、我们可以发现该网站还穿插有广告，我们需要过滤点广告二、实战关于新建项目我们就不再多说了。 1、首先我们提取第一页的u...

实战1爬取百度贴吧图片

2019-09-02

1，目标：爬取贴吧每一贴，楼主图，并保存。由于图片大多是楼主发的，如果全部查找会浪费很多时间。 2，分析我选择爬取的贴吧为图吧，你们可以选择自己想要爬取的贴吧。 2.1，获取页面我们将爬取页面的代码写成一个get html()方法,给他传入url参数代码如图：获取正常，没问题。我们用chrome的开发者模...

爬虫框架Scrapy的安装与基本使用

2019-09-01

一、简单实例，了解基本。 1、安装Scrapy框架这里如果直接pip3 install scrapy可能会出错。所以你可以先安装lxml：pip3 install lxml(已安装请忽略)。安装pyOpenSSL：在官网下载wheel文件。安装Twisted：在官网下载wheel文件。安装PyWin32：在官...