Python 爬虫与自动化

Python 爬虫与自动化 (23)

Python 环境、requests、urllib、Scrapy、Selenium、ChromeDriver 和爬虫实战。

爬虫框架Scrapy的安装与基本使用

2019-09-01

一、简单实例，了解基本。 1、安装Scrapy框架这里如果直接pip3 install scrapy可能会出错。所以你可以先安装lxml：pip3 install lxml(已安装请忽略)。安装pyOpenSSL：在官网下载wheel文件。安装Twisted：在官网下载wheel文件。安装PyWin32：在官...

Python3下request处理cookie的两种方法

2020-06-16

一、获取cookie 手动获取：手工登录获取cookie，登录成功后可以不断更新cookie到文件中存储。参考：https://www.jianshu.com/p/5ef0c7bb1ed2 导入requests包 import requests targetURL = '目标网站地址' 设置头UA headers =...

Python3绘图Turtle库详解

2020-01-15

Turtle库是Python语言中一个很流行的绘制图像的函数库，想象一个小乌龟，在一个横轴为x、纵轴为y的坐标系原点，(0,0)位置开始，它根据一组函数指令的控制，在这个平面坐标系中移动，从而在它爬行的路径上绘制了图形。 turtle绘图的基础知识： 1. 画布(canvas)      ...

python3下chromedriver + headless + proxy+场景

2019-12-14

1.标准头导入selenium的浏览器驱动接口 from selenium import webdriver 要想调用键盘按键操作需要引入keys包 from selenium.webdriver.common.keys import Keys 导入chrome选项 from selenium.webdriver.c...

centos7 安装chromedriver

2019-11-30

1.安装浏览器指定yum 源 wget O /etc/yum.repos.d/CentOS Base.repo http://mirrors.aliyun.com/repo/Centos 7.repo 安装 curl https://intoli.com/install google chrome.sh bash l...

阿里云ubutun python3.5.2卸载更新到3.6方法亲测有效

2019-11-04

1.首先卸载一下python3.5的包 sudo apt get remove python3.5 2.卸载python3.5以及它的依赖包 sudo apt get remove auto remove python3.5 3.手动删除usr/bin 下面的包如果前两步还不能删除完，自己去usr/bin/下删除py...

selenium经常使用api

2019-10-28

python selenium官方文档可详细看用法 1.浏览器chromeDriver获取信息 1.driver.current url：用于获得当前页面的URL 2.driver.title：用于获取当前页面的标题 3.driver.page source:用于获取页面html源代码 4.driver.current...

python利用pyinstaller将项目变成exe可以执行

2019-10-09

1.安装pyinstaller pip3 install pyinstaller pyinstaller onefile hello.py 2.生成exe 跳到python文件目录下面运行命令 pyinstaller onefile python文件名 onefile的作用是产生的结果汇成一个exe的文件,文件存放再d...

来来scrapy爬取各大网站每日热点新闻

2019-09-19

一.背景最近玩爬虫，各种想爬，scrapy又非常好用。想多爬一点东西，决定爬一爬各大网站的热点新闻。想到就开始做了哈项目已经爬取：豆瓣，微博，百度贴吧，虎扑， github，百度今日热点二.上代码 1.开始搭建项目 scrapy startproject crawl everything 起了个叼叼的名...

爬虫项目集合

2019-09-07

WechatSogou https://github.com/Chyroc/WechatSogou 微信公众号爬虫。基于搜狗微信搜索的微信公众号爬虫接口，可以扩展成基于搜狗搜索的爬虫，返回结果是列表，每一项均是公众号具体信息字典。 DouBanSpider https://github.com/lanbing510/D...

实战5抓取猫眼电影榜单信息（requests+多进程）

2019-09-06

1.目标网址https://maoyan.com/board/4?offset=0 一、引入相应的模块并编写获取源码的函数 import requests, re, json from lxml import etree from multiprocessing import Pool 获取源码 def get htm...

实战4Scrapy自动爬取腾讯招聘职位信息

2019-09-05

创建爬虫项目: scrapy startproject 项目名 scrapy startproject tencent 查看当前可以使用的爬虫模板: scrapy genspider l 基于任意模板生成一个爬虫文件: scrapy genspider t 模板自定义爬虫名域名 scrapy genspider t...

实战3Selenium的基本使用-登录知乎并爬取信息

2019-09-04

由于 JavaScript 动态渲染的页面不止 Ajax 这一种，有些网站获取数据并不包含Ajax请求，有些网站是对 Ajax 进行加密处理；为了解决这写问题，我们可以直接使用模拟浏览器运行的方式来实现，这样就可以做到在浏览器中看到是什么样，抓取的源码就是什么样，也就可见即可抓。 Python提供了许多模拟浏览器运行的...

实战2之爬取表情包

2019-09-03

一、爬取表情包思路（http://www.doutula.com） 1、打开网站，点击最新套图 2、之后我们可以看到没有套图，我们需要提取每个套图的连接 3、获取连接之后，进入页面提取图片就好了 4、我们可以发现该网站还穿插有广告，我们需要过滤点广告二、实战关于新建项目我们就不再多说了。 1、首先我们提取第一页的u...

实战1爬取百度贴吧图片

2019-09-02

1，目标：爬取贴吧每一贴，楼主图，并保存。由于图片大多是楼主发的，如果全部查找会浪费很多时间。 2，分析我选择爬取的贴吧为图吧，你们可以选择自己想要爬取的贴吧。 2.1，获取页面我们将爬取页面的代码写成一个get html()方法,给他传入url参数代码如图：获取正常，没问题。我们用chrome的开发者模...

三大解析库的使用

2019-08-30

1，XPath的使用在使用前，需要安装lxml库。安装代码：pip3 install lxml 1.1XPath的常用规则: / 表示选取直接子节点 // 表示选取所有子孙节点 . 选取当前节点 .. 选取当前结点的父节点 @ 选取属性看完这些？你是不是还是一脸懵逼？下面我们来实际运用一下。 1.2实例引用如图...

python第二大神器requests

2019-08-29

首先你要安装requests库安装代码：pip3 install requests 如果你没有安装pip3 请自行百度安装，本公众号已和百度达成合作不会的都可以去百度哦，不收费。进入正题，我们来看一下requests的强大之处吧 1，get请求是不是简单粗暴？相比上一篇舒服多了。有什么属性？我也不知道哎，dir...

爬虫之urllib库的使用

2019-08-28

首先什么是库？简单的说就是别人写好的东西，你拿来调用就可以实现基本的操作。比如电视你只用看，不用知道他是如何成像的。 urllib库之request（用来模拟HTTP请求）模块 request的第一个方法urlopen() 我们以淘宝为例写上这样一段代码： read()是返回得到的内容，decode('utf8')是...

3.win10下python3爬虫美女图片逐步优化（多线程版本）

2019-08-12

coding: utf 8 import re import os import time import threading from multiprocessing import Pool, cpu count import requests from bs4 import BeautifulSoup HEADERS...

2.win10下python2爬虫美女图片逐步优化

2019-08-04

coding: utf 8 完成通用爬虫，抓取一个页面队列中所有图片 import requests import re import time from bs4 import BeautifulSoup import uuid import urllib import os import sys reload(sys...

2.pytho2 各种环境安装

2019-08-04

pytho2 各种环境安装 Python2 安装MySQLdb库 python2.exe m pip install mysqlclient==1.3.12 各种报错，搜索搜索，找到 https://www.lfd.uci.edu/ gohlke/pythonlibs/ mysql python 去下载对应环境版本插件...

1.win10下python2和python3共存

2019-08-04

windows 下安装python 环境使python2和python3 共存环境 win10 64 位 1.开搞去 pyhon 官网 https://www.python.org/downloads/windows/ 找到python的两个版本分别下载到本地 2.因为要安装两个版本，所以将2和3 安装在一个父文件...

python基础之常用模块

2019-08-03

Python生成requirements.txt方法 pip freeze > requirements.txt 安装requirements.txt依赖 pip install r requirements.txt 常用模块 socket模块常用于通讯，任何通讯工具中都含有socket，比如qq，微信。 ud...

jackssybin 的个人博客