来来scrapy爬取各大网站每日热点新闻 有更新!
一.背景 最近玩爬虫,各种想爬,scrapy又非常好用。想多爬一点东西,决定爬一爬各大网站的热点新闻。 想到就开始做了哈 项目已经爬取: 豆瓣, 微博, 百度贴吧, 虎扑, github,百度今日热点 二.上代码 1.开始搭建项目 scrapy startproject crawl_everything #起了个叼叼的名字 2.修改配置文件 settings.py设置文件: ROBOTSTXT_OBEY = False # 下载延时 DOWNLOAD_DELAY = 0.5 #增加user-agent 这个可以拿自己浏览器的。也可以网上搜一些其他的。东西很多的 USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_3) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.54 Safari/536.5' 初步设想,我只需要存取文章的标题和内容链接和抓取时间 修改items.py 那么定义的item如下: class CrawlEverythingItem(....