• 欢迎访问极客猴,分享 Python 入门,网络爬虫,数据分析,赚钱思维相关的技术与思维QQ群
  • 本站点文章首发于微信公众号【极客猴】,欢迎关注,第一时间接受文章推送~
  • 如果您觉得本站非常有看点,那么赶紧使用 Ctrl+D 收藏极客猴吧

标签:scrapy

零基础入门 Python 爬虫

详解 Scrapy 中间键的用法

详解 Scrapy 中间键的用法
Scrapy 爬虫框架的出现,确实能让我们更加专注于数据抓取。同时,我们借助 Scrapy 框架来爬取整个站点数据也显得更加容易。虽然 Scarpy 负责 url 调度、网络请求、页面数据下载等工作,但是它的扩展性很高,其中就支持自定义中间件(Middleware)。本文主要讲解中间件(Middleware)的用法。 1.什么是中间件 中间件的运用比较广泛,……继续阅读 »

猴哥 4年前 (2018-10-23) 261浏览 0评论 0个赞

零基础入门 Python 爬虫

Scrapy 框架插件之IP代理池

Scrapy 框架插件之IP代理池
现在很多网站都是对单个 IP 地址有访问次数限制,如果你在短时间内访问过于频繁。该网站会封掉你 IP,让你在一段时间内无法正常该网站。突破反爬虫机制的一个重要举措就是代理 IP。拥有庞大稳定的 IP 代理,在爬虫工作中将起到重要的作用,但是从成本的角度来说,一般稳定的 IP 池都很贵。因此,我为 Scrapy 爬虫编写个免费 IP 代理池插件。 1.特点 该……继续阅读 »

猴哥 4年前 (2017-12-24) 279浏览 0评论 0个赞

零基础入门 Python 爬虫

学会运用爬虫框架 Scrapy (五) —— 部署爬虫

学会运用爬虫框架 Scrapy (五)  —— 部署爬虫
本文是 Scrapy 爬虫系列的最后一篇文章。主要讲述如何将我们编写的爬虫程序部署到生产环境中。我们使用由 scrapy 官方提供的爬虫管理工具 scrapyd 来部署爬虫程序。 1.为什么使用 scrapyd? 一是它由 scrapy 官方提供的,二是我们使用它可以非常方便地运用 JSON API来部署爬虫、控制爬虫以及查看运行日志。 2.使用 scrap……继续阅读 »

猴哥 5年前 (2017-10-02) 215浏览 0评论 0个赞

零基础入门 Python 爬虫

学会运用爬虫框架 Scrapy (四) —— 高效下载图片

学会运用爬虫框架 Scrapy (四)  —— 高效下载图片
爬虫程序爬取的目标通常不仅仅是文字资源,经常也会爬取图片资源。这就涉及如何高效下载图片的问题。这里高效下载指的是既能把图片完整下载到本地又不会对网站服务器造成压力。也许你会这么做,在 pipeline 中自己实现下载图片逻辑。但 Scrapy 提供了图片管道ImagesPipeline,方便我们操作下载图片。 1.为什么要选用 ImagesPipeline ……继续阅读 »

猴哥 5年前 (2017-09-26) 268浏览 0评论 0个赞

零基础入门 Python 爬虫

学会运用爬虫框架 Scrapy (三)

学会运用爬虫框架 Scrapy (三)
上篇文章介绍 Scrapy 框架爬取网站的基本用法。但是爬虫程序比较粗糙,很多细节还需打磨。本文主要是讲解 Scrapy 一些小技巧,能让爬虫程序更加完善。 1.设置 User-agent Scrapy 官方建议使用 User-Agent 池, 轮流选择其中一个常用浏览器的 User-Agent来作为 User-Agent。scrapy 发起的 http 请……继续阅读 »

猴哥 5年前 (2017-09-15) 261浏览 0评论 0个赞

零基础入门 Python 爬虫

学会运用爬虫框架 Scrapy (二)

学会运用爬虫框架 Scrapy (二)
上篇文章介绍了爬虫框架 Scrapy 如何安装,以及其特性、架构、数据流程。相信大家已经对 Scrapy 有人了初步的认识。本文是 Scrapy 系列文章的第二篇,主要通过一个实例讲解 scrapy 的用法。 1.选取目标 网络爬虫,顾名思义是对某个网站或者系列网站,按照一定规则进行爬取信息。爬取程序的首要工作当然是选定爬取目标。本次爬取目标选择是V电影,网……继续阅读 »

猴哥 5年前 (2017-09-11) 286浏览 0评论 1个赞

零基础入门 Python 爬虫

学会运用爬虫框架 Scrapy (一)

学会运用爬虫框架 Scrapy (一)
对于规模小、爬取数据量小、对爬取速度不敏感的爬虫程序, 使用 Requests 能轻松搞定。这些爬虫程序主要功能是爬取网页、玩转网页。如果我们需要爬取网站以及系列网站,要求爬虫具备爬取失败能复盘、爬取速度较高等特点。很显然 Requests 不能完全满足我们的需求。因此,需要一功能更加强大的第三方爬虫框架库 —— Scrapy 1.简介 Scrapy Scr……继续阅读 »

猴哥 5年前 (2017-09-04) 424浏览 0评论 0个赞