• 欢迎访问极客猴,分享 Python 入门,网络爬虫,数据分析,赚钱思维相关的技术与思维QQ群
  • 本站点文章首发于微信公众号【极客猴】,欢迎关注,第一时间接受文章推送~
  • 如果您觉得本站非常有看点,那么赶紧使用 Ctrl+D 收藏极客猴吧

Python 网络爬虫

不懂代码也能爬取数据?试试这几个工具

不懂代码也能爬取数据?试试这几个工具
前天,有个同学加我微信来咨询我:“猴哥,我想抓取近期 5000 条新闻数据,但我是文科生,不会写代码,请问该怎么办?”猴哥有问必答,对于这位同学的问题,我给安排上。先说说获取数据的方式:一是利用现成的工具,我们只需懂得如何使用工具就能获取数据,不需要关心工具是怎么实现。打个比方,假如我们在岸上,要去海上某个小岛,岸边有一艘船,我们第一想法是选择坐船过去……继续阅读 »

猴哥 8个月前 (04-08) 78浏览 0评论3个赞

170 行代码爬取《白蛇:缘起》短评数据

170 行代码爬取《白蛇:缘起》短评数据
在我的童年记忆中,电视台播放的动画片大多都是从日本、美国引进的。很多动画片算是银幕上的经典,例如:《变形金刚》系列、《猛兽侠》、《蜘蛛侠》、《七龙珠》、《名侦探柯南》、《灌篮高手》、《数码宝贝》等。但是国产的精品动画篇确认寥寥无几,可能是当时我国动漫产业还处在起步阶段。一晃几十年过去了,现在的国产动漫算是强势崛起,这也涌现出《斗破苍穹》、《秦时明月》、《天……继续阅读 »

猴哥 2年前 (2019-01-17) 16浏览 0评论0个赞

爬虫必备工具 —— Chrome 开发者工具

爬虫必备工具 —— Chrome 开发者工具
在《论语》中,孔子提倡“学而不思则罔,思而不学则殆”的学习方法。我们再往深层面挖掘,“思”究竟是在思考什么?个人理解是思考并总结出一些共性的东西,即“套路”。有套路了,我们学习或工作会更加有效率。当我们爬取不同的网站是,每个网站页面的实现方式各不相同,我们需要对每个网站都进行分析。那是否有一些通用的分析方法?我分享下自己爬取分析的“套路”。在某个网站上,分……继续阅读 »

猴哥 2年前 (2018-11-25) 17浏览 0评论0个赞

100 行代码爬取全国所有必胜客餐厅信息

100 行代码爬取全国所有必胜客餐厅信息
当我刚接触 Python 时,我已经被 Python 深深所吸引。Python 吸引我的地方不仅仅能用其编写网络爬虫,而且能用于数据分析。我能将大量的数据中以图形化方式呈现出来,更加直观的解读数据。数据分析的前提是有数据可分析。如果没有数据怎么办?一是可以去一些数据网站下载相关的数据,不过数据内容可能不是自己想要的。二是自己爬取一些网站数据。今天,我就爬……继续阅读 »

猴哥 2年前 (2018-11-13) 18浏览 0评论1个赞

详解 Scrapy 中间键的用法

详解 Scrapy 中间键的用法
Scrapy 爬虫框架的出现,确实能让我们更加专注于数据抓取。同时,我们借助 Scrapy 框架来爬取整个站点数据也显得更加容易。虽然 Scarpy 负责 url 调度、网络请求、页面数据下载等工作,但是它的扩展性很高,其中就支持自定义中间件(Middleware)。本文主要讲解中间件(Middleware)的用法。1.什么是中间件中间件的运用比较广泛,……继续阅读 »

猴哥 2年前 (2018-10-23) 12浏览 0评论0个赞

带你了解代理 IP 那些事

带你了解代理 IP 那些事
因为 Python 语法简介以及强大的第三方库,所以我们使用它来制作网络爬虫程序。网络爬虫的用途是进行数据采集,也就是将互联网中的数据采集过来。在爬取某些网站时,我们经常会设置代理 IP 来避免爬虫程序被封。我们获取代理 IP 地址方式通常提取国内的知名 IP 代理商(如西刺代理,快代理,无忧代理等)的免费代理。这些代理商一般都会提供透明代理,匿名代理,高……继续阅读 »

猴哥 2年前 (2018-09-10) 12浏览 0评论0个赞

盘点一些网站的反爬虫机制

盘点一些网站的反爬虫机制
因为 Python 语法简介以及强大的第三方库,所以我们使用它来制作网络爬虫程序。网络爬虫的用途是进行数据采集,也就是将互联网中的数据采集过来。网络爬虫的难点其实并不在于爬虫本身。而是网站方为了避免数据被爬取,增加了各种各样的反爬虫措施。如果想要继续从网站爬取数据就必须绕过这些措施。因此,网络爬虫的难点在于反爬的攻克和处理。那么本文主要介绍一些网站的反爬虫……继续阅读 »

猴哥 2年前 (2018-08-21) 19浏览 0评论0个赞

想提高爬虫效率?aiohttp 了解下

想提高爬虫效率?aiohttp 了解下
对于爬虫程序,我们往往会很关注其爬虫效率。影响爬虫效率有几个因素有,是否使用多线程,I/O 操作,是否同步执行等。其中 I/O 操作、同步执行是最影响爬虫效率的。众所周知,Requests 库一个优秀的 HTTP 库,通过它可以非常简单地发起 HTTP 请求。不过,这个库所执行的网络请求都是同步。当爬虫程序进程获得 CPU 的时间片时,如果程序在进行 I/……继续阅读 »

猴哥 2年前 (2018-08-03) 14浏览 0评论0个赞

搭建手机抓包环境

搭建手机抓包环境
智能手机的普及,这使得移动互联网成为另一个流量巨头。越来越多的公司也会转而直接提供 App 来展示内容。例如微信以及其生态(微信公众号、小程序)、抖音等。这也说明人们对于手机的依赖心更强。那抓取 App 的数据显得更加有意义。本文的主要内容是讲述如何搭建手机抓包环境。1.工具准备1)一台电脑最好是笔记本电脑,因为笔记本电脑内置了无限网卡。如果你使用的台……继续阅读 »

猴哥 2年前 (2018-07-29) 13浏览 0评论0个赞

分享一个爬取网站的小技巧

分享一个爬取网站的小技巧
有时候,我们很想爬取一个网站的数据。如果 PC 端的网页的反爬机制太强,我们可以换个思路。现在很多网站为了满足手机浏览器能正常访问的需求,都会推出手机版的网页。PC 端抓取数据有难度,我们可以从手机端入手。你也许听说过,抓取手机 App 端数据就需要搭建手机抓包环境。那么我们就要屁颠屁颠去抓包搭建?哈哈,显然不用。我给大家分享一个小技巧,可以节省搭建环境的……继续阅读 »

猴哥 2年前 (2018-07-17) 13浏览 0评论0个赞