前天,有个同学加我微信来咨询我:
“猴哥,我想抓取近期 5000 条新闻数据,但我是文科生,不会写代码,请问该怎么办?”

猴哥有问必答,对于这位同学的问题,我给安排上。

先说说获取数据的方式:一是利用现成的工具,我们只需懂得如何使用工具就能获取数据,不需要关心工具是怎么实现。打个比方,假如我们在岸上,要去海上某个小岛,岸边有一艘船,我们第一想法是选择坐船过去,而不会想着自己来造一艘船再过去。第二种是自己针对场景需求做些定制化工具,这就需要有点编程基础。举个例子,我们还是要到海上某个小岛,同时还要求在 30 分钟内将 1 顿货物送到岛上。

阅读全文

在我的童年记忆中,电视台播放的动画片大多都是从日本、美国引进的。很多动画片算是银幕上的经典,例如:《变形金刚》系列、《猛兽侠》、《蜘蛛侠》、《七龙珠》、《名侦探柯南》、《灌篮高手》、《数码宝贝》等。

但是国产的精品动画篇确认寥寥无几,可能是当时我国动漫产业还处在起步阶段。一晃几十年过去了,现在的国产动漫算是强势崛起,这也涌现出《斗破苍穹》、《秦时明月》、《天行九歌》等优秀的动画片。

2019年1月11日,一部国产动画电影《白蛇:缘起》在全国热映,一经上映便是好评如潮。这部电影凭借惊艳的花屏,出色的配音取得猫眼 9.4 分、豆瓣 8.0 分的高分成绩。

既然是难得一见的精品,那么我去猫眼上爬爬网友的短评,看看网友们的观点。

阅读全文

当我刚接触 Python 时,我已经被 Python 深深所吸引。Python 吸引我的地方不仅仅能用其编写网络爬虫,而且能用于数据分析。我能将大量的数据中以图形化方式呈现出来,更加直观的解读数据。

数据分析的前提是有数据可分析。如果没有数据怎么办?一是可以去一些数据网站下载相关的数据,不过数据内容可能不是自己想要的。二是自己爬取一些网站数据。

今天,我就爬取全国各地所有的必胜客餐厅信息,以便后续做数据分析。

阅读全文

有时候,我们很想爬取一个网站的数据。如果 PC 端的网页的反爬机制太强,我们可以换个思路。现在很多网站为了满足手机浏览器能正常访问的需求,都会推出手机版的网页。PC 端抓取数据有难度,我们可以从手机端入手。

你也许听说过,抓取手机 App 端数据就需要搭建手机抓包环境。那么我们就要屁颠屁颠去抓包搭建?哈哈,显然不用。我给大家分享一个小技巧,可以节省搭建环境的时间。

我们的抓取目标是 Web 手机端页面数据,而不是 App 端内的数据。因此,我们只要使用 PC 浏览器访问手机 Web 页面,就能继续使用 PC 浏览器进行抓包分析。

阅读全文

我公众号文章的封面配图都在 Unsplash 上找的。因为 Unsplash 是一个完全免费的、无版权的高清图片资源网站。

所谓的「无版权」是指这个网站上的图片由创作者自愿分享出来,完全免费提供给任何人作为任何用途使用。Unsplash 的原话是「do whatever you want」,进一步说明是「你可以免费对图片进行复制、修改、分发,包括用作商业目的,无需经过允许即可使用」。

自己发现之前在寻找图片上还是挺花费时间的。先在 Unsplash 上浏览图片,当发现觉得还不错的图片就会下载下来。另外,下载图片还需要自己点击下载按钮。这确实挺花费时间。现在自己学会了网络爬虫,是时候改善下情况。

阅读全文

在使用 Ajax 技术加载数据的网站中, JavaScript 发起的 HTTP 请求通常需要带上参数,而且参数的值都是经过加密的。如果我们想利用网站的 REST API 来爬取数据,就必须知道其使用的加密方式。破解过程需要抓包,阅读并分析网站的 js 代码。这整个过程可能会花费一天甚至更长的时间。

阅读全文

我爬取豆瓣影评,告诉你《复仇者联盟3》在讲什么?

《复仇者联盟3:无限战争》于 2018 年 5 月 11 日在中国大陆上映。截止 5 月 16 日,它累计票房达到 15.25 亿。这票房纪录已经超过了漫威系列单部电影的票房纪录。不得不说,漫威电影已经成为一种文化潮流。

阅读全文