用爬虫技术能做到哪些有趣的事情?

1

什么是网络爬虫?

网络爬虫也叫网络蜘蛛,即Web Spider,名字也是非常之形象。

如果把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,一直循环下去,直到把整个网站所有的网页都抓取完为止。 如果把整个互联网就当成一个网站,那么网络蜘蛛可以用这个原理把互联网上所有的网页都抓取下来。 光是听起来就很有意思,那利用这等技术能做些什么好玩的事儿呢? 大家感受下~~

(1)之前在北京买房,谁想房价开始疯长,链家的房价等数据分析只给了一小部分,远远不能满足自己的需求。于是晚上花了几个小时的时间写了个爬虫,爬下了北京所有的小区信息及北京所有小区的所有历史成交记录。

(2)上次发现Android QQ和iOS QQ可以显示网络状态(2G/WiFi)之后,突然想到,这样子好像可以监视某人的出行和作息规律。简单的来说,在家里或者工作的地方,一般是有WiFi的,然后出门了,WiFi就断掉了。如果监测频率足够频繁,那么结合一定的推理,可以大致推测出一个人的行动。如果长期监视,那么可以大致推出一个人的作息时间。因为只有Android QQ和iOS QQ有这个功能,所以要得到一个人的网络状态比较麻烦。我的做法是跑 Android 模拟器。然后用按键精灵模拟,并把网络状态截图,用 curl post到服务器上。服务器会把每次发送的时间、截图保存下来。因为是用程序截图的,所以只要网络状态是一样的,那么截图就是一样的,这样服务器就只会保存2~3张图片而已,其余的发现是相同的图片,数据库做个标记就好了。然后人工做OCR,还是注意到只有2~3张图片,所以工作量很少。得到数据后,要做各种统计就可以自己搞了……

2

导语:大数据时代,爬虫技术的作用,超出很多人的想象。

爬虫是啥

可能有些小伙伴不太清楚爬虫技术,这边用比较简单的例子,跟各位小伙伴普及下,可能有些地方不够严谨,不过大概意思应该差不多。

我们最常接触的爬虫技术,大概是:百度的搜索引擎。

可能有些一看到“搜索引擎”这个词,就不想往下看。

那么我用更简单的方式来说明,“搜索引擎”就是基于爬虫技术。

3

15年爬法院失信人,那时候大家都在爬,导致网站三天两头处于瘫痪状态。当然现在已经很难爬了, 不过当时还是可以轻松爬个几百w的,于是拿下部分数据来做了个简单的可视化:

工具是Powmap for Excel

数据就是失信人的明细,包含部分身份证号,判决法院等。

可以看到图中有红绿两种柱状图,红色表示按失信人籍贯分布的计数,绿色表示按失信人判决法院的计数。可以看到长三角、珠三角是重灾区,但是并不是说沿海人民失信比例大,应该说沿海地区司法效率比较高,所以判决是非常多的,但是从籍贯上看,全国各地都有,沿海只是略高。

4

看到这个问题必须来怒答一波~用python爬虫爬便宜机票了解一下?


喜欢旅行又怕吃土?让Python来爬取最便宜机票吧!


图源:

videoblocks.com

5

我的爬虫 https://github.com/wangqifan/ZhiHu

这个爬虫用实验室十台电脑一起干活,可随时添加删除机器,具有良好的伸缩性,为了能够实现断点续爬和多台电脑之间的协作使用了Redis作队列, 为了保证不重复爬取使用Redis作hash表,所有爬取的任务都放到hash表中进行标记。 爬取太频繁会被知乎返回429(too many request),应对的策略是挂代理,一种方法是使用专业的云代理服务(有点贵),另一种是自建代理池,定时爬取互联网上免费代理ip。最后数据使用sql server存储, 最后对数据进行分析,使用百度echart.js进行画图

6

1.抓取别人资料,有利于你找女朋友

2.抓取别人信息,对社会热点的分析和预测,帮助你赚钱

3.抓取社会消费习惯信息,分析商业行为,预测股市变化

等等太多了,就是有些信息是敏感信息,你别等人家抓你来才才后悔。

7

我编程0基础,前段时间突发奇想,就用爬虫做过一个事情,不知道算不算有趣。

起因是给女朋友买钻戒,就突然有了搞一波“大数据”分析的想法,即爬一些钻石的数据,并建立钻石各项参数和价格的拟合关系式,类似这样的事情吧。

  1. 于是用scrapy爬了一波bluenile的钻石,大约四万多颗圆钻吧;
  2. 然后用numpy 和pandas 胡乱分析了一通,matlibplot 可视化后好像能唬到人的样子………:-D;
详细的我主页文章有,比较菜,就不舔着脸给传送门了。抓到的钻石数据,有兴趣可以私信我哈。

8

介绍一种高端的玩法:用爬虫抓取网络媒体文本,用文本情感分析技术判断市场情绪,可以预测股市价格波动

常用玩法:通过抓取文本数据判断热点

9

用爬虫最大的好处是批量且自动化得获取和处理信息。对于宏观或者微观的情况都可以多一个侧面去了解(不知道能不能帮统计局一些忙)。以下是我们自己用爬虫获得的信息然后做的呈现。
(多图预警)

1、获得各个机场的实时流量


2、获得热点城市的火车票情况


3、各种热门公司招聘中的职位数及月薪分布


4、某公司的门店变化情况

10

爬虫技术可以做很多,浏览器可以做的,爬虫都可以做,爬虫可以做的,浏览器不一定做的了

比如,数据采集,模拟发包,批量下载等等

其实比较多的是采集大数据分析

关于作者: 网站小编

码农网专注IT技术教程资源分享平台,学习资源下载网站,58码农网包含计算机技术、网站程序源码下载、编程技术论坛、互联网资源下载等产品服务,提供原创、优质、完整内容的专业码农交流分享平台。

热门文章