1
其实200人被抓不是因为谁写了一条爬虫,而是这些丧尽天良的公司利用这条爬虫做了哪些伤天害理的事情。
爬虫和采集都是大数据公司获取客户信息的手段,所不同的是,爬虫是通过隐匿性的方式无限度的采集用户数据,然后深度筛选后再出售给目标客户,实际上就是一个法律灰色地带产业甚至是违法行为。
采集是通过获得用户授权的方式获取用户有限数据,相对来说,既然是用户授权,可以称之为是一种合法获取。
原本爬虫和采集有着泾渭分明的差别,一个是合法的,一个是不合法的,但是在大数据时代的激烈竞争中,两者的差别越来越小,界限越来越模糊。采集虽然获得用户授权,却存在过度采集以及刻意打法律擦边球,贩卖信息等违法行为。
为了更多的获取优质数据,基于自身强大的算法和研发实力,现在的爬虫具有强大的防反爬机制,几乎能获取互联网上所有公开的数据源数据;
2
写虫子