1
这里介绍一种简单的方式—BeautifulSoup,利用BeautifulSoup将爬虫获取到的html页面转化为树形结构,然后再根据需要提取标签的内容及属性,不需要正则表达式,下面我简单介绍一下BeautifulSoup安装和使用,实验环境win10+python3.6+pycharm5.0,主要内容如下:
1.安装bs4,这里直接在cmd窗口输入命令“pip install bs4”就行,如下,很快就能安装完毕:
2.安装成功后,我们就可以进行测试了,为了更好地说明问题,这里假设爬取的数据如下,内容比较简单:
2
匹配方式主流的有三种:
1.re 我在爬虫开发中一般用这种来匹配js中的内容。说下优缺点:调试困难,相对较难找出匹配了多少数据,由于页面内容复杂较大概率出现错误匹配。
2.xpath选择器和css选择器 xpath是我开发过程中最常用的匹配方式,原理和css类似,都是基于html dom节点,不改变网页内容基本不会出问题。两者基本上规则都一样,只是形式不同
3
推荐你个不需要懂编程就可以使用的流程自动化小工具,博 为小 帮软 件机 器人。可以实现批量采集,批量录入,批量操作的自动化办公室小工具。专为零基础编码人群设计,真正实现零代码编程,只要会基本电脑操作,熟悉自己业务流程,轻松点击鼠标,教会小帮学会业务流程中需要批量性和重复性的数据采集操作,即可轻松收集任何软件/网页的数据。