使用Python进行网页採集：循序渐进指南-58码农网

从网站提取数据的需求正在增加。当我们进行数据相关项目，如价格监控，业务分析或新闻聚合器时，我们总是需要记录来自网站的数据。但是，逐行複制和粘贴数据已经过时。在本文中，我们将教你如何成为从网站中提取数据的“内部人员”，即使用python进行网页抓取。

第0步：简介

Web抓取技术可以帮助我们将HTML非结构化数据转换为电子表格或数据库中的结构化数据。除了使用python编写代码之外，使用API访问网站数据或使用Octoparse等数据提取工具也是网页抓取的其他选择。

对于像Airbnb或Twitter这样的大型网站，他们会为开发人员提供API来访问他们的数据。 API代表应用程序编程接口，它是两个应用程序相互通信的访问。对于大多数人来说，API是获取网站自身提供的数据的最佳方法。

但是，大多数网站没有API服务。有时即使他们提供API，您可能获得的数据也不是您想要的。因此，编写python脚本来构建Web爬虫是另一个强大而灵活的解决方案。

那么我们为什么要使用python而不是其他语言呢？

灵活性：众所周知，网站更新迅速。不仅内容而且网络结构都会经常变化。 Python是一种易于使用的语言，因为它具有动态可输入性和高效性。因此，人们可以轻鬆地更改代码并跟上Web更新的速度。
功能强大：Python拥有大量成熟的库。例如，requests，beautifulsoup4可以帮助我们获取URL并从网页中提取信息。 Selenium可以通过让网络抓取工具模仿人类浏览行为来帮助我们避免一些反刮技术。此外，re，numpy和pandas可以帮助我们清理和处理数据。

现在让我们开始使用Python进行网络抓取之旅！

第1步：导入Python库

在本教程中，我们将向您展示如何从Yelp中删除评论。我们将使用两个库：bs4中的BeautifulSoup和urllib中的请求。这两个库通常用于使用Python构建Web爬网程序。第一步是在Python中导入这两个库，以便我们可以使用这些库中的函数。

第2步：从网页中提取HTML

我们需要从“https://www.yelp.com/biz/milk-and-cream-cereal-bar-new-york?osq=Ice+Cream”中提取评论。首先，让我们将URL保存在名为URL的变量中。然后我们可以访问此网页上的内容，并通过在请求中使用urlopen（）函数将HTML保存在“ourUrl”中。