Octoparse网页抓取:处理CAPTCHA / reCAPTHCA

验证码或reCaptcha是许多网站採用的一种常见的反抓取技术。 他们会要求您先解决验证码,然后再登录帐户或访问数据。

儘管Octoparse无法自动处理Captcha,但是有解决此问题的方法。

1)手动输入本地提取的验证码
2)保存cookie以避免遇到验证码

1)手动输入本地提取的验证码。

1.生成任务时,单击文本框以在内置浏览器中手动输入验证码。

单击文本框
 

2.在单击登录按钮之前或在解决验证码之后的步骤中,设置足够的等待时间。

等待时间
 

3.在本地运行任务时,可以在提取窗口中手动输入验证码或求解其他类型的验证码。

本地运行任务

 
 

 

 

2)保存cookie以避免遇到验证码

每次运行任务时手动输入验证码是非常不便的,不能应用于云提取。如果网站支持使用cookie,我们可以保存cookie以保持登录状态。

从本教程中了解有关如何保存登录Cookie的详细信息:[单击此处]

 

提示!

目前无法解决在抓取过程中遇到的Catpcha。我们建议您使用等待时间功能减慢提取速度。 [点击这里 ]


关于作者: 网站小编

码农网专注IT技术教程资源分享平台,学习资源下载网站,58码农网包含计算机技术、网站程序源码下载、编程技术论坛、互联网资源下载等产品服务,提供原创、优质、完整内容的专业码农交流分享平台。

热门文章