php_web_spider

php网络蜘蛛,信息收集工具

一个php实现的、基于cURL和simple html dom的轻量级网络爬虫

A web spider, using php, based on cURL & simple html dom.

配置

// 简单配置 cookie文件目录和第三方网页分析库simple_html_dom的位置 define("COOKIE_FILE", "./cookie.txt"); define("PARSER_FILE", './simple_html_dom.php'); // 添加php_web_spider,创建一个实例 require_once('./php_web_spider.php'); $sp = new spider;

应用场合一 抓取检索结果

// eg1 可以直接get百度检索结果 $url = 'http://www.baidu.com/s?ie=UTF-8&wd=%E4%BD%A0%E5%A5%BD'; echo $sp-> fetch($url); // eg2 可以直接get豆瓣图书检索结果 $url = 'http://book.douban.com/subject_search?search_text=php&cat=1001'; echo $sp-> fetch($url);

应用场合二 登陆,抓取信息

// eg 登陆我校图书馆获取图书信息 $username = '你的用户名'; $password = '你的密码'; $url = 'http://www.lib.dlut.edu.cn/'; $sp-> login($url,$username,$password) or die("Fail in login."); $sp-> fetch('http://opac.lib.dlut.edu.cn/reader/book_lst.php'); // 提取当前借阅信息到关联数组 $books = $sp-> fetch_table('[class=table_line]'); header("Content-type: text/html; charset=utf-8"); print_r ($books); // 将信息转为字符串输出 $info = ""; foreach($books as $key => $book){ // 如果图书超期加上超期前缀 $deadline = date_create($book['应还日期']); $now= date_create(); if($deadline>$now){ $info .= "(超期)"; } $book_name = $book['题名/责任者']; // 追加信息 $info .= $book_name."n"; } echo "图书信息:n".$info;

版权声明:

1、该文章(资料)来源于互联网公开信息,我方只是对该内容做点评,所分享的下载地址为原作者公开地址。
2、网站不提供资料下载,如需下载请到原作者页面进行下载。
3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考学习用!
4、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。