摘要: Requests库—自动爬取HTML页面,自动网络请求提交 Robots.txt—网络爬虫排除标准 BeautifulSoup库—解析HTML页面,信息标记与提取方法 Re库—正则表达式,提取页面关键信息 简洁表达字符串,应用于字符串匹配,模糊查找 一、正则表达式常用操作符 二、经典的正则表达式 三 阅读全文
posted @ 2020-02-20 16:41 kuluma 阅读(352) 评论(0) 推荐(0) 编辑
摘要: “中国最好大学定向爬取”实例 定向爬虫:仅对输入的URL进行爬取,不扩展爬取 三个模块: 1、 从网页上获取大学排名网页内容 getHTMLText() 2、 提取网页内容的信息到合适的数据结构中 fillUnivList() 3、 立用数据结构展示并输出结果 printUnivList() 两个要 阅读全文
posted @ 2020-02-20 15:11 kuluma 阅读(243) 评论(0) 推荐(0) 编辑