2020 年 2月 20 日随笔档案 - kuluma - 博客园

2020年2月20日

摘要： Requests库—自动爬取HTML页面，自动网络请求提交 Robots.txt—网络爬虫排除标准 BeautifulSoup库—解析HTML页面，信息标记与提取方法 Re库—正则表达式，提取页面关键信息简洁表达字符串，应用于字符串匹配，模糊查找一、正则表达式常用操作符二、经典的正则表达式三阅读全文

posted @ 2020-02-20 16:41 kuluma 阅读(352) 评论(0) 推荐(0) 编辑

【MOOC】【实例】—中国最好大学定向爬取

摘要： “中国最好大学定向爬取”实例定向爬虫：仅对输入的URL进行爬取，不扩展爬取三个模块： 1、从网页上获取大学排名网页内容 getHTMLText() 2、提取网页内容的信息到合适的数据结构中 fillUnivList() 3、立用数据结构展示并输出结果 printUnivList() 两个要阅读全文

posted @ 2020-02-20 15:11 kuluma 阅读(243) 评论(0) 推荐(0) 编辑

kuluma

公告