2020 年 6月 21 日随笔档案 - 高汤 - 博客园

2020年6月21日

摘要：把起始URL放到redis中去 from scrapy_redis.spiders import RedisSpider # 继承RedisSpider class ChoutiSpider(RedisSpider): name = 'chouti' allowed_domains = ['chou 阅读全文

posted @ 2020-06-21 19:13 高汤阅读(624) 评论(0) 推荐(0) 编辑

去重配置和调度器配置代码优先级

摘要：去重的配置： DUPEFILTER_KEY = 'dupefilter:%(timestamp)s' DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" 调度器配置： SCHEDULER = "scrapy_redis.schedul 阅读全文

posted @ 2020-06-21 19:12 高汤阅读(340) 评论(0) 推荐(0) 编辑

爬虫流程

摘要：整个爬虫流程 1、scrapy crawl chouti --nolog 2、找到 SCHEDULER = "scrapy_redis.scheduler.Scheduler" 配置并实例化调试器对象 - 执行Scheduler.from_crawler - 执行Scheduler.from_set 阅读全文

posted @ 2020-06-21 19:10 高汤阅读(148) 评论(0) 推荐(0) 编辑

高汤

公告