scrapy-redis 中 dupefilter 缺失问题解析

作者: 纯情

时间: 2026-02-26

分类:

先给结论：

核心结论： 不是没用 Redis Scheduler，而是 dont_filter=True 跳过了去重器，所以 Redis 里不会创建 dupefilter 这个 Key。

问题背景

在 scrapy-redis 爬虫中，如果不重写 start_requests()，而是使用父类默认方法，会发现 Redis 里没有 xxx:dupefilter 这个 Set。

Spider → Engine → Scheduler → DupeFilter（去重器）

是否触发去重，取决于 request.dont_filter 的值。

scrapy_redis.spiders.RedisSpider 默认实现大致如下：

yield Request(url, dont_filter=True)

关键就在 dont_filter=True。

Scheduler.enqueue_request() 中有如下判断：

if not request.dont_filter:
    if self.df.request_seen(request):
        return False

逻辑链路：

场景	方式	Redis dupefilter
使用父类默认 `start_requests()`	`dont_filter=True`	❌ 不创建
自己重写，使用默认 Request	`dont_filter=False`（默认）	✅ 创建

自己重写示例：

def start_requests(self):
    yield scrapy.Request(url)  # dont_filter 默认为 False，会触发去重

dont_filter=True 只影响：

不影响：

RedisSpider 作为分布式爬虫入口，URL 是从 Redis 队列 lpush 进来的，设计假设是：

所以默认 dont_filter=True，跳过去重。

本质理解：dont_filter 控制的是单个 Request 是否走去重流程，与使用哪个 Scheduler 无关。

标签: none