在 scrapy 中,局部变量无法直接在不同回调函数(如 parse → parse_date → parse_race)间共享;需通过 self 将其设为实例属性,才能在后续回调中安全访问。
在 Scrapy 爬虫中,每个 yield scrapy.Request(..., callback=xxx) 触发的回调函数都是独立执行的协程,彼此不共享作用域。你代码中定义的 scrapedate 是 parse() 函数内的局部变量,仅在其函数体内有效;当执行到 parse_race() 时,该变量早已超出作用域,因此抛出 NameError: name 'scrapedate' is not defined。
✅ 正确做法是:将 scrapedate 提升为爬虫实例的属性(attribute),通过 self.scrapedate 在整个爬虫生命周期内维护和传递上下文信息。
以下是修正后的关键代码段(已整合逻辑并增强健壮性):
import scrapy
from datetime import datetime, timedelta
from dogscraper.items import DogItem
racedate = '2025-01-25'
days = 2
realdate = datetime.strptime(racedate, '%Y-%m-%d').date()
scrape_list = [(realdate - timedelta(days=x)).strftime('%Y-%m-%d') for x in range(days)]
class DogspiderSpider(scrapy.Spider):
name = "dogspider"
allowed_domains = ["www.thedogs.com.au"]
# start_urls 可省略,因我们动态生成初始请求
start_urls = []
def start_requests(self):
# 更规范地初始化首批请求(替代硬编码 start_urls)
for scrapedate in scrape_list:
url = f"https://www.thedogs.com.au/racing/{scrapedate}"
yield scrapy.Request(url, callback=self.parse_date, cb_kwargs={'scrapedate': scrapedate})
def parse_date(self, response, scrapedate):
# 使用 cb_kwargs 传递参数,比 self 属性更清晰、线程安全、无状态污染
try:
nswmeetings = response.css('table.meeting-grid')[0]
venues = nswmeetings.css('td.meetings-venues__name a::attr(href)').getall()
for venue_url in venues:
full_url = response.urljoin(venue_url)
yield scrapy.Request(
full_url,
callback=self.parse_meeting,
cb_kwargs={'scrapedate': scrapedate}
)
except IndexError:
self.logger.warning(f"No meeting grid found for date {scrapedate}")
def par
se_meeting(self, response, scrapedate):
race_links = response.css('a.race-box.race-box--result::attr(href)').getall()
for race_url in race_links:
full_url = response.urljoin(race_url)
yield scrapy.Request(
full_url,
callback=self.parse_race,
cb_kwargs={'scrapedate': scrapedate}
)
def parse_race(self, response, scrapedate):
dogs = response.css('tr.accordion__anchor.race-runner')
for dog in dogs:
dog_item = DogItem()
dog_item['date'] = scrapedate # ✅ 安全获取日期
# 补充其他字段提取逻辑(如 name, time, position 等)
# dog_item['name'] = dog.css('td:nth-child(2)::text').get().strip()
yield dog_item? 关键改进说明:
? 总结:Scrapy 的回调链本质是异步事件流,不要依赖局部变量跨回调传递数据。始终优先使用 cb_kwargs 传递轻量上下文(如日期、ID、分类标签等);若需共享复杂状态(如会话 token、计数器),再谨慎设计线程安全的实例属性或使用 meta 字典(但 cb_kwargs 更简洁、类型友好)。