成片的Crawled (200)

如图所示，comment正常爬取时，返回的都是DEBUG: Scraped from <200 URL>{content}。但是图中出现了成片DEBUG: Crawled (200) <GET URL> (referer: None)的形式。出现此种问题后，comment.py往往会飞快地结束。（可能是直接跳过了无法爬取的微博）。

我对comment.py做了改动，改动是将tweet_id加入了对应评论的数据集中。（见附件）
同时，我将setting.py中的并行数从16改为8，将随机请求时间上限从1改为5

<img width="1719" alt="截屏2024-09-22 15 02 55" src="https://github.com/user-attachments/assets/e1addfb5-f34f-45c2-b87b-3e075b13b75b">
[comment.py.zip](https://github.com/user-attachments/files/17088611/comment.py.zip)


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

成片的Crawled (200) #343

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

成片的Crawled (200) #343

Description

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions