From faf5381491c27d57ba3f1cd931a8d53489f015c1 Mon Sep 17 00:00:00 2001 From: Triwoods2333 <90879899+Triwoods2333@users.noreply.github.com> Date: Tue, 16 Apr 2024 12:13:09 +0800 Subject: [PATCH] Update README.md --- README.md | 3 ++- 1 file changed, 2 insertions(+), 1 deletion(-) diff --git a/README.md b/README.md index 27098ea..91343c8 100644 --- a/README.md +++ b/README.md @@ -1,3 +1,4 @@ 首先运行get_all-final.py,爬取现存所有npm软件包元数据,然后运行get-infos.py,获取每个软件包详情,获取后判断创建时间,如果是新创建的就下载 \ get-infos.py获取的软件包详情没有采用表格记录,而是一条一条的.txt文件,因为数据量太大了,只要运行就无响应然后闪退 -### 目前存在的问题:由于是网络请求的api,寝室校园网不稳定,换成热点也不是很稳定,接口不支持断点续传,链接中断直接要从头开始,而跑一次又要很久,容错率很低,到目前为止也没完整的跑下来一次 〒▽〒 +### 目前存在的问题[已解决]:由于是网络请求的api,寝室校园网不稳定,换成热点也不是很稳定,接口不支持断点续传,链接中断直接要从头开始,而跑一次又要很久,容错率很低,到目前为止也没完整的跑下来一次 〒▽〒 +### *新增了断点续传:在网络中断的时候,会输出中断位置,只要输入中断位置即可接着上次的位置爬取元数据(全部完整爬取大概要一两天)