comap_crawler 美赛爬虫 美国大学生数学建模竞赛证书爬取及信息OCR识别分析 download.py:多进程下载证书,大概用时1小时 pdf2text.py: 多进程pdf OCR信息提取,大概用时1.5小时 证书数量:27205 最终识别得到的信息条数:27161 https://raw.githubusercontent.com/personqianduixue/comap_crawler/master/all/all.txt 部分信息会识别错误,例如 i 识别成了 1