Skip to content

美赛爬虫,美国大学生数学建模竞赛证书爬取及信息OCR识别分析

Notifications You must be signed in to change notification settings

personqianduixue/comap_crawler

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

comap_crawler

美赛爬虫

美国大学生数学建模竞赛证书爬取及信息OCR识别分析

download.py:多进程下载证书,大概用时1小时

pdf2text.py: 多进程pdf OCR信息提取,大概用时1.5小时

证书数量:27205

最终识别得到的信息条数:27161

https://raw.githubusercontent.com/personqianduixue/comap_crawler/master/all/all.txt

部分信息会识别错误,例如 i 识别成了 1

About

美赛爬虫,美国大学生数学建模竞赛证书爬取及信息OCR识别分析

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published