arxiv_extractor_mnbvc 本项目从arxiv原始文件中收集两种语料: .tex类型的代码语料 多模态语料 get started environment pip install chardet docker 安装 https://github.com/arxiv-vanity/engrafo 中的docker file usage 准备好arxiv原始文件 python extract.py 得到的tex.jsonl是代码语料。