本项目从arxiv原始文件中收集两种语料:
- .tex类型的代码语料
- 多模态语料
pip install chardet docker
安装 https://github.com/arxiv-vanity/engrafo 中的docker file
准备好arxiv原始文件
python extract.py
得到的tex.jsonl
是代码语料。
本项目从arxiv原始文件中收集两种语料:
pip install chardet docker
安装 https://github.com/arxiv-vanity/engrafo 中的docker file
准备好arxiv原始文件
python extract.py
得到的tex.jsonl
是代码语料。