We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
There was an error while loading. Please reload this page.
1 parent ab6fd93 commit 4ef8be6Copy full SHA for 4ef8be6
README.md
@@ -204,7 +204,7 @@ Code Shell使用GPT-2作为基础架构,采用Grouped-Query Attention、RoPE
204
205
### Data
206
207
-CodeShell基于Big Code开源的Stack数据集进行训练。在原始数据集的基础上,CodeShell采用基于Minihash对数据去重,基于KenLM以及高质量数据筛选模型对数据进行了过滤与筛选,最终得到高质量的预训练数据集。
+CodeShell基于自己爬取的Github数据、Big Code开源的Stack和StarCoder数据集、以及少量高质量的中英文数据进行训练。在原始数据集的基础上,CodeShell采用基于Minihash对数据去重,基于KenLM以及高质量数据筛选模型对数据进行了过滤与筛选,最终得到高质量的预训练数据集。
208
209
### Tokenizer
210
0 commit comments