Skip to content

Commit 4ef8be6

Browse files
authored
Update README.md
1 parent ab6fd93 commit 4ef8be6

File tree

1 file changed

+1
-1
lines changed

1 file changed

+1
-1
lines changed

README.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -204,7 +204,7 @@ Code Shell使用GPT-2作为基础架构,采用Grouped-Query Attention、RoPE
204204

205205
### Data
206206

207-
CodeShell基于Big Code开源的Stack数据集进行训练。在原始数据集的基础上,CodeShell采用基于Minihash对数据去重,基于KenLM以及高质量数据筛选模型对数据进行了过滤与筛选,最终得到高质量的预训练数据集。
207+
CodeShell基于自己爬取的Github数据、Big Code开源的Stack和StarCoder数据集、以及少量高质量的中英文数据进行训练。在原始数据集的基础上,CodeShell采用基于Minihash对数据去重,基于KenLM以及高质量数据筛选模型对数据进行了过滤与筛选,最终得到高质量的预训练数据集。
208208

209209
### Tokenizer
210210

0 commit comments

Comments
 (0)