[Pre-Training] Add tutorial for clue small 14g dataset #1555

ZHUI · 2022-01-04T08:50:39Z

PR types

Others

PR changes

Docs

Description

Add tutorial for clue small 14g dataset

ZeyuChen · 2022-01-04T08:51:45Z

examples/language_model/data_tools/README.md

@@ -131,7 +131,7 @@ chinese words:
                        可选。是否需要WWM策略。一般而言，Bert/Ernie模型需要，GPT不需要。
  --cn_seg_func {lac,seg,jieba}
                        Words segment function for chinese words.
-                        默认lac，jieba速度较快
+                        默认jieba，jieba速度较快，lac模型更复杂。


复杂这个形容词标书不准确。
应该是lac分词模型更加准确，但计算量更高。

examples/language_model/data_tools/README.md

ZeyuChen · 2022-01-04T08:59:53Z

examples/language_model/data_tools/README.md

+包含如下子语料库（总共14G语料）：新闻语料 news2016zh_corpus， 社区互动语料webText2019zh_corpus，维基百科语料wiki2019zh_corpus，评论数据-语料comments2019zh_corpus。
+
+**数据集下载**：
+用户可以通过官方githu网页下载，https://github.com/CLUEbenchmark/CLUE 。同时，为方便用户，我们也提供了aistudio数据集下载地址。[part1](https://aistudio.baidu.com/aistudio/datasetdetail/60598)，[part2](https://aistudio.baidu.com/aistudio/datasetdetail/124357)。使用aistudio版本的数据，下载好后，可以核对md5值：


github，少了b

paddlenlp/transformers/ernie/modeling.py

…clue_corpus

ZeyuChen

整体确认下官方名称，另外这部分预训练流程是否跟ernie-1.0的训练脚本合并呢？

ZeyuChen · 2022-01-09T05:29:42Z

community/zhui/cluecorpussmall_ernie-1.0/README.md

@@ -0,0 +1,48 @@
+# 详细介绍
+本权重为使用PaddleNLP提供的ernie预训练教程，在clue corpus small 14g数据集上训练得到的权重。


ernie -> ERNIE 文档书写要区分模型官方名和api的参数名，正式名称是ERNIE/ERNIE-1.0
clue corpus small 14g. 使用正式名称

ZeyuChen · 2022-01-09T05:31:39Z

community/zhui/cluecorpussmall_ernie-1.0/README.md

+```python
+import paddle
+from paddlenlp.transformers import ErnieForMaskedLM, ErnieTokenizer
+tokenizer = ErnieTokenizer.from_pretrained('zhui/cluecorpussmall_ernie-1.0')


名称改为ernie-1.0-cluecorpus2020?

double confirm下使用的语料官方名称是否角CLUECOrpus2020
https://github.com/CLUEbenchmark/CLUE

https://github.com/CLUEbenchmark/CLUECorpus2020
CLUECorpus2020 是100G的数据，需要申请，咱们使用的是 CLUECorpusSmall 只有14G。是两份不同数据。

我修改为ernie-1.0-cluecorpussmall

ZeyuChen · 2022-01-09T05:32:23Z

examples/language_model/ernie-1.0/README.md

@@ -82,6 +82,32 @@ python -u  -m paddle.distributed.launch \
 - 一般而言， `global_batch_size = micro_batch_size * sharding_degree * dp_degree`。可以使用梯度累积的方式增大`global_batch_size`。设置`global_batch_size`为理论值的整数倍是，默认启用梯度累积。
 - 训练断点重启，直接启动即可，程序会找到最新的checkpoint，开始重启训练。

+
+### Clue corpus small 数据集训练结果


CLUECorpus2020 Small？

ZHUI · 2022-01-13T10:29:25Z

整体确认下官方名称，另外这部分预训练流程是否跟ernie-1.0的训练脚本合并呢？

数据集应为CLUECorpusSmall 共14G。另CLUECorpus2020 100G未开放下载。

是指的CLUECorpusSmall数处理流程，和ernie-1.0训练脚本文档合并一起吗？

ZeyuChen · 2022-01-15T13:06:18Z

整体确认下官方名称，另外这部分预训练流程是否跟ernie-1.0的训练脚本合并呢？

数据集应为CLUECorpusSmall 共14G。另CLUECorpus2020 100G未开放下载。

是指的CLUECorpusSmall数处理流程，和ernie-1.0训练脚本文档合并一起吗？

是的，是否作为ERNIE-1.0默认的数据训练流程？

ZeyuChen

LGTM

add tutorial for clue small 14g.

d82e63d

ZHUI mentioned this pull request Jan 4, 2022

ernie-1.0本地数据训练后，预测效果变差，每次结果预测都不一样问题 #1532

Closed

add pre-train weight to community.

bcd7e42

ZeyuChen reviewed Jan 4, 2022

View reviewed changes

ZHUI added 2 commits January 4, 2022 21:50

fix typos.

99220e2

fix typo.

17ec4c9

ZHUI requested a review from ZeyuChen January 5, 2022 06:08

ZHUI added 3 commits January 5, 2022 14:09

Merge branch 'develop' into add_clue_corpus

5419975

add dataset link.

605ed30

Merge branch 'add_clue_corpus' of github.com:ZHUI/PaddleNLP into add_…

1bb43cd

…clue_corpus

ZHUI requested a review from wawltor January 5, 2022 13:32

ZHUI mentioned this pull request Jan 6, 2022

【预训练】体验优化计划 #1475

Closed

6 tasks

ZeyuChen reviewed Jan 9, 2022

View reviewed changes

change name to ernie-1.0-cluecorpussmall

89cf276

ZeyuChen approved these changes Jan 15, 2022

View reviewed changes

Merge branch 'develop' into add_clue_corpus

0ec4a71

ZeyuChen merged commit a5f8a3e into PaddlePaddle:develop Jan 15, 2022

ZHUI mentioned this pull request Jan 20, 2022

PaddleNLP 2.2.4 Release Note Candidate #1614

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Pre-Training] Add tutorial for clue small 14g dataset #1555

[Pre-Training] Add tutorial for clue small 14g dataset #1555

ZHUI commented Jan 4, 2022

ZeyuChen Jan 4, 2022

ZHUI Jan 4, 2022

ZeyuChen Jan 4, 2022

ZHUI Jan 4, 2022

ZeyuChen left a comment

ZeyuChen Jan 9, 2022

ZHUI Jan 13, 2022

ZeyuChen Jan 9, 2022

ZHUI Jan 13, 2022

ZeyuChen Jan 9, 2022

ZHUI Jan 13, 2022

ZHUI commented Jan 13, 2022

ZeyuChen commented Jan 15, 2022

ZeyuChen left a comment

		@@ -0,0 +1,48 @@
		# 详细介绍
		本权重为使用PaddleNLP提供的ernie预训练教程，在clue corpus small 14g数据集上训练得到的权重。

[Pre-Training] Add tutorial for clue small 14g dataset #1555

[Pre-Training] Add tutorial for clue small 14g dataset #1555

Conversation

ZHUI commented Jan 4, 2022

PR types

PR changes

Description

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

ZeyuChen left a comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

ZHUI commented Jan 13, 2022

ZeyuChen commented Jan 15, 2022

ZeyuChen left a comment

Choose a reason for hiding this comment