PaddleNLP提供了以下数据集的快速读取API,实际使用时请根据需要添加splits信息:
数据集名称 | 简介 | 调用方法 |
---|---|---|
SQuAD | 斯坦福问答数据集,包括SQuAD1.1和SQuAD2.0 | paddlenlp.datasets.load_dataset('squad') |
DuReader-yesno | 千言数据集:阅读理解,判断答案极性 | paddlenlp.datasets.load_dataset('dureader_yesno') |
DuReader-robust | 千言数据集:阅读理解,答案原文抽取 | paddlenlp.datasets.load_dataset('dureader_robust') |
CMRC2018 | 第二届“讯飞杯”中文机器阅读理解评测数据集 | paddlenlp.datasets.load_dataset('cmrc2018') |
DRCD | 台達閱讀理解資料集 | paddlenlp.datasets.load_dataset('drcd') |
数据集名称 | 简介 | 调用方法 |
---|---|---|
CoLA | 单句分类任务,二分类,判断句子是否合法 | paddlenlp.datasets.load_dataset('glue','cola') |
SST-2 | 单句分类任务,二分类,判断句子情感极性 | paddlenlp.datasets.load_dataset('glue','sst-2') |
MRPC | 句对匹配任务,二分类,判断句子对是否是相同意思 | paddlenlp.datasets.load_dataset('glue','mrpc') |
STSB | 计算句子对相似性,分数为1~5 | paddlenlp.datasets.load_dataset('glue','sts-b') |
QQP | 判定句子对是否等效,等效、不等效两种情况,二分类任务 | paddlenlp.datasets.load_dataset('glue','qqp') |
MNLI | 句子对,一个前提,一个是假设。前提和假设的关系有三种情况:蕴含(entailment),矛盾(contradiction),中立(neutral)。句子对三分类问题 | paddlenlp.datasets.load_dataset('glue','mnli') |
QNLI | 判断问题(question)和句子(sentence)是否蕴含,蕴含和不蕴含,二分类 | paddlenlp.datasets.load_dataset('glue','qnli') |
RTE | 判断句对是否蕴含,句子1和句子2是否互为蕴含,二分类任务 | paddlenlp.datasets.load_dataset('glue','rte') |
WNLI | 判断句子对是否相关,相关或不相关,二分类任务 | paddlenlp.datasets.load_dataset('glue','wnli') |
LCQMC | A Large-scale Chinese Question Matching Corpus 语义匹配数据集 | paddlenlp.datasets.load_dataset('lcqmc') |
ChnSentiCorp | 中文评论情感分析语料 | paddlenlp.datasets.load_dataset('chnsenticorp') |
数据集名称 | 简介 | 调用方法 |
---|---|---|
MSRA_NER | MSRA 命名实体识别数据集 | paddlenlp.datasets.load_dataset('msra_ner') |
People's Daily | 人民日报命名实体识别数据集 | paddlenlp.datasets.load_dataset('peoples_daily_ner') |
数据集名称 | 简介 | 调用方法 |
---|---|---|
IWSLT15 | IWSLT'15 English-Vietnamese data 英语-越南语翻译数据集 | paddlenlp.datasets.load_dataset('iwslt15') |
WMT14ENDE | WMT14 EN-DE 经过BPE分词的英语-德语翻译数据集 | paddlenlp.datasets.load_dataset('wmt14ende') |
数据集名称 | 简介 | 调用方法 |
---|---|---|
BSTC | 千言数据集:机器同传,包括transcription_translation和asr | paddlenlp.datasets.load_dataset('bstc', 'asr') |
数据集名称 | 简介 | 调用方法 |
---|---|---|
Poetry | 中文诗歌古典文集数据 | paddlenlp.datasets.load_dataset('poetry') |
Couplet | 中文对联数据集 | paddlenlp.datasets.load_dataset('couplet') |
数据集名称 | 简介 | 调用方法 |
---|---|---|
PTB | Penn Treebank Dataset | paddlenlp.datasets.load_dataset('ptb') |
Yahoo Answer 100k | 从Yahoo Answer采样100K | paddlenlp.datasets.load_dataset('yahoo_answer_100k') |