PaddleNLP v2.2.4
我们很高兴的发布 PaddleNLP 2.2.4 版本,主要是对 2.2.3 中一些功能的修复,并对部分功能点和文档做了增强,重点如下:
新功能
- 新增西班牙语和荷兰语实体识别数据集 CoNLL-2012。 #1561
功能优化
- 小模型 PP-MiniLM 接入 FasterTokenizer,量化、裁剪后的模型推理速度达到 BERTbase 的 8.8 倍。#1542
- Transformer 动态图支持 O2 级别 AMP 训练@zhangbo9674。#1574
- 语义索引应用增加Paddle Serving支持。 #1558
问题修复
- 修复 ERNIE-Doc 模型 NLTK 包模型下载的错误。#1515
- 修复多个 Transformer 模型在 FP16 精度下
attention_mask
计算溢出的错误。#1585 - 修复 LAC 模型 TRT 预测配置错误。 #1606
- 修复 BART 文本摘要示例的评估错误。#1560
- 修复 BART 文本摘要示例在 Windows 环境下报错。 #1588
- 修复
Tokenizer.__call__()
方法truncation_strategy不生效的bug。 #1615 - 修复 RobertaTokenizer 不能获取special token的bug。 #1618
- 修复BART和mBART不支持2维attention mask。#1637
- 修复CNN/DailyMail 和 XNLI 数据集多卡下载报错。#1587
文档更新
- 为 ERNIE-1.0 训练任务添加了 CLUECorpusSmall 数据集训练教程。#1555
社区贡献
- 新增 FNet @HJHGJGHHG。#1499
- 修复 Read the Docs 文档 Dataset API 页面格式错误的问题@GT-ZhangAcer。#1570