@@ -391,6 +391,7 @@ time {"type": "timestamp", "timestamp": "2018-11-27 11:00:00"}
391391- [ 自然语言生成:让机器掌握自动创作的本领 - 开放域对话生成及在微软小冰中的实践] ( https://drive.google.com/file/d/1Mdna3q986k6OoJNsfAHznTtnMAEVzv5z/view )
392392- [ 文本生成控制] ( https://github.com/harvardnlp/Talk-Latent/blob/master/main.pdf )
393393- [ 自然语言生成相关资源大列表] ( https://github.com/tokenmill/awesome-nlg )
394+ - [ 用BLEURT评价自然语言生成] ( https://ai.googleblog.com/2020/05/evaluating-natural-language-generation.html )
394395
395396** 44\. :**
396397[ jieba] ( https://github.com/fxsjy/jieba ) 和[ hanlp] ( https://github.com/hankcs/pyhanlp ) 就不必介绍了吧。
@@ -619,6 +620,7 @@ mail1
619620** 97\. 虚假新闻数据集 fake news corpus** [ github] ( https://github.com/several27/FakeNewsCorpus )
620621
621622** 98\. Facebook: LAMA语言模型分析,提供Transformer-XL/BERT/ELMo/GPT预训练语言模型的统一访问接口** [ github] ( https://github.com/facebookresearch/LAMA )
623+ - 用于分析预训练语言模型中包含的事实和常识知识的探针。
622624
623625** 99\. CommonsenseQA:面向常识的英文QA挑战** [ link] ( https://www.tau-nlp.org/commonsenseqa )
624626
@@ -1029,12 +1031,14 @@ for word in misspelled:
10291031 - [ invoice2data] ( https://github.com/invoice-x/invoice2data ) : 发票pdf信息抽取
10301032 - [ camelot] ( https://github.com/atlanhq/camelot ) : pdf表格解析
10311033 - [ pdfplumber] ( https://github.com/jsvine/pdfplumber ) : pdf表格解析
1034+ - [ pdf文档信息抽取] ( https://github.com/jstockwin/py-pdf-parser )
10321035- pdf语义分割
10331036 - [ PubLayNet] ( https://go.ctolib.com/ibm-aur-nlp-PubLayNet.html ) :能够划分段落、识别表格、图片
10341037- pdf读取工具
10351038 - [ PDFMiner] ( https://github.com/euske/pdfminer ) :PDFMiner能获取页面中文本的准确位置,以及字体或行等其他信息。它还有一个PDF转换器,可以将PDF文件转换成其他文本格式(如HTML)。还有一个可扩展的解析器PDF,可以用于文本分析以外的其他用途。
10361039 - [ PyPDF2] ( https://github.com/mstamy2/PyPDF2 ) :PyPDF 2是一个python PDF库,能够分割、合并、裁剪和转换PDF文件的页面。它还可以向PDF文件中添加自定义数据、查看选项和密码。它可以从PDF检索文本和元数据,还可以将整个文件合并在一起。
10371040 - [ ReportLab] ( https://www.reportlab.com/opensource/ ) :ReportLab能快速创建PDF 文档。经过时间证明的、超好用的开源项目,用于创建复杂的、数据驱动的PDF文档和自定义矢量图形。它是免费的,开源的,用Python编写的。该软件包每月下载5万多次,是标准Linux发行版的一部分,嵌入到许多产品中,并被选中为Wikipedia的打印/导出功能提供动力。
1041+ -
10381042
10391043** 273\. 中文词语相似度计算方法** [ gihtub] ( https://github.com/yaleimeng/Final_word_Similarity )
10401044- 综合了同义词词林扩展版与知网(Hownet)的词语相似度计算方法,词汇覆盖更多、结果更准确。
@@ -1091,4 +1095,86 @@ for word in misspelled:
10911095
10921096** 297\. Fancy-NLP:用于建设商品画像的文本知识挖掘工具** [ github] ( https://github.com/boat-group/fancy-nlp )
10931097
1094- ** 298\. 基于百度webqa与dureader数据集训练的Albert Large QA模型** [ github] ( https://github.com/wptoux/albert-chinese-large-webqa/tree/master )
1098+ ** 298\. 基于百度webqa与dureader数据集训练的Albert Large QA模型** [ github] ( https://github.com/wptoux/albert-chinese-large-webqa/tree/master )
1099+
1100+ ** 299\. BERT/CRF实现的命名实体识别** [ github] ( https://github.com/Louis-udm/NER-BERT-CRF )
1101+
1102+ ** 300\. ssc, Sound Shape Code, 音形码 - 基于“音形码”的中文字符串相似度计算方法**
1103+ - [ version 1] ( https://github.com/qingyujean/ssc )
1104+ - [ version 2] ( https://github.com/wenyangchou/SimilarCharactor )
1105+ - [ blog/introduction] ( https://blog.csdn.net/chndata/article/details/41114771 )
1106+
1107+ ** 301\. 中文指代消解数据** [ github] ( https://github.com/CLUEbenchmark/CLUEWSC2020 )
1108+ - [ baidu ink] ( https://pan.baidu.com/s/1gKP_Mj-7KVfFWpjYvSvAAA ) code: a0qq
1109+
1110+ ** 302\. 全面简便的中文 NLP 工具包** [ github] ( https://github.com/dongrixinyu/JioNLP )
1111+
1112+ ** 303\. 中文地址分词(地址元素识别与抽取),通过序列标注进行NER** [ github] ( https://github.com/yihenglu/chinese-address-segment )
1113+
1114+ ** 304\. 用Transformers(BERT, XLNet, Bart, Electra, Roberta, XLM-Roberta)预测下一个词(模型比较)** [ github] ( https://github.com/renatoviolin/next_word_prediction )
1115+
1116+ ** 305\. 文本机器学习模型最先进解释器库** [ github] ( https://github.com/interpretml/interpret-text )
1117+
1118+ ** 306\. 多文档摘要数据集** [ github] ( https://github.com/complementizer/wcep-mds-dataset )
1119+
1120+ ** 307\. 用记事本渲染3D图像** [ github] ( https://github.com/khalladay/render-with-notepad )
1121+
1122+ ** 308\. char_featurizer - 汉字字符特征提取工具** [ github] ( https://github.com/charlesXu86/char_featurizer )
1123+
1124+ ** 309\. SimBERT - 基于UniLM思想、融检索与生成于一体的BERT模型** [ github] ( https://github.com/ZhuiyiTechnology/simbert )
1125+
1126+ ** 310\. Python音频特征提取包** [ github] ( https://github.com/novoic/surfboard )
1127+
1128+ ** 311\. TensorFlow 2 实现的文本语音合成** [ github] ( https://github.com/as-ideas/TransformerTTS )
1129+
1130+ ** 312\. 情感分析技术:让智能客服更懂人类情感** [ github] ( https://developer.aliyun.com/article/761513?utm_content=g_1000124809 )
1131+
1132+ ** 313\. TensorFlow Hub最新发布40+种语言的新语言模型(包括中文)** [ link] ( https://tfhub.dev/google/collections/wiki40b-lm/1 )
1133+
1134+ ** 314\. 汉字字符特征提取器 (featurizer),提取汉字的特征(发音特征、字形特征)用做深度学习的特征** [ github] ( https://github.com/howl-anderson/hanzi_char_featurizer )
1135+
1136+ ** 315\. 工业界常用基于DSSM向量化召回pipeline复现** [ github] ( https://github.com/wangzhegeek/DSSM-Lookalike )
1137+
1138+ ** 316\. 不存在的词:用GPT-2变体从头生成新词及其定义、例句** [ github] ( https://github.com/turtlesoupy/this-word-does-not-exist )
1139+
1140+ ** 317\. TextAttack:自然语言处理模型对抗性攻击框架** [ github] ( https://github.com/QData/TextAttack )
1141+
1142+ ** 318\. 仇恨言论检测进展** [ link] ( https://ai.facebook.com/blog/ai-advances-to-better-detect-hate-speech )
1143+
1144+ ** 319\. OPUS-100:以英文为中心的多语(100种)平行语料** [ github] ( https://github.com/EdinburghNLP/opus-100-corpus )
1145+
1146+ ** 320\. 从论文中提取表格数据** [ github] ( https://github.com/paperswithcode/axcell )
1147+
1148+ ** 321\. 让人人都变得“彬彬有礼”:礼貌迁移任务——在保留意义的同时将非礼貌语句转换为礼貌语句,提供包含1.39M + 实例的数据集** [ paper and code] ( https://arxiv.org/abs/2004.14257 )
1149+
1150+ ** 322\. 用BERT在表格中寻找答案** [ github] ( https://github.com/google-research/tapas )
1151+
1152+ ** 323\. PyTorch实现的BERT事件抽取(ACE 2005 corpus)** [ github] ( https://github.com/nlpcl-lab/bert-event-extraction )
1153+
1154+ ** 324\. 表格问答的系列文章**
1155+ - [ 简介] ( https://mp.weixin.qq.com/s?__biz=MzAxMDk0OTI3Ng==&mid=2247484103&idx=2&sn=4a5b50557ab9178270866d812bcfc87f&chksm=9b49c534ac3e4c22de7c53ae5d986fac60a7641c0c072d4038d9d4efd6beb24a22df9f859d08&scene=21#wechat_redirect )
1156+ - [ 模型] ( https://mp.weixin.qq.com/s?__biz=MzAxMDk0OTI3Ng==&mid=2247484103&idx=1&sn=73f37fbc1dbd5fdc2d4ad54f58693ef3&chksm=9b49c534ac3e4c222f6a320674b3728cf8567b9a16e6d66b8fdcf06703b05a16a9c9ed9d79a3&scene=21#wechat_redirect )
1157+ - [ 完结篇] ( https://mp.weixin.qq.com/s/ee1DG_vO2qblqFC6zO97pA )
1158+
1159+ ** 325\. LibKGE:面向可复现研究的知识图谱嵌入库** [ github] ( https://github.com/uma-pi1/kge )
1160+
1161+ ** 326\. comparxiv :用于比较arXiv上两提交版本差异的命令** [ pypi] ( https://pypi.org/project/comparxiv/ )
1162+
1163+ ** 327\. ViSQOL:音频质量感知客观、完整参考指标,分音频、语音两种模式** [ github] ( https://github.com/google/visqol )
1164+
1165+ ** 328\. 方面情感分析包** [ github] ( https://github.com/ScalaConsultants/Aspect-Based-Sentiment-Analysis )
1166+
1167+ ** 329\. dstlr:非结构化文本可扩展知识图谱构建平台** [ github] ( https://github.com/dstlry/dstlr )
1168+
1169+ ** 330\. 由文本自动生成多项选择题** [ github] ( https://github.com/KristiyanVachev/Question-Generation )
1170+
1171+ ** 331\. 大规模跨领域中文任务导向多轮对话数据集及模型CrossWOZ** [ paper & data] ( https://arxiv.org/pdf/2002.11893.pdf )
1172+
1173+ ** 332\. whatlies:词向量交互可视化** [ spacy
1174+ 工具] ( https://spacy.io/universe/project/whatlies )
1175+
1176+ ** 333\. 支持批并行的LatticeLSTM中文命名实体识别** [ github] ( https://github.com/LeeSureman/Batch_Parallel_LatticeLSTM )
1177+
1178+ ** 334\. 基于Albert、Electra,用维基百科文本作为上下文的问答引擎** [ github] ( https://github.com/renatoviolin/Question-Answering-Albert-Electra )
1179+
1180+ ** 335\. Deepmatch:针对推荐、广告和搜索的深度匹配模型库** [ github] ( https://github.com/shenweichen/DeepMatch )
0 commit comments