Skip to content

Latest commit

 

History

History
180 lines (150 loc) · 57.9 KB

README.md

File metadata and controls

180 lines (150 loc) · 57.9 KB

NLPer-Arsenal

NLP人军火库,主要收录NLP竞赛策略实现、各任务教程、经验贴、学习资料以及会议时间等,如果对你有帮助,请给我们一个star。

本项目主要包含以下内容:

  • NLPer-Arsenal-Code (2021.12)
    • 插件式验证NLP竞赛策略,并提供解耦实现,方便迁移到自己的模型中,here
    • NLP各任务教程(文本分类/文本生成),通过注释详细的baseline快速了解各个任务,here
  • NLPer-Arsenal-Post(2021.03)
    • 往期竞赛总结,收录已经结束的竞赛,包括数据集、开源代码、选手方案,here
    • 当前重点赛事与训练赛,记录当下正在进行的NLP赛事,here
  • 其它
    • 自媒体推荐,提供一些NLPer常用的公众号/网站等,简单了解一些前沿动态,here
    • 算力推荐,推荐一些算力资源,免费/收费的都有,here
    • 竞赛平台,推荐一些主要的竞赛平台,here
    • 会议时间,跟踪记录NLP会议收稿/开会时间,here

项目正在不断完善,如果您有什么建议,欢迎到issue 留言,或者通过邮箱(hello@arsenal-ai.cn)联系我们。

所有内容均由我们从网络公开资料中收集整理得到,版权归原作者所有,如有侵权请立即与我们联系,我们将及时处理。

整理不易,转载时请务必备注本项目github链接,感谢您为维护良好的开源环境出一份力。

目录

当前赛事

重点赛

记录当前正在进行的竞赛,奖金丰厚,适合有一定基础的NLPer;结束时间为官网标准时间或会议召开时间。

领域/会议 竞赛 报名时间 结束时间
大模型 基于通用大模型的知识库问答
面向大语言模型的提示注入攻防竞赛
基于大模型的开源软件安全应用情报员应用开发
2023.08.23-10.24
2023.8.14-9.28
同上
2023.11.03-11.05
2023.11
同上
CAIL2023 1. 司法考试
2. 对话式类案检索
3. 类案检索
4. 事实认定
5. 论辩理解
6. 信息抽取
7. 司法大模型
2023.8-11,具体时间详见各赛事安排 2023.12
CHIP2023 评测一: CHIP-PromptCBLUE医疗大模型评测任务不微调参数微调
评测二: 中文医学文本小样本命名实体识别评测任务
评测三:药品纸质文档识别与实体关系抽取任务
2023.8.1-9.27 2023.10.27-10.29
SMP2023 ChatGLM 金融大模型挑战赛 2023.7.19-8.16 2023.9
AI开发者大赛 中文语义病句识别与纠正挑战赛
多语言机器翻译挑战赛
人岗匹配挑战赛2.0
汽车领域文本规X则泛化性增强挑战赛
基于论文摘要的文本分类与关键词抽取挑战赛
机器翻译质量评估挑战赛2023
校招简历应聘岗位与项目技能匹配检测挑战赛
校招简历信息完整性检测挑战赛
方面情感三元组提取的跨领域迁移挑战赛
微博评论机器人
ChatGPT生成文本检测器
标书实体抽取挑战赛
基于自然语言的软件任务执行挑战赛
学术文档篇章级结构恢复挑战赛
学术文档要素分类挑战赛
2023.5-9,具体实践详见各赛事 2023.10.24
DSTC11 Track 4:Robust and Multilingual Automatic Evaluation Metrics for Open-Domain Dialogue Systems
Track 5:Task-oriented Conversational Modeling with Subjective Knowledge
-2023.3 2023.8-9
CCMT2023 CCMT与WMT2023合作组织的汉英、英汉新闻领域的翻译评测
维汉、蒙汉、藏汉的翻译评测
翻译质量估计评测
自动译后编辑评测
一带一路”低资源语言机器翻译任务
以中文为中心的多语言机器翻译任务
中英零指代机器翻译任务
-2023.5.10 2023.10
千言数据集 文本生成、情感分析、阅读理解、中文对话、文本相似度、语义解析、机器同传、信息抽取、实体链指、低资源语言翻译、自然语言推理、事实核查、可解释评测、段落检索、视频语义理解等15个任务60个数据集 现在 暂无
中文医疗信息处理挑战榜CBLUE 目前任务包括医学文本信息抽取(实体识别、关系抽取)、医学术语归一化、医学文本分类、医学句子关系判定和医学QA共5大类任务8个子任务,-> 官网 现在 暂无

训练赛

记录长期进行的训练赛,有排行榜,方便刚入门的NLPer练手

领域 竞赛 报名时间 结束时间
文本分类 WEBSHELL文本检测学习赛
医疗诊疗对话意图识别挑战赛
知乎问题自动标注 (有数据)
数据分析达人赛1:用户情感可视化分析
中文新闻文本标题分类
金融用户评论分类
中文对话情感分析
新闻文本分类
文本分类对抗攻击
虚假职位招聘预测
疫情期间互联网虚假新闻检测
疫情期间网民情绪识别
O2O商铺食品安全相关评论发现
互联网新闻情感分析
汽车行业用户观点主题及情感识别
影评文本情感分析
垃圾邮件分类
短文本分类大赛-图灵联邦
情感分类大赛-图灵联邦
医疗文本分类 - FlyAI
中文垃圾短信识别 - FlyAI
英文垃圾信息分类
社交网站消息内容分类 - FlyAI
用户商场评价情感分析 - FlyAI
Stanford-Sentiment-Treebank 情感分析 - FlyAI
COLA 英文句子可理解性分类 - FlyAI
今日头条新闻分类 - FlyAI
美国点评网站Yelp评价预测赛 - FlyAI
千言数据集:情感分析 - 百度AI Studio
Kaggle-Contradictory, My Dear Watson
Kaggle-Natural Language Processing with Disaster Tweets
CLEF 2019 Lab ProtestNews (Document、Sentence、Token)
-
-
已结束
-
-
-
-
-
-
-
-
-
-
-
-
-
-
每月1号
每月1号
-
-
-
-
-
-
-
-
-
-
-
-
-
2024.02
2024.02
已结束
2022.4.30
2023.01
-
-
-
2021.12.31
-
-
-
-
-
-
-
-
每月27号
每月27号
-
-
-
-
-
-
-
-
-
2023.1
-
-
-
文本匹配 医学搜索Query相关性判断
Quora-检测两个问题是否重复 - FlyAI
千言数据集:文本相似度
千言数据集:问题匹配鲁棒性
英文文本语义相似度
IMDB评论剧透检测
医学搜索Query相关性判断
CCKS2021中文NLP地址相关性任务数据集
-
-
-
-
-
-
-2022.9.30
-
2024.02
-
2023.1
2023.1
-
-
2022.10.7
-
文本蕴含 Contradictory, My Dear Watson - -
推荐系统 阿里移动推荐算法挑战赛
零基础入门推荐系统 - 新闻推荐
天池新人挑战赛之阿里移动推荐算法
电商用户购买行为预测
图书推荐系统
-
-
-
-
-
2024.02
-
-
-
-
问答 疫情政务问答助手
医疗智能问答 - FlyAI
2021心理对话问答挑战赛
CommonsenseQA Dataset
OpenBookQA Dataset
-
-
-
-
-
-
-
-
2026.4.15
2026.4.15
语义解析 千言数据集:语义解析 - 2023.1
摘要 媒体文章自动摘要
知乎文本摘要
新闻摘要自动生成
问答摘要与推理 (end: 2023.1)
- -
语音 生活场景汉语语音识别 - -
信息抽取 CCKS2021中文NLP地址要素解析
CCF BDCI 文本实体识别及关系抽取
千言数据集:信息抽取
英文文本实体关系抽取
法律领域篇章级多事件检测
-
-
-
-
-
2024.02
-
2023.1.1
-
-
实体链指 千言数据集:实体链指 - 2023.1.1
机器翻译 千言数据集:低资源语言翻译
机器翻译领域适应
-
-
2023.1.1
-
实体识别 中文的命名实体识别 - FlyAI - -
关系抽取 英文文本实体关系抽取 (有数据) 已结束 已结束
立场检测 中文微博的立场检测 - FlyAI
微博立场检测
-
-
-
-
对话 MuTual Dataset
千言数据集:开放域对话
对话系统中的口语理解
-
-
-
2026.4.15
2023.1.1
-
Text2SQL 耶鲁文本转SQL - -
阅读理解 千言数据集:阅读理解
中文阅读理解练习赛 - FlyAI
RACE Dataset
RACE-C Dataset
Dream Dataset
C3 Dataset
SciQ Dataset
LogiQA Dataset
MCTest Dataset
OpenBookQA Dataset
-
-
-
-
-
-
-
-
-
-
2023.1.1
-
2026.4.15
2026.4.15
2026.4.15
2026.4.15
2026.4.15
2026.4.15
2026.4.15
2026.4.15
Graph HGB-Node Classification
HGB-Link Prediction
HGB-Knowledge-aware Recommendation
2021.6.28- 2030.6
其它 评论情感词提取 (含数据) 已结束 已结束

往期竞赛

这里记录整理好的竞赛,包含数据下载以及竞赛方案

目录 赛事
文本分类 2018法研杯-罪名预测
2018法研杯-法条推荐
2019法研杯-要素识别
2019CHIP-临床试验筛选标准短文本分类
2019“技术需求”与“技术成果”项目之间关联度计算模型
2020smp微博情绪分析评测
2020百度人工智能开源大赛-观点阅读理解任务
2020CCKS新冠知识图谱构建与问答评测-子任务1:新冠百科知识图谱类型推断
2020CCKS新冠知识图谱构建与问答评测-子任务2:新冠概念图谱的上下位关系预测
2021SMP-ECISA中文隐式情感分析评测
2021DIGIX-基于多模型迁移预训练文章质量判别
2021试题标签预测挑战赛
2021非标准化疾病诉求的简单分诊挑战赛
2021CHIP-医学对话临床发现阴阳性判别任务
2021CCL-中文空间语义理解评测
2021CCL-“小牛杯”图文多模态幽默识别评测
2022疫情微博情绪识别挑战赛
2022非标准化疾病诉求的简单分诊挑战赛2.0
2022机器翻译质量评估挑战赛
2022基于论文摘要的文本分类与查询性问答
2022应用类型识别挑战赛
2022 Amazon KDD Cup (task2 Multi-class Product Classification, task3 Product Substitute Identification)
2022医疗搜索意图识别挑战赛
[2022CCF BDCI小样本数据分类任务](./往期竞赛/文本分类/2022CCF BDCI小样本数据分类任务.md)
2023CCL电信网络诈骗案件分类评测
实体链指 2019CCKS中文短文本实体链指
2020CCKS面向中文短文本的实体链指任务
2020CCKS基于标题的大规模商品实体检索
2020千言数据集:面向中文短文本的实体链指任务
2021SDU@AAAI-Task2-Acronym Disambiguation
实体识别 2019互联网金融新实体发现
2020CHIP-中药说明书实体识别挑战
2020CHIP-中文医学文本命名实体识别
2020CCKS面向试验鉴定的命名实体识别
2020CCKS面向中文电子病历的医疗实体及事件抽取-子任务1:医疗命名实体识别
2021智能医疗决策
2021互联网舆情企业风险事件的识别和预警
2021海通&工商-2021互联网舆情企业风险事件的识别和预警
问题生成 2020CHIP-中医文献问题生成挑战
摘要生成 2020法研杯-司法摘要
2021MEDIQA-Summarization of Consumer Health Questions
2021MEDIQA-Summarization of Multiple Answers
2021MEDIQA-Summarization of Radiology Reports
句法分析 2021CCL-跨领域句法分析评测
2021CCL-中译语通-Nihao无监督汉语分词评测
阅读理解 2018机器阅读理解技术竞赛
2019法研杯-阅读理解
2020法研杯-阅读理解
2020语言与智能技术竞赛:机器阅读理解任务
2021海华AI挑战赛·中文阅读理解(技术组)
2021语言与智能技术竞赛:机器阅读理解任务
2021NLPCC-AIDebater
文本匹配 2019大数据挑战赛
2019金融信息负面及主体判定
2019CHIP-疾病问答迁移学习比赛
2019CHIP-临床术语标准化任务
2019法研杯-相似案例匹配
2020“公益AI之星”挑战赛-新冠疫情相似句对判定大赛
2020房产行业聊天匹配问答
2020CHIP-临床术语标准化任务
2020法研杯-论辩挖掘
2021搜狐校园文本匹配算法大赛
2021小布助手对话短文本语义匹配
2021CHIP-临床术语标准化任务
对话 2019SMP中文人机对话技术评测
2020千言:多技能对话
2020语言与智能技术竞赛:面向推荐的对话任务
2021SMP对话式AI算法技术评测(小样本对话式意图识别与槽位提取、对话式指代消解与省略恢复 )
2021CCL-智能对话诊疗评测比赛
2021DSTC10
Text2SQL 2019中文NL2SQL挑战赛
2020语言与智能技术竞赛:语义解析任务
问答 2020CCKS新冠知识图谱构建与问答评测-子任务4:新冠百科知识图谱问答评测
2020法研杯-司法考试
信息抽取 2020科大讯飞事件抽取挑战赛
2020语言与智能技术竞赛:关系抽取任务
2020语言与智能技术竞赛:事件抽取任务
2020-SemEval Task 6: Definition Extraction from Free Text with the DEFT Corpus
2020CCKS面向中文电子病历的医疗实体及事件抽取-子任务2:医疗事件抽取
2020CCKS面向金融领域的小样本跨类迁移事件抽取
2020CCKS面向金融领域的篇章级事件主体与要素抽取
2020CHIP-中文医学文本实体关系抽取
2021语言与智能技术竞赛:多形态信息抽取任务
2021医疗实体与关系识别挑战赛
2021NLPCC-AutoIE 2
2021CHIP-临床发现事件抽取任务
2021SDU@AAAI-Task1-Acronym Identification
机器翻译 2020CCMT-双语、多语、语音、质量评估、语料过滤
2021NAACL同传Workshop:千言 - 机器同传
2021低资源多语种文本翻译挑战赛
2021领域迁移机器翻译挑战赛
2021CCMT-双语、多语、低资源、自动译后编辑、质量评估、语料过滤
其它 2018法研杯-刑期预测
2020NLP中文预训练模型泛化能力挑战赛
2020CCKS新冠知识图谱构建与问答评测-子任务3:新冠科研抗病毒药物图谱的链接预测
2021未来杯-探索科技未来 (论文推荐)
2021NLPCC-FewCLUE

自媒体推荐

NLP相关的学界、业界、理论、实践以及时事动态

平台 主要领域 自媒体
微信公众号 技术 Coggle数据科学、DataFunTalk(偏向业界方案)
行业信息 机器之心、机器之能、AI报道、AI前线、AI科技评论、机器学习研究组订阅
学术 科学空间、PaperWeekly、智源社区、人工智能前沿讲习、专知、AINLP、AI TIME 论道、夕小瑶的卖萌屋、机器学习算法与自然语言处理(MLNLP)
BiliBili 前沿论坛 智源社区、AITIME论道
基础 跟李沐学AI
网站 竞赛 Coggle数据科学CompHub
学术 Paper With CodeAMiner学术头条科学空间

算力推荐

warning: 请仔细评估第三方平台信誉,警惕代码、数据等重要信息泄露

平台 算力 价格 说明
featurize 2080Ti、3090 2080Ti(¥2/h)、3090(¥3.6/h) 镜像环境,使用灵活,可以通过jupyter_lab、vscode、pycharm远程连接
AutoDL rtx a5000、3090、A100 ¥0.6/h~¥8.5/h 单机ssh连接,存储空间不大,不过很便宜
智星云 1080Ti、3080、3090、V/A100等 ¥2.1/h~¥11/h 整机,可远程连接(pycharm/vs code)
沣云平台 ML270 ¥2.8/h 一站式AI计算平台,CPU可以增量配置,按运行时间收取费用
恒源云 2080Ti、3060、3090、V100等 ¥1.25/h~¥5.5/h 可以搭配完整的CPU和硬盘,相比bithub有更高的自由度,目前处于推广期,有很多优惠
并行云 V100、2080Ti、P100等 不明 计算节点来自超算,可个性化定制CPU核数、GPU、存储空间,有非常简便的操作界面,并且提供远程linux桌面,灵活度优于以上三个平台。目前处于推广期,有很多优惠
AI Studio V100 基本免费 由百度开发, 偶尔申请不到V100,最高可免费8卡。主要使用飞桨PaddlePaddle框架,其它框架需自行折腾,也可用X2Paddle一键转为飞桨的代码和模型,大部分比赛参与即送算力卡。
天池DSW p100 免费,单次限时8小时,不限次数 阿里的一个在线平台,运行时不能关闭
天池实验室 V100 免费,60h/年 相比于AI Studio不限制深度学习框架,就是时间比较短
Kaggle k80 免费,每周限时30小时 外网访问
Google Colab k80、T4、P4、P100 免费,单次限时12小时 外网访问,无法指定具体GPU,未订阅Colab Pro用户多数时间下估计会被分配k80

竞赛平台

  • CompHub :一站式聚合国内外竞赛
  • 阿里天池 :阿里,奖金丰厚
  • AI Studio :百度AI Studio深度学习社区,成绩优异可获得飞桨开发者技术专家(PPDE) 认证申请绿色通道。
  • 讯飞开发平台 :科大讯飞,每年下半年至10.24会举办大量赛事
  • Codalab :国外数据科学竞赛
  • DataFountain : CCF指定专业大数据及人工智能竞赛平台,有很多训练赛
  • DCLab :和天池比较像,学校政府举办的竞赛多一些
  • Kaggle :偶尔会有NLP竞赛
  • biendata : 国内领先的人工智能竞赛平台,包含大量NLP学术评测
  • FlyAI-AI竞赛服务平台 :难度分为新手、简单、中等、精英、困难,有大量GPU算力可供获取,奖金不多,但适合练手
  • 和鲸社区 :一个综合的学习平台 ,偏向政府企业类竞赛
  • ACL、EMNLP、AAAI、NLPCC、CCL、CCKS、SMP等会议每年都会举办相关学术评测
  • AI研习社 :很多很多NLP竞赛

会议时间

中国计算机学会推荐国际学术会议和期刊目录-2022
中国计算机学会推荐中文科技期刊目录
dblp:计算机科学文献库
AI会议deadline :会议倒计时
会议时间记录表 :Updated by Jackie Tseng, Tsinghua Computer Vision and Intelligent Learning Lab
note:以下时间为官网默认时间,暂未换算成北京时间

会议 级别 摘要截稿 原文截稿 审稿通知 开会时间 说明
ICLR(官网dblp) * 2023.9.21 2023.9.28 2023.11.10(review)、2024.1.15(final) 2024.5.7-5.11 Vienna
ACL(官网dblp) CCF-A 2023.1.13(direct submission) 2023.1.20(direct submission)、2022.12.15(ARR) 2023.2.15(review)、2023.5.1(final) 2023.7.9-7.14 Toronto,Canada
NeurIPS(官网dblp) CCF-A 2023.5.11 2023.5.17 2023.9.21 2023.12.10-12.16 New Orleans Ernest N. Morial Convention Center
ICML(官网dblp) CCF-A * ? ? 2024.7.21-7.27 Messe Wien Exhibition Congress Center
SIGIR(官网dblp) CCF-A 2023.1.24 2023.1.31 2023.4.4 2023.7.23-7.27 Taipei, Taiwan
WWW(官网dblp) CCF-A 2023.10.5 2023.10.12 2023.12.1-12.14(rebuttal)
2024.2.1(final)
2024.5.13-5.17 Singapore
AAAI(官网dblp) CCF-A 2023.8.8 2023.8.15 2023.9.27(phase 1 rejections)、2023.12.19(final) 2024.2.20-2.27 VANCOUVER, CANADA
IJCAI(官网dblp) CCF-A 2023.1.11 2023.1.18 2023.2.24(summary reject notification)、2023.4.19(paper notification) 2023.8.19-8.25 Cape Town, South Africa
EMNLP(官网dblp) CCF-B 2022.6.16 2023.6.23(Direct)、2023.7.21(ARR) 2023.8.22~8.28(rebuttal)、2023.10.6 2023.12.6-12.10 Singapore
NAACL(官网dblp) CCF-B * 2023.12.15(ARR)、2024.2.20(Commitment) 2024.3.15 2024.6.16-6.21 Mexico City, Mexico
COLING(官网dblp) CCF-B * 2022.5.17 2022.8.15 2022.10.12~10.17 Gyeongju, Korea
CoNLL(官网dblp) CCF-C * 2023.6.30 2023.10.6 2023.12.6-12.7 colocated with emnlp2023
NLPCC(官网dblp) CCF-C * 2023.5.18 2023.7.17 2023.10.12-10.15 佛山
IJCNN(官网dblp ) CCF-C * 2023.1.31 2023.4.7 2023.6.18-6.23 Queensland, Australia
ICONIP(官网) CCF-C * 2022.6.15 2022.8.15 2022.11.22~11.26 New Delhi, India
ACML(官网) CCF-C * 2023.6.23(会议)
2023.5.26(期刊)
2023.8.11-8.18(rebuttal)、9.8 (final);
2023.7.7(初审)、9.8(final)
2023.11.11-11.14 İstanbul, Turkey
AACL(官网) * * 2023.5.23(direct submission)、2023.8.15(ARR) 2023.8.2-8.9(rebuttal)、9.4(final) 2023.11.1-11.4 Bali, Indonesia
EACL(官网dblp) * * 2022.10.20(direct submission)、2023.1.8 (ARR) 2023.1.20 2023.5.2-5.6 Kiev, Ukraine、online
CCL(官网dblp) * * 2023.4.15 2023.5.20 2023.8.3-8.5 哈尔滨
CCKS(官网dblp) * * 2023.5.19 2023.6.30 2023.8.24~8.27 沈阳
SMP(官网dblp) * * 2023.5.15 2023.7.1 2023.11.24-11.26 北京
CCMT(官网) * * 2023.7.10 2023.8.15 2023.10.19-10.21 山东济南