Skip to content

CSL 样本噪声问题 #115

Closed
Closed
@Jasperty

Description

@Jasperty

关键词识别任务,
”csl_public.zip 取自中文论文摘要及其关键词,论文选自部分中文社会科学和自然科学核心期刊。使用tf-idf生成伪造关键词与论文真实关键词混合,构造摘要-关键词对,机器学习模型的任务目标是根据摘要判断关键词是否全部为真实关键词“
存在一个问题:tf-idf生成的可能是真关键词,在训练集和验证集中发现了一些噪声:
image
测试集可能也有,如何处理这种噪声?能否公开关键词混合的方法?

Metadata

Metadata

Assignees

Labels

No labels
No labels

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions