Skip to content

“华为杯”第二届中国研究生网络安全创新大赛揭榜挑战赛赛题:富文本敏感信息泄露检测

Notifications You must be signed in to change notification settings

MartinXLiu/Auto-Privacy-Leakage-Detection

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

13 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Auto-Privacy-Leakage-Detection

处理数据压缩包附件链接

程序部署说明Wiki

解题思路 需实现功能 可能的技术手段
1.数据预处理 1.解压数据,将所有文件转换成文本格式,便于后续文本处理
2.对文本清洗和预处理,去除无关信息、特殊字符,保持格式一致性
根据不同文件类型采取相应解析方法
2.敏感信息提取 1.从预处理的文本中提取敏感信息
2.需要提取包含但不仅限于目标地址、端口、用户名、密码、密码hash、Token、AK/SK等
神经网络,正则表达式
3.上下文关联 1.能关联上下文,输出关联的敏感信息对 神经网络
4.评估与优化 1.提升敏感信息提取数量和准确性
2.提高算法效率(时间)
1.多线程或并行处理技术
2.优化算法逻辑、数据结构
py文件 实现功能
main.py 主函数
classify_files.py 1.遍历所有文件,划分文件类型
2.输出data_info.xlsx
DataPreprocessing.py 1.解析文件,输出文本格式数据
2.输出preprocessed_data.txt
和操作日志preprocess_log.txt

“华为杯”第二届中国研究生网络安全创新大赛揭榜挑战赛赛题:富文本敏感信息泄露检测

题目1:富文本敏感信息泄露检测

竞赛题目详细描述:

给定一个包含大量文件的压缩包(见附件),选手需要编写程序,自动化提取其中敏感的认证信息。压缩包中的文件格式包含但不仅限于Word、Excel、PowerPoint、txt、各类系统配置文件、图片、聊天纪录等。

挑战内容,即程序需实现功能如下:

1、提取敏感认证信息,包含但不仅限于目标地址、端口、用户名、密码、密码hash、Token、AK/SK等。

2、程序应能关联上下文,输出关联的敏感信息对,如{"ip":"127.0.0.1","port":3306,"username":"root","password":"root"}

评价指标: (先主要集中精力完成第一个,第二个需要在完成的基础上改进)

1、提取的敏感内容条目不少于预设总条目的80%

2、提取条目相同时,时间越少越好。

答疑邮箱: xuxiaoqiang6@huawei.com

About

“华为杯”第二届中国研究生网络安全创新大赛揭榜挑战赛赛题:富文本敏感信息泄露检测

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 2

  •  
  •  

Languages