微信安全文章归档系统 v1.0

🚀 微信公众号安全文章知识库 - 自动抓取、分类、归档微信公众号安全文章，构建专业安全知识库

✨ 核心功能

🔍 智能内容识别

多维度关键词匹配：覆盖威胁情报、漏洞利用、安全运营、应急响应、溯源分析等11个专业领域
智能去重机制：避免重复文章，确保知识库质量
实时数据同步：支持指定日期和历史数据抓取

📊 专业报告生成

威胁态势分析：自动分析安全威胁分布和趋势
漏洞类型统计：分类统计各类漏洞信息
详细匹配规则：展示所有关键词分类和匹配逻辑
完整文章列表：按数据源分组展示所有匹配文章

🗂️ 智能文件管理

分层目录结构：doc/年/年-月/年-W周/年-月-日/文章.md
数据持久化：通过data.json记录处理历史，支持断点续传
Markdown转换：自动将微信文章转换为标准Markdown格式

📰 数据来源

数据源	描述	更新频率
ChainReactors	GitHub安全文章聚合，专注于漏洞复现和技术分析	每日
BruceFeIix	安全文章收集，涵盖威胁情报和安全运营	每日
Doonsec	安全资讯RSS，实时推送安全事件和漏洞预警	实时

🔍 关键词匹配规则

🔍 漏洞利用与攻击技术

🕵️ 威胁情报与APT

🚨 应急响应与溯源

🛡️ 安全运营与管理

⚔️ 红队蓝队与攻防演练

🦠 特定攻击技术与恶意软件

📋 漏洞编号与标准

CVE-|CNVD-|CNNVD-|XVE-|QVD-|POC|EXP|0day|1day|nday|CWE-|ISO27001|NIST|OWASP|CIS|SOC|SIEM|SOAR|威胁情报标准|安全运营框架|安全治理框架

🔐 数据安全与隐私

☁️ 云安全与新兴技术

💻 应用与系统安全

🏭 行业与基础设施安全

🛠️ 安全工具与技术

🛠️ 技术特性

🔧 核心技术栈

Python 3.8+：核心处理逻辑
wechatmp2markdown：微信文章转Markdown工具
requests：HTTP请求处理
xml.etree.ElementTree：RSS解析
logging：详细日志记录

📁 文件结构

wxvuln/
├── run.py                 # 主程序
├── data.json             # 数据记录文件
├── doc/                  # 文章存储目录
│   └── 2025/
│       └── 2025-01/
│           └── 2025-W04/
│               └── 2025-01-20/
│                   └── 文章.md
├── md/                   # 每日报告目录
│   └── 2025-01-20.md    # 每日安全报告
├── bin/                  # 工具目录
│   └── wechatmp2markdown-v1.1.11_linux_amd64
└── README.md

🔄 处理流程

数据获取：从多个数据源获取安全文章
智能去重：基于URL和内容去重
关键词过滤：应用11个领域的关键词匹配
文章转换：转换为Markdown格式
报告生成：生成每日安全态势报告
数据持久化：更新处理记录

⚙️ 使用方法

🚀 快速开始

# 克隆项目
git clone https://github.com/adminlove520/mpvulnHub.git
cd wxvuln

# 安装依赖
pip install requests

# 运行今日抓取
python3 run.py

# 指定日期抓取
python3 run.py --date 2025-01-20

# 历史数据抓取
python3 run.py --history

# 指定日期范围抓取
python3 run.py --range 2025-01-01 2025-01-31

⏰ 自动执行

GitHub Actions 每4小时自动执行一次

📊 命令行参数

参数	说明	示例
`--date`	指定日期抓取	`--date 2025-01-20`
`--range`	指定日期范围	`--range 2025-01-01 2025-01-31`
`--history`	抓取历史数据	`--history`

🔍 输出示例

控制台输出

2025-07-26 16:43:12,884 - INFO - === 开始处理 2025-01-20 的数据 ===
2025-07-26 16:43:12,884 - INFO - Doonsec原始数据: 200 个
2025-07-26 16:43:12,884 - INFO - ChainReactors原始数据: 165 个
2025-07-26 16:43:12,885 - INFO - 去重后共 355 个URL待处理，跳过 175 个重复URL
2025-07-26 16:43:12,898 - INFO - 关键词过滤: 匹配 73 个，跳过 282 个
2025-07-26 16:43:12,902 - INFO - 已创建每日报告: md/2025-01-20.md

每日报告示例

# 2025-01-20 安全威胁态势报告

## 📊 数据概览
- **总文章数**: 73
- **数据源分布**:
  - Doonsec: 43篇
  - ChainReactors: 30篇

## 🚨 安全威胁态势分析
### 威胁类型分布
- **漏洞利用**: 12篇
- **攻击技术**: 12篇
- **威胁情报**: 6篇
- **安全运营**: 4篇
- **信息泄露**: 4篇

📈 性能指标

🎯 匹配效果

关键词覆盖：11个专业领域，200+个关键词
匹配精度：智能过滤，减少误匹配
处理速度：支持批量处理，高效去重

📊 数据统计

数据源：3个主要安全数据源
更新频率：每4小时自动更新
存储格式：标准Markdown，便于阅读和搜索

🔧 配置说明

📝 配置文件

data.json：记录已处理URL，避免重复
run.log：详细运行日志，便于调试

🛠️ 工具依赖

wechatmp2markdown：微信文章转Markdown工具
支持Linux/Windows/macOS多平台

🤝 贡献指南

🐛 问题反馈

如果您发现任何问题或有改进建议，请提交Issue。

💡 功能建议

欢迎提交新功能建议，特别是：

新的数据源
关键词优化
报告格式改进

🔧 代码贡献

Fork 项目
创建功能分支
提交更改
发起Pull Request

Name		Name	Last commit message	Last commit date
Latest commit History 2,371 Commits
.github/workflows		.github/workflows
bin		bin
daily		daily
doc		doc
md		md
.gitignore		.gitignore
Getdaily.py		Getdaily.py
README.md		README.md
data.json		data.json
md_to_html.py		md_to_html.py
requirements.txt		requirements.txt
run.log		run.log
run.py		run.py
setup_gh_pages.md		setup_gh_pages.md

adminlove520/mpvulnHub

Folders and files

Latest commit

History

Repository files navigation

微信安全文章归档系统 v1.0

✨ 核心功能

🔍 智能内容识别

📊 专业报告生成

🗂️ 智能文件管理

📰 数据来源

🔍 关键词匹配规则

🔍 漏洞利用与攻击技术

🕵️ 威胁情报与APT

🚨 应急响应与溯源

🛡️ 安全运营与管理

⚔️ 红队蓝队与攻防演练

🦠 特定攻击技术与恶意软件

📋 漏洞编号与标准

🔐 数据安全与隐私

☁️ 云安全与新兴技术

💻 应用与系统安全

🏭 行业与基础设施安全

🛠️ 安全工具与技术

🛠️ 技术特性

🔧 核心技术栈

📁 文件结构

🔄 处理流程

⚙️ 使用方法

🚀 快速开始

⏰ 自动执行

📊 命令行参数

🔍 输出示例

控制台输出

每日报告示例

📈 性能指标

🎯 匹配效果

📊 数据统计

🔧 配置说明

📝 配置文件

🛠️ 工具依赖

🤝 贡献指南

🐛 问题反馈

💡 功能建议

🔧 代码贡献

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages