一个简单高效的网页内容提取工具,专门设计用于AI分析场景。本工具可以清理网页中的广告、导航栏等无关内容,只保留主要文章内容,使AI能够更好地理解和分析文本。
- 🚀 基于Next.js构建的现代Web应用
- 📝 使用Mozilla的Readability算法提取主要内容
- 🧹 自动清理多余的HTML标签和格式
- 🎯 专注于提取对AI分析有价值的内容
- 💨 快速且轻量级的API
访问 https://web-content-extractor.vercel.app 体验在线版本。
-
Frontend:
- Next.js 14
- React
- Tailwind CSS
- TypeScript
- Lucide Icons
-
Backend:
- Next.js API Routes
- Readability.js
- Puppeteer
- 克隆项目
git clone https://github.com/eggacheb/web-content-extractor.git
cd web-content-extractor- 安装依赖
npm install- 启动开发服务器
npm run dev- 打开浏览器访问 http://localhost:3000
GET /api/extract?url=https://example.com{
"title": "文章标题",
"content": "文章正文内容...",
"excerpt": "文章摘要",
"byline": "作者信息(如果有)"
}欢迎提交 Issue 和 Pull Request!
MIT License - 查看 LICENSE 文件了解更多信息。


