Web Content Extractor

一个简单高效的网页内容提取工具，专门设计用于AI分析场景。本工具可以清理网页中的广告、导航栏等无关内容，只保留主要文章内容，使AI能够更好地理解和分析文本。

🌟 特点

🚀 基于Next.js构建的现代Web应用
📝 使用Mozilla的Readability算法提取主要内容
🧹 自动清理多余的HTML标签和格式
🎯 专注于提取对AI分析有价值的内容
💨 快速且轻量级的API

🔗 在线演示

访问 https://web-content-extractor.vercel.app 体验在线版本。

一键部署：

🛠️ 技术栈

Frontend:
- Next.js 14
- React
- Tailwind CSS
- TypeScript
- Lucide Icons
Backend:
- Next.js API Routes
- Readability.js
- Puppeteer

🚀 快速开始

克隆项目

git clone https://github.com/eggacheb/web-content-extractor.git
cd web-content-extractor

安装依赖

npm install

启动开发服务器

npm run dev

打开浏览器访问 http://localhost:3000

📚 API 使用

提取网页内容

GET /api/extract?url=https://example.com

响应示例

{
  "title": "文章标题",
  "content": "文章正文内容...",
  "excerpt": "文章摘要",
  "byline": "作者信息（如果有）"
}

🤝 贡献

欢迎提交 Issue 和 Pull Request！

📄 许可证

MIT License - 查看 LICENSE 文件了解更多信息。

Name		Name	Last commit message	Last commit date
Latest commit History 17 Commits
app		app
public		public
.gitignore		.gitignore
README.md		README.md
eslint.config.mjs		eslint.config.mjs
next.config.js		next.config.js
next.config.ts		next.config.ts
package-lock.json		package-lock.json
package.json		package.json
postcss.config.js		postcss.config.js
tailwind.config.ts		tailwind.config.ts
tsconfig.json		tsconfig.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Web Content Extractor

🌟 特点

🔗 在线演示

🛠️ 技术栈

🚀 快速开始

📚 API 使用

提取网页内容

响应示例

🤝 贡献

📄 许可证

About

Uh oh!

Releases

Packages

Languages

aggcheb/web-content-extractor

Folders and files

Latest commit

History

Repository files navigation

Web Content Extractor

🌟 特点

🔗 在线演示

🛠️ 技术栈

🚀 快速开始

📚 API 使用

提取网页内容

响应示例

🤝 贡献

📄 许可证

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages