Feature Description
目前,新引入的 AutoResearch 管道在处理通用互联网平台(如 V2EX、知乎、小红书)时表现非常出色。然而,对于处理学术或科研工作流的 AI Agent 来说,从学术数据库(例如中国知网 CNKI、谷歌学术、IEEE、Web of Science)检索文献仍然是一个巨大的痛点。
这些网站通常具有严格的防机器人(Anti-bot)机制,导致标准的 API 调用或简单的爬虫直接失效。目前业界还没有一个标准化的 CLI 工具能让 AI Agent 无缝地与这些学术中心进行交互。
同时,我注意到合并请求中已经有人提交过相关请求,似乎未经回复,pr#243功能:添加中文学术与政策数据库适配器 、pr#248CNKI适配器
Use Case
这解决了 AI Agent 与限制严格的学术数据库之间严重脱节的问题。目前,Agent 很难绕过知网或谷歌学术等网站的防机器人机制或复杂的动态 UI 结构,导致学术自动化几乎不可能实现。
主要受益者包括学术研究人员、高校学生和实验室教授。特别是那些承担着开发自动化文献检索和文档对比工具任务的学生开发团队将大受裨益。他们可以依赖标准化、开箱即用的 CLI 解决方案集成到自己的工作流中,而无需用脆弱的爬虫脚本重复造轮子。
Proposed Solution
评审并合并现有增强功能: 我注意到 PR #243 和 PR #248 在浏览器管道稳定性和操作能力方面取得了显著进展。如果这些 PR 经过验证并通过了审查,合并它们将为处理学术网站复杂的反爬虫机制提供坚实的技术基础。
创建适配器: 在 AutoResearch 生态下开发专用的学术适配器(例如 academic-cnki, academic-ieee)。
利用增强的浏览器管道: 利用优化后的 opencli-operate(待上述 PR 合并后)来处理动态渲染、管理 Cookie,并绕过学术中心复杂的爬虫检测。
命令标准化: 暴露标准且对 Agent 友好的 CLI 接口。例如:opencli cnki / google-scholar search "大模型" 和 opencli cnki / google-scholar download <论文ID>。
Alternatives Considered
基于 UI 的重型 AI Agent(如 browser-use): 虽然功能强大,但对于简单的检索任务来说往往是大材小用。它们在多步推理中会消耗海量的大模型 Token,并且在执行过程中容易出现稳定性问题(幻觉或卡死)。
DOM 抽象提纯工具(如 ko-browser): 在节省 Token 方面非常有用,但 Agent 依然需要每次都去推导学术网站的交互逻辑。它的稳定性不如预定义的 CLI 命令。
原生的 Python + Playwright 脚本: 非常脆弱,一旦网站的 DOM 发生变化就需要不断维护,并且缺乏统一的 AGENT.md 集成,无法被其他大模型工具无缝发现。
Feature Description
目前,新引入的 AutoResearch 管道在处理通用互联网平台(如 V2EX、知乎、小红书)时表现非常出色。然而,对于处理学术或科研工作流的 AI Agent 来说,从学术数据库(例如中国知网 CNKI、谷歌学术、IEEE、Web of Science)检索文献仍然是一个巨大的痛点。
这些网站通常具有严格的防机器人(Anti-bot)机制,导致标准的 API 调用或简单的爬虫直接失效。目前业界还没有一个标准化的 CLI 工具能让 AI Agent 无缝地与这些学术中心进行交互。
同时,我注意到合并请求中已经有人提交过相关请求,似乎未经回复,pr#243功能:添加中文学术与政策数据库适配器 、pr#248CNKI适配器
Use Case
这解决了 AI Agent 与限制严格的学术数据库之间严重脱节的问题。目前,Agent 很难绕过知网或谷歌学术等网站的防机器人机制或复杂的动态 UI 结构,导致学术自动化几乎不可能实现。
主要受益者包括学术研究人员、高校学生和实验室教授。特别是那些承担着开发自动化文献检索和文档对比工具任务的学生开发团队将大受裨益。他们可以依赖标准化、开箱即用的 CLI 解决方案集成到自己的工作流中,而无需用脆弱的爬虫脚本重复造轮子。
Proposed Solution
评审并合并现有增强功能: 我注意到 PR #243 和 PR #248 在浏览器管道稳定性和操作能力方面取得了显著进展。如果这些 PR 经过验证并通过了审查,合并它们将为处理学术网站复杂的反爬虫机制提供坚实的技术基础。
创建适配器: 在 AutoResearch 生态下开发专用的学术适配器(例如 academic-cnki, academic-ieee)。
利用增强的浏览器管道: 利用优化后的 opencli-operate(待上述 PR 合并后)来处理动态渲染、管理 Cookie,并绕过学术中心复杂的爬虫检测。
命令标准化: 暴露标准且对 Agent 友好的 CLI 接口。例如:opencli cnki / google-scholar search "大模型" 和 opencli cnki / google-scholar download <论文ID>。
Alternatives Considered
基于 UI 的重型 AI Agent(如 browser-use): 虽然功能强大,但对于简单的检索任务来说往往是大材小用。它们在多步推理中会消耗海量的大模型 Token,并且在执行过程中容易出现稳定性问题(幻觉或卡死)。
DOM 抽象提纯工具(如 ko-browser): 在节省 Token 方面非常有用,但 Agent 依然需要每次都去推导学术网站的交互逻辑。它的稳定性不如预定义的 CLI 命令。
原生的 Python + Playwright 脚本: 非常脆弱,一旦网站的 DOM 发生变化就需要不断维护,并且缺乏统一的 AGENT.md 集成,无法被其他大模型工具无缝发现。