一个基于 LangGraph 和 Claude 3.7 Sonnet 的全自动学术论文处理智能体系统。
- 编排引擎: LangGraph (状态图管理)
- AI模型: Anthropic Claude 3.7 Sonnet (多模态理解)
- 框架: LangChain (工具集成)
-
多模态内容解析模块
- PDF文档结构化解析
- 文本、图像、LaTeX公式、表格提取
- 精确位置坐标映射
-
智能摘要与重点识别模块
- 全面智能摘要生成
- 关键句段自动识别
- 重要内容标记
-
动态文本高亮模块
- 坐标精确映射
- PDF高亮注释生成
- 可视化重点标记
-
分段翻译模块
- 智能文本分段
- 多API翻译服务
- 结构保持翻译
-
问答系统(RAG)模块
- 向量知识库构建
- 多模态检索增强
- 交互式问答支持
# 安装依赖
pip install -r requirements.txt
# 配置环境变量
cp .env.example .env
# 编辑 .env 文件,填入你的API密钥
from paper_agent import PaperAgent
# 初始化智能体
agent = PaperAgent()
# 处理PDF论文
result = await agent.process_paper(
pdf_path="path/to/your/paper.pdf",
target_language="zh-CN",
enable_highlighting=True
)
# 获取处理结果
print(result.summary) # 智能摘要
print(result.translations) # 分段翻译
print(result.highlighted_pdf) # 高亮版PDF路径
# 问答交互
answer = await agent.ask_question("论文的主要贡献是什么?")
print(answer)
输入PDF → 解析模块 → 摘要识别 → 高亮映射 → 翻译模块 → RAG构建 → 问答接口
↓ ↓ ↓ ↓ ↓ ↓ ↓
原始文档 结构化数据 重点内容 坐标映射 多语言版本 向量库 交互问答
- 多模态处理: 支持文本、图像、LaTeX公式的综合理解
- 精确高亮: 基于坐标的精确文本高亮定位
- 智能翻译: 多API服务支持,自动故障切换
- 向量检索: 高效的RAG问答系统
- 异步处理: 并发优化,提升处理效率
- 状态管理: LangGraph状态图,支持复杂工作流
- Python 3.9+
- 8GB+ RAM (推荐)
- 网络连接 (API调用)
MIT License