基于 Mistral API 的文档识别工具,支持处理 PDF 和图片文件。
- 支持处理 PDF 文件和图片文件(JPG、JPEG、PNG)
- 提供图形用户界面和命令行界面
- 自动保存处理结果为 Markdown 格式
- 支持配置文件管理
- 支持批量处理文件
- 克隆项目代码:
git clone https://github.com/yourusername/mistralOCR.git
cd mistralOCR
- 安装依赖:
pip install -r requirements.txt
- 安装tkinter(如果尚未安装):
在Mac上,您可以使用以下命令安装tkinter:
brew install python-tk
运行以下命令启动图形界面:
python -m src.main --gui
使用命令行处理文件:
python -m src.main --file <文件路径> --api-key <API密钥>
在Windows系统中,您可以直接双击运行 run.bat
文件来启动程序。
# 直接双击 run.bat 文件
mistralOCR/
├── src/ # 源代码目录
│ ├── __init__.py # 包初始化文件
│ ├── main.py # 主程序入口
│ ├── ocr.py # OCR核心功能
│ ├── gui.py # 图形界面
│ └── config.py # 配置管理
├── tests/ # 测试目录
├── docs/ # 文档目录
├── results_pdf/ # PDF处理结果
├── results_image/ # 图片处理结果
├── README.md # 项目说明
├── requirements.txt # 依赖列表
└── config.json # 配置文件
配置文件 config.json
用于存储常用设置:
{
"api_key": "your-api-key"
}
请注意,您可以在以下网址获取Mistral API Key: https://console.mistral.ai/
- Python 3.7+
- 依赖包见 requirements.txt
- 创建虚拟环境:
python -m venv venv
source venv/bin/activate # Linux/Mac
venv\Scripts\activate # Windows
- 安装开发依赖:
pip install -r requirements-dev.txt
python -m pytest tests/
MIT License
- Fork 项目
- 创建特性分支
- 提交更改
- 推送到分支
- 创建 Pull Request
如果您在使用过程中遇到任何问题,请在 GitHub Issues 页面提交问题。