Skip to content

feat: add video multimodal functionality#926

Open
DaWesen wants to merge 1 commit intoTencent:mainfrom
DaWesen:feat/video-frame-extraction
Open

feat: add video multimodal functionality#926
DaWesen wants to merge 1 commit intoTencent:mainfrom
DaWesen:feat/video-frame-extraction

Conversation

@DaWesen
Copy link
Copy Markdown
Contributor

@DaWesen DaWesen commented Apr 8, 2026

Pull Request

描述 (Description)

实现视频多模态功能,包括视频抽帧、VLM视觉分析、ASR语音识别和视频摘要生成。支持mp4、mov、avi、mkv、webm、wmv、flv等视频格式。

变更类型 (Type of Change)

  • ✨ 新功能 (New feature)
  • 🐛 Bug 修复 (Bug fix)
  • 💥 破坏性变更 (Breaking change)
  • 📚 文档更新 (Documentation update)
  • 🎨 代码重构 (Code refactoring)
  • ⚡ 性能优化 (Performance improvement)
  • 🧪 测试相关 (Test related)
  • 🔧 配置变更 (Configuration change)
  • 🐳 Docker 相关 (Docker related)
  • 🎨 前端 UI/UX (Frontend UI/UX)

影响范围 (Scope)

  • 后端 API (Backend API)
  • 前端界面 (Frontend UI)
  • 数据库 (Database)
  • 文档解析服务 (Document Reader Service)
  • MCP 服务器 (MCP Server)
  • Docker 配置 (Docker Configuration)
  • 配置文件 (Configuration)
  • 其他 (Other):

测试 (Testing)

  • 单元测试 (Unit tests)
  • 集成测试 (Integration tests)
  • 手动测试 (Manual testing)
  • 前端测试 (Frontend testing)
  • API 测试 (API testing)

测试步骤 (Test Steps)

  1. 上传视频文件(mp4、mov等格式,文件大小不超过 50MB,建议 30秒-1分钟的短视频)
  2. 等待视频解析完成
  3. 检查视频摘要和分析结果
  4. 验证数据库中 video_info 字段存储正确

检查清单 (Checklist)

  • 代码遵循项目的编码规范
  • 已进行自我代码审查
  • 代码变更已添加适当的注释
  • 相关文档已更新
  • 变更不会产生新的警告
  • 已添加测试用例证明修复有效或功能正常
  • 新功能和变更已更新到相关文档
  • 破坏性变更已在描述中明确说明

相关 Issue

Fixes #906

截图/录屏 (Screenshots/Recordings)

屏幕截图 2026-04-08 190314

数据库迁移 (Database Migration)

  • 需要数据库迁移
  • 不需要数据库迁移

配置变更 (Configuration Changes)

部署说明 (Deployment Notes)

  • 需要安装 FFmpeg 以支持视频抽帧功能
  • 文件大小限制:上传的视频文件大小不超过 50MB,建议时长不超过 30秒
  • 解析时间:视频解析时间较长,1分钟视频可能需要 5-10分钟
  • 性能优化:后续版本将优化视频解析速度

其他信息 (Additional Information)

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

[Feature]: support video vlm model and video parser

1 participant