AI-Media2Doc – 开源AI图文创作助手,一键将音视频内容转为文档
AI-Media2Doc是什么
AI-Media2Doc 是开源的音视频转文档工具,基于AI大模型技术,支持将音视频内容智能转换为小红书笔记、公众号文章、知识笔记、思维导图和视频字幕等多种文档形式。工具支持纯前端处理,无需本地安装ffmpeg,任务记录保存在本地,保障用户数据安全。AI-Media2Doc适合内容创作者、学生、研究人员等群体,帮助高效提取和整理信息。
AI-Media2Doc的主要功能
- 音视频转文档:一键将音视频内容转换为多种文档风格,包括小红书笔记、公众号文章、知识笔记、思维导图和视频字幕等。
- AI智能处理:基于大模型技术,实现内容总结与多风格文档生成,支持基于视频内容进行AI问答和二次对话。
- 纯前端处理:基于ffmpeg wasm技术,无需本地安装ffmpeg,支持浏览器直接处理。
- 隐私保护:无需登录注册,任务记录保存在本地,保障用户数据安全。
- 本地部署:支持本地运行,基于Docker一键部署,方便用户在本地环境中使用。
- 多种导出格式:生成的文档和思维导图能导出至第三方平台,进一步编辑和分享。
如何使用AI-Media2Doc
- 本地部署:
- 克隆项目代码:打开终端或命令行工具,运行以下命令克隆项目代码。
git clone https://github.com/hanshuaikang/AI-Media2Doc.git
cd AI-Media2Doc
-
- 安装Python依赖(后端):安装项目所需的Python依赖。
pip install -r backend/requirements.txt
-
- 配置环境变量:在backend目录下创建一个.env文件,填写API密钥。
OPENAI_API_KEY=your_openai_api_key
GROK_API_KEY=your_grok_api_key
DEEPSEEK_API_KEY=your_deepseek_api_key
-
- 启动FastAPI服务:启动后端服务。
uvicorn backend.main:app --reload
-
- 安装前端依赖并启动服务:安装前端依赖并启动前端服务。
cd frontend
npm install
npm run serve
-
- 访问本地服务器:打开浏览器,访问http://localhost:8080,即可开始使用。
- 使用方法:
- 新建任务:在页面上新建一个任务,上传音视频文件或输入外链地址。
- 选择输出风格:选择希望生成的文档风格,如小红书、公众号、知识笔记、思维导图等。
- 生成图文:点击“生成”按钮,系统将自动处理音视频内容生成相应的文档。
- 二次对话:在右侧界面输入问题(如“视频的主旨是什么?”),AI将基于内容回答。
- 导出结果:生成的文档和思维导图可以导出到第三方平台,如幕布、ProcessOn等,方便进一步编辑和使用。
AI-Media2Doc的项目地址
- GitHub仓库:https://github.com/hanshuaikang/AI-Media2Doc
AI-Media2Doc的应用场景
- 学生学习:提取网课笔记和思维导图,方便复习。
- 教师备课:将视频转为教案,快速整理课程内容。
- 自媒体创作:拆解视频,生成图文、剧本或脚本,提供创作灵感。
- 知识管理:视频转结构化笔记,便于管理和回顾。
- 内容创作:视频转公众号或小红书文案,提升创作效率。