语音识别优化
LLM API密钥配置要求
VidGo项目中的LLM功能默认并强制开启,因此必须配置有效的API密钥才能正常使用相关功能。
配置api密钥截图
必需配置项
系统要求配置以下核心参数:
- API Key: 必填项,用于LLM服务认证
- Base URL: API服务端点地址,默认为DeepSeek API
- 模型选择: 指定使用的LLM模型,默认为deepseek-chat
配置验证机制
系统提供连接测试功能来验证API配置的有效性:
测试通过发送简单的"Hello, ai"提示来验证API连接状态,确保配置正确后才能使用语音识别优化。
当前支持的LLM模型
目前系统支持以下LLM模型选项:
- DeepSeek-Chat(默认)
- DeepSeek-Reasoner
- Aliyun Qwen 235B
- GPT-4o / o4-mini
LLM功能应用场景
字幕优化处理
LLM主要用于字幕内容的智能分割和优化:
系统通过LLM分析文本内容,实现智能断句和语义分割,提升字幕的可读性和准确性。
翻译服务
LLM还支持字幕翻译功能,采用三步翻译工作流:
- 初始翻译
- 反思与改进
- 优化输出
未来LLM扩展计划
多LLM提供商支持
计划扩展对更多LLM服务提供商的支持,包括但不限于:
- 更多OpenAI兼容的API服务, 如Openrouter
- 用户自定义模型。
- 国内主流LLM服务商
- 本地部署的开源LLM模型