跳到主要内容

语音识别优化

LLM API密钥配置要求

VidGo项目中的LLM功能默认并强制开启,因此必须配置有效的API密钥才能正常使用相关功能。

配置api密钥截图

必需配置项

系统要求配置以下核心参数:

  • API Key: 必填项,用于LLM服务认证
  • Base URL: API服务端点地址,默认为DeepSeek API
  • 模型选择: 指定使用的LLM模型,默认为deepseek-chat

配置验证机制

系统提供连接测试功能来验证API配置的有效性:

测试通过发送简单的"Hello, ai"提示来验证API连接状态,确保配置正确后才能使用语音识别优化。

当前支持的LLM模型

目前系统支持以下LLM模型选项:

  • DeepSeek-Chat(默认)
  • DeepSeek-Reasoner
  • Aliyun Qwen 235B
  • GPT-4o / o4-mini

LLM功能应用场景

字幕优化处理

LLM主要用于字幕内容的智能分割和优化:

系统通过LLM分析文本内容,实现智能断句和语义分割,提升字幕的可读性和准确性。

翻译服务

LLM还支持字幕翻译功能,采用三步翻译工作流:

  1. 初始翻译
  2. 反思与改进
  3. 优化输出

未来LLM扩展计划

多LLM提供商支持

计划扩展对更多LLM服务提供商的支持,包括但不限于:

  • 更多OpenAI兼容的API服务, 如Openrouter
  • 用户自定义模型。
  • 国内主流LLM服务商
  • 本地部署的开源LLM模型