语音识别服务

支持的语音识别服务

注意

本项目的开源版本完全免费。你所需承担的唯一费用是调用大模型 API 与字幕识别API 所产生的费用，该费用由对应的服务提供商收取，与本项目无关，所有扣费行为均由服务商直接执行。

VidGo通过工厂模式支持以下语音识别引擎：

Faster-Whisper（本地）
- 优势：无需API密钥，本地处理，隐私性好，支持多语言
- 模型支持：tiny、medium、large-v3、distil-large-v3等多种规格
- 实现：通过FasterWhisperEngine类实现，使用本地下载的Whisper模型
阿里云 DashScope（远程服务）
- 效果：中文效果佳，成本0.012元/分钟
- 模型：使用paraformer-realtime-v2模型，专门优化中英文识别
- 特性：支持词级时间戳，包含标点符号处理
ElevenLabs（远程服务）
- 效果：极高质量转录，支持多语言，成本0.04元/分钟
- 模型：使用scribe_v1模型
- 特性：提供词级时间戳，可选择是否包含标点符号
OpenAI Whisper API
- 效果：OpenAI官方API，高质量，成本0.04元/分钟
- 支持国内：可配置base_url支持代理服务如chat_anywhere
- 特性：使用whisper-1模型，支持词级时间戳

系统使用了主引擎+备用引擎的容错机制，用户可以指定备用引擎以预防主引擎出错的情况。