语音识别服务
支持的语音识别服务
注意
本项目的开源版本完全免费。你所需承担的唯一费用是调用大模型 API 与字幕识别API 所产生的费用,该费用由对应的服务提供商收取,与本项目无关,所有扣费行为均由服务商直接执行。
VidGo通过工厂模式支持以下语音识别引擎:
-
Faster-Whisper(本地)
- 优势:无需API密钥,本地处理,隐私性好,支持多语言
- 模型支持:tiny、medium、large-v3、distil-large-v3等多种规格
- 实现:通过
FasterWhisperEngine
类实现,使用本地下载的Whisper模型
-
阿里云 DashScope(远程服务)
- 效果:中文效果佳,成本0.012元/分钟
- 模型:使用
paraformer-realtime-v2
模型,专门优化中英文识别 - 特性:支持词级时间戳,包含标点符号处理
-
ElevenLabs(远程服务)
- 效果:极高质量转录,支持多语言,成本0.04元/分钟
- 模型:使用
scribe_v1
模型 - 特性:提供词级时间戳,可选择是否包含标点符号
-
OpenAI Whisper API
- 效果:OpenAI官方API,高质量,成本0.04元/分钟
- 支持国内:可配置
base_url
支持代理服务如chat_anywhere - 特性:使用
whisper-1
模型,支持词级时间戳
系统使用了主引擎+备用引擎的容错机制,用户可以指定备用引擎以预防主引擎出错的情况。