跳到主要内容

语音识别服务

支持的语音识别服务

注意

本项目的开源版本完全免费。你所需承担的唯一费用是调用大模型 API 与字幕识别API 所产生的费用,该费用由对应的服务提供商收取,与本项目无关,所有扣费行为均由服务商直接执行。

VidGo通过工厂模式支持以下语音识别引擎:

  • Faster-Whisper(本地)

    • 优势:无需API密钥,本地处理,隐私性好,支持多语言
    • 模型支持:tiny、medium、large-v3、distil-large-v3等多种规格
    • 实现:通过FasterWhisperEngine类实现,使用本地下载的Whisper模型
  • 阿里云 DashScope(远程服务)

    • 效果:中文效果佳,成本0.012元/分钟
    • 模型:使用paraformer-realtime-v2模型,专门优化中英文识别
    • 特性:支持词级时间戳,包含标点符号处理
  • ElevenLabs(远程服务)

    • 效果:极高质量转录,支持多语言,成本0.04元/分钟
    • 模型:使用scribe_v1模型
    • 特性:提供词级时间戳,可选择是否包含标点符号
  • OpenAI Whisper API

    • 效果:OpenAI官方API,高质量,成本0.04元/分钟
    • 支持国内:可配置base_url支持代理服务如chat_anywhere
    • 特性:使用whisper-1模型,支持词级时间戳

系统使用了主引擎+备用引擎的容错机制,用户可以指定备用引擎以预防主引擎出错的情况。