附录 F: 原始素材与完整调研报告
本附录收录本书撰写过程中收集的原始素材和调研报告,作为研究参考。这些材料是本书内容的直接来源,完整保留以便读者:
- 了解本书内容的原始依据
- 进行二次研究和对比
- 追溯引用来源
收录的原始素材
素材清单
| 编号 | 标题 | 类型 | 来源 |
|---|---|---|---|
| F.1 | 选型调研观点 1 | 选型调研 | 实地研究 |
| F.2 | 选型调研观点 2 | 选型调研 | 实地研究 |
| F.3 | 小白试用攻略 1 | 试用指南 | 经验整理 |
| F.4 | 小白试用攻略 2 | 试用指南 | 经验整理 |
| F.5 | 小白试用攻略 3 | 试用指南 | 经验整理 |
| F.6 | 同传辅助软件保姆级试用指南 | 完整指南 | 实战手册 |
F.1 选型调研观点 1
下面是按"给自己做讲座同声翻译辅助"这个场景做的选型报告。结论先说:不要只靠一个软件。最稳的方案是"一个专业实时同传字幕软件做主通道 + 一个本地/免费字幕工具做备份 + 术语表预热"。
一、首选建议
最推荐组合
主力方案:KUDO AI 或 Wordly AI
适合正式讲座、付费活动、嘉宾口音重、不能翻车的场景。KUDO 主打会议/活动实时 AI 语音翻译与字幕,支持 60+ 语言,且官方公布 AI speech translator 平均延迟约 4.1 秒;Wordly 支持线下、Zoom、Teams、Google Meet、Webex、混合会议,提供实时翻译、字幕、转写和总结。
参考: KUDO 官网
个人电脑辅助方案:JotMe + Akkadu 二选一
如果你只是作为译员个人看字幕,不需要把字幕广播给全场,JotMe 和 Akkadu 更轻量。JotMe 有 Windows/Mac 桌面端,直接捕获电脑音频,不需要会议机器人,支持实时上下文翻译、转写、会议笔记,官方称支持 107 种语言;Akkadu 有 Windows/macOS 应用,支持任意会议、直播、视频的实时 AI 字幕,微软商店页面标注 90+ 语言、约 95% 高准确率、$5/小时。
参考: JotMe 官网
中文环境/国内活动:讯飞同传优先测试
如果讲座在国内、音频条件一般、涉及中文普通话识别、英中互译,讯飞同传值得优先测试。讯飞同传官方说明其提供多场景多语种实时转写翻译、同声传译、直播字幕上屏、会议记录分享;其 Windows 个人版微软商店页面显示每日免费 20 分钟,超出按 0.8 元/分钟收费。
参考: 讯飞同传官网
二、收费软件推荐(至少 5 个)
| 排名 | 软件 | 适合场景 | 优点 | 风险/限制 | 建议 |
|---|---|---|---|---|---|
| 1 | KUDO AI Speech Translator | 正式会议、讲座、混合活动、企业活动 | 专业活动级;支持 AI 或人工译员;60+ 语言;有字幕和翻译音频;官方披露平均延迟 4.1 秒 | 价格偏企业级;需要提前配置 | 正式讲座首选之一 |
| 2 | Wordly AI | 线下讲座、线上会议、Webinar、大会 | 支持 Zoom/Teams/Meet/Webex/线下;听众可用二维码/链接;提供字幕、翻译音频、转写、总结 | 价格通常按活动/小时;需测试中英术语 | 大型活动非常合适 |
| 3 | Interprefy | 企业级、会议级、需要稳定支持 | 支持 AI speech translation、实时字幕、80+ 语言;还有 6000+ 人工译员资源 | 偏企业采购;个人使用成本高 | 预算充足时很稳 |
| 4 | JotMe | 个人译员电脑辅助、Zoom/Teams/Meet | 桌面端直接捕获系统音频;不需要 bot;上下文翻译;支持中英;G2 页面有用户评价称其实时翻译、转写和 AI 总结组合实用 | 真实低延迟和口音效果要现场测试;新兴产品 | 个人使用性价比高 |
| 5 | Akkadu AI | 电脑悬浮字幕、任意软件/视频/会议 | Windows/macOS;90+ 语言;按小时付费;适合"我自己看字幕" | 公开评价数量不多;复杂口音需测试 | 轻量桌面字幕强备选 |
| 6 | DeepL Voice for Meetings | Teams/Zoom 中的商务会议翻译 | DeepL 翻译质量口碑强;官方称可在 Microsoft Teams 和 Zoom Meetings 中提供实时字幕,支持 100+ 语言,包括中文、英文 | 语音产品仍在扩展,Voice-to-Voice 有些功能标注为 coming soon/early access;需确认可购买性 | 翻译质量潜力大,但要先试用 |
| 7 | Zoom Translated Captions / Voice Translator | 讲座本身就在 Zoom | 原生集成,使用方便;Zoom translated captions 可把会议语音实时翻译成另一种语言字幕;Voice Translator 当前支持英语、中文、法语、日语、西语,但 beta 仅面向部分付费美国账号 | 中英质量口碑不稳定;Voice Translator 可用范围受限 | 作为 Zoom 内置备份,不建议唯一依赖 |
| 8 | 讯飞同传 / 讯飞听见 | 国内会议、中英双向、中文识别 | 国内中文语音识别强;有 PC 客户端、同传服务、直播字幕上屏;个人版有免费额度 | 英语重口音表现需现场验证;价格按分钟累积 | 国内场景强烈建议试 |
KUDO、Wordly、Interprefy 更像"活动级解决方案";JotMe、Akkadu、讯飞同传更像"个人译员电脑辅助工具"。KUDO 和 Wordly 的优势是稳定和活动支持,JotMe/Akkadu 的优势是部署快、成本低、适合你自己盯屏幕用。
参考来源: KUDO
三、免费或免费额度软件推荐(至少 5 个)
这些可以做备份,但不建议把免费工具作为正式同传讲座的唯一依赖。
| 排名 | 软件 | 免费属性 | 适合场景 | 优点 | 限制 |
|---|---|---|---|---|---|
| 1 | Windows 11 Live Captions / Copilot+ PC Live Translation | 系统功能 | 本机任意音频字幕 | 低门槛、系统级、可捕获电脑音频;Copilot+ PC 支持把多种语言翻译成英文字幕,且部分语言可翻译成简体中文 | 依赖硬件/系统版本;不等同专业中英双向同传 |
| 2 | Buzz Captions | 开源/本地,部分平台免费 | 离线转写、备份字幕、会后复盘 | 基于 Whisper,可离线转写和翻译;GitHub 页面显示支持麦克风实时转写、演示窗口、CUDA/Apple Silicon 后端 | 官方文档也提示麦克风转写"资源密集,可能不是实时" |
| 3 | Speech-Translate | 开源免费 | 技术用户本地实时转写+翻译 | GitHub 项目定位为用 Whisper 和免费翻译 API 做实时语音转写与翻译 | 配置门槛高;稳定性不如商业产品 |
| 4 | WhisperLive | 开源免费 | 本地/服务器实时转写 | 近实时 Whisper 实现,支持麦克风和预录音频;SourceForge 镜像说明支持 Faster-Whisper、TensorRT、OpenVINO 等后端以降低延迟 | 主要是转写,不是完整会议同传产品;需技术部署 |
| 5 | Google Translate / Google Meet captions | 免费或随账号 | 临时手机/浏览器备份 | 易用、覆盖语言多,适合临时验证词句 | 对长讲座、专业术语、实时字幕窗口管理不够专业 |
| 6 | Microsoft Translator / Teams 基础字幕能力 | 部分免费/随 Microsoft 生态 | Microsoft 生态会议 | Teams 可显示实时字幕;Teams Premium 才有更完整的实时翻译字幕能力 | 免费版能力有限;最好不要作为唯一方案 |
| 7 | 讯飞同传个人版免费额度 | 每日免费 20 分钟 | 短时试用、中文环境测试 | 国内中文识别和中英场景友好 | 超出免费额度按分钟收费 |
Windows Live Captions 的官方文档说明,Copilot+ PC 上 live captions 可把多种语言翻译成英文,支持来源语言包括中文普通话/简体中文等;Buzz 官方说明它在电脑本地用 Whisper 转写和翻译;Buzz 文档同时提示麦克风转写资源消耗较高、可能无法真正实时。
参考: 微软官方文档
四、针对两个核心需求逐项判断
需求 1: 带口音、发音模糊的英语 → 极低延迟英文文本 + 极低延迟中文翻译
最佳方向:优先选"活动级实时 AI 翻译平台",其次选"桌面捕获式字幕软件"。
排序:
- KUDO AI:正式场合最稳,延迟有公开指标,适合讲座/会议级使用。
- Wordly AI:活动部署成熟,适合让听众也能看到字幕/听翻译。
- JotMe:个人电脑使用非常方便,适合译员自己看实时英中字幕。
- Akkadu:任意软件悬浮字幕,按小时付费,适合不想改会议平台的情况。
- 讯飞同传:国内/中文环境强,英中互译值得现场测试。
- DeepL Voice:翻译质量潜力很高,但语音产品仍要确认所在地区和账号是否可用。
- Zoom/Teams 内置字幕翻译:作为备份可以,作为主力要谨慎。
口音鲁棒性方面,Whisper 系列的公开介绍强调其训练数据覆盖多语种、多任务,并带来对口音、背景噪声和专业术语的鲁棒性;Otter 官方也声称能处理多种英语口音,但 Otter 当前支持的转写语言范围并不适合"中英双向同传"主需求。
参考: OpenAI Whisper
需求 2: 识别中文语音,快速生成翻译文本
如果是"中文语音 → 中文实时转写":首选 讯飞听见/讯飞同传、Windows Live Captions、JotMe、Akkadu、Buzz/WhisperLive。中文转写要求低于跨语言翻译,国内中文识别工具会更稳。
如果是"中文语音 → 英文翻译文本/双语字幕":首选 KUDO、Wordly、JotMe、Akkadu、DeepL Voice、讯飞同传。
五、专业选型评分
满分 5 分,按场景加权:口音识别 30%,延迟 25%,英中翻译质量 20%,电脑端易用性 15%,稳定性/口碑 10%。
| 软件 | 综合建议分 | 口音英语识别 | 低延迟 | 中英互译 | 电脑端易用 | 适合度 |
|---|---|---|---|---|---|---|
| KUDO AI | 4.6 | 4.4 | 4.2 | 4.5 | 4.0 | 正式讲座主力 |
| Wordly AI | 4.5 | 4.3 | 4.2 | 4.5 | 4.2 | 正式讲座主力 |
| JotMe | 4.3 | 4.1 | 4.3 | 4.3 | 4.8 | 个人译员强推荐 |
| Akkadu | 4.2 | 4.0 | 4.2 | 4.1 | 4.7 | 个人电脑悬浮字幕推荐 |
| 讯飞同传 | 4.1 | 3.9 | 4.2 | 4.3 | 4.3 | 国内/中文环境推荐 |
| Interprefy | 4.1 | 4.2 | 4.0 | 4.2 | 3.8 | 企业活动推荐 |
| DeepL Voice | 4.0 | 4.0 | 3.8 | 4.6 | 3.8 | 翻译质量潜力强,需试用 |
| Zoom/Teams 内置翻译字幕 | 3.6 | 3.6 | 4.0 | 3.5 | 4.8 | 备份,不建议唯一依赖 |
| Buzz / WhisperLive / Speech-Translate | 3.4 | 4.0 | 3.0 | 3.2 | 2.8 | 技术备份、会后复盘 |
六、最终采购/试用路径
预算充足、讲座重要
用 KUDO AI 或 Wordly AI 做主力。提前把讲座主题、嘉宾姓名、公司名、专业术语、人名地名、缩写词做成 glossary/术语表。活动当天同时开 JotMe 或 Akkadu 在你的电脑上作为个人备份字幕。
个人译员、只需要自己看字幕
优先试 JotMe → Akkadu → 讯飞同传。原因是这三类工具更像"个人桌面实时字幕助手",不一定要改造整个会议流程。
零预算或备份方案
准备 Windows Live Captions + Buzz 或 WhisperLive + Google Translate。这套适合备份,不适合高风险正式场合。
七、现场使用建议
正式讲座前至少做一次 10 分钟真实音频压测:让软件听同一段"带口音英语 + 专业术语 + 快语速 + 背景噪声"的录音,比较三件事:第一行英文字幕出现时间、中文翻译出现时间、关键术语是否错译。只看宣传页没有意义。
目标不是"完全替代同传",而是得到一个低延迟提示屏。实际同传时,AI 字幕最有价值的是帮你抓住数字、人名、术语、长句结构;不要让它主导译文节奏。落地建议:
- 正式付费讲座:KUDO/Wordly 主力 + JotMe/Akkadu 个人备份。
- 个人低成本讲座:JotMe 或 Akkadu 主力 + Windows Live Captions/Buzz 备份。
- 国内中文/中英场景:讯飞同传一定要列入试用。
F.2 选型调研观点 2
(2026 年最新的同传辅助工具信息)
需求澄清:"识别中文的语音,快速生成翻译的中文文本"——按字面是"中→中",这通常意味着中文语音转写为中文字幕(作为听辨辅助)。如果实际想要的是中文语音→英文文本(即双向同传辅助),下面推荐的工具基本都能覆盖,所以不影响选型。
一、付费类备选(10 款)
| # | 软件 | 厂商/性质 | 关键优势 | 延迟 | 价格区间(参考) |
|---|---|---|---|---|---|
| 1 | 讯飞同传 / 讯飞听见同传 | 科大讯飞(中国) | 中英互译国内最稳,"AI字幕投屏、多语种会议记录…离线单机版+在线客户端双端协同";星火大模型加持 | 1–2 秒 | 按时长计费,约 ¥30–60/小时 |
| 2 | 同声传译王 PC 版 | 风平信息(中国) | "0.5秒超低延迟和30+语言覆盖…悬浮字幕窗口…可叠加在 Zoom、腾讯会议中" | ~0.5 秒 | 包月/包年订阅 |
| 3 | Transync AI(同言翻译) | Transync(国际) | "端到端 AI 语音大模型,近零延迟双屏输出,支持 60 种语言";支持 Zoom/Teams/Meet | <1 秒 | 月付 |
| 4 | Soniox | Soniox(美) | 对带口音英语最强,"高精度跨语言、口音、数字、人名、专业词;低延迟实时流" | 极低 | API 计费 |
| 5 | Palabra.ai | Palabra(国际) | "双向同传延迟低于一秒…在所有测试方案中翻译质量最高、延迟最低";可塞入 Zoom/OBS | <1 秒 | 订阅 + API |
| 6 | JotMe | JotMe(国际) | "上下文感知,平均 3–4 秒延迟…200+语言;集成 Zoom、Meet、Teams、Webex" | 3–4 秒 | 订阅,免费 20 分钟/月 |
| 7 | Maestra Live | Maestra AI(国际) | 浏览器即开即用,"实时听写+翻译+ AI 语音朗读…自动检测语言、多说话人识别",125+ 语言 | 1–2 秒 | 按分钟订阅 |
| 8 | Wordly | Wordly(美) | 会议/活动场景标杆,"按小时计价…支持现场、Zoom、Teams、Meet、Webex 或混合会议" | 1–2 秒 | 按小时 |
| 9 | MacWhisper Pro | Goodsnooze(独立开发) | "Whisper + Nvidia Parakeet…全程在本机处理,数据不离开设备;可自动录制 Zoom、Teams、Webex 会议"(仅 macOS) | 取决于硬件,本地 1–3 秒 | 一次性买断 |
| 10 | DeepL Voice | DeepL(德) | 翻译质量最自然,"擅长准备好的演讲和结构化内容,输出比许多替代品听起来更自然" | 2–3 秒 | 订阅 |
二、免费/开源类备选(10 款)
| # | 软件 | 性质 | 关键优势 | 局限 |
|---|---|---|---|---|
| 1 | Buzz(基于 Whisper) | 开源、跨平台 | "Vulkan GPU 加速,5GB 显存即可大模型实时转写…支持 Whisper、whisper.cpp、Faster Whisper",完全离线 | 实时性吃硬件;翻译需配 LLM |
| 2 | WhisperLive(Collabora) | 开源 | "近实时 Whisper 实现…支持麦克风/文件、可选启用翻译线程" | 需自部署服务端 |
| 3 | 沉浸式翻译 Immersive Translate | 免费 + 付费 | "实时翻译 Zoom、Google Meet、Microsoft Teams 跨语言在线会议…内置 ChatGPT、DeepL、Deepseek、Gemini 等 20+ AI 翻译引擎" | 偏会议字幕,非真正双屏同传 |
| 4 | Microsoft Live Captions(Win 11) | Windows 11 内置 | "在 Copilot+ PC 上可即时翻译任意应用或视频平台,覆盖 40+ 语言" | 普通 PC 仅英→英;最好为 Copilot+ 机型 |
| 5 | Apple Live Captions(macOS/iOS) | 系统内置 | 系统级捕获任何 App 的音频,零配置 | 中文支持有限,主要英文 |
| 6 | Google Translate Web / 转写模式 | 网页/手机 | 免费稳定,口音容忍度高,"转写"功能可持续翻译 | 桌面端需做"立体声混音"绕道 |
| 7 | Speechlogger | 网页(免费) | "语音转语音、自动标点、自动保存、时间戳、朗读",零安装 | 引擎是 Google,网络要稳 |
| 8 | 百度 AI 同传 / 度同传 | 网页/移动端 | 中英实时同传 + 双语字幕,国内网络友好 | 个人版功能受限 |
| 9 | 网易见外工作台 | 网页 | "AI 智能语音转写听翻平台…会议同传…实时转写和同步翻译,支持文本编辑与导出" | 免费额度有限 |
| 10 | 钉钉 AI 听记 | 钉钉内置 | 国内会议常见,集成会议字幕,免费额度大 | 必须在钉钉会议内 |
三、专业选型建议报告
1. 工作场景的核心约束(按重要性)
作为讲座的人类同传译员,需要的是辅助听辨与术语提示,不是替代你输出译文。所以选型权重应该是:
- 口音鲁棒性(最重要)——讲者英语带口音、发音模糊,识别错一个关键名词,整段都会被你"带歪"。
- 极低延迟——译员的"听—想—说"链条只能容忍 1–2 秒可视参考延迟,超过 3 秒文本就反而干扰你了。
- 系统音频捕获(非常关键)——耳机里听到的是会议台/Zoom/线缆引来的信号,软件必须能直接抓系统输出,而不是只能听麦克风。
- 双屏/双语对照显示——同时看到原文 + 译文,便于交叉校对术语。
- 离线/本地能力——保密讲座、网络抖动、海外场地,离线能力是保险。
- 长时稳定性——一场讲座 1.5–3 小时,云服务必须不掉线。
2. 不同维度的"最佳"
- 口音鲁棒性最佳:Soniox(专门为多口音设计) > OpenAI Whisper(large-v3)(通过 MacWhisper / Buzz 调用) > Google > 讯飞。Whisper 对印度、东南亚、东欧、拉美口音的英语识别普遍优于其他主流引擎,这一点几乎是同传圈共识。
- 延迟最佳:Palabra.ai 与 Transync AI(双双声称 < 1 秒);本地 Whisper 视显卡而定,RTX 3060 以上可压到 1–1.5 秒。
- 中英术语翻译质量最佳:讯飞同传(中文语境最贴合) > DeepL(书面流畅) > GPT-4o / Claude 接入沉浸式翻译(自定义术语表灵活)。
- 保密性最佳:MacWhisper / Buzz / WhisperLive(全本地,音频不出本机)。
- 系统音频抓取最方便:MacWhisper(macOS 原生)、讯飞同传桌面端(含虚拟声卡)、沉浸式翻译(直接挂载会议软件)。
- 零成本起步最佳:Buzz + 沉浸式翻译 的组合。
3. 推荐方案(按预算和环境分档)
方案 A —— 专业首选(推荐):讯飞同传桌面客户端 + MacWhisper Pro / Buzz 作为备份
讯飞同传作为主力:中文语境术语库强,国内会议网络稳定,延迟可控;同时它的 PC 客户端可以接虚拟声卡抓系统音频。把 MacWhisper(Mac)或 Buzz(Win/Linux)开成第二屏作为冷备份——一旦云服务抽风或网络抖动,本地 Whisper 立刻顶上。这是把"质量"和"可用性"分开下注的稳健打法。
方案 B —— 重口音英语 + 国际场景:Soniox(或 Palabra.ai)+ 沉浸式翻译挂会议软件
如果讲者是非英语母语者(印度、东南亚、东欧、阿拉伯英语等),Soniox 的优势会被放大。把 Soniox 作为 ASR 后端,沉浸式翻译挂在 Zoom/Teams 上吃字幕做翻译呈现。Palabra.ai 的优势是它就是一个端到端的双向同传管道,少很多接线工作。
方案 C —— 最低预算/最高保密性:Buzz + 沉浸式翻译(接 DeepL/Claude/GPT)
零费用起步,全本地。Buzz 跑 Whisper large-v3 抓英文文本,沉浸式翻译里接一个 LLM API 做 EN→ZH 翻译。代价是要花 2–3 小时配置(虚拟声卡 VB-CABLE / BlackHole、模型下载、热键),并且需要一台 GPU 不弱的电脑(≥ 8GB 显存)。
方案 D —— Mac 用户最省心:MacWhisper Pro(拿做 ASR + 系统级会议捕获)+ Apple Live Captions(备份)+ 浏览器开 DeepL 或 沉浸式翻译 做翻译。一次性买断,整套体验非常顺。
4. 关于"需求 2"(中文识别)的建议
无论是想要"中→中转写"还是"中→英翻译",上述方案都覆盖:
- 讯飞同传 中文识别准确率国内第一档,普通话识别远胜任何国际方案;
- Whisper large-v3 的中文识别也很好,且离线;
- 如果讲座有粤语、川普、东北话等口音,讯飞 > Whisper > 其他。
5. 实操建议(很多人忽略的关键点)
- 必装虚拟声卡:Windows 上安装 VB-CABLE 或者打开"立体声混音""将电脑输出的作为麦克风的输出";Mac 上装 BlackHole 或 Loopback。这样翻译软件才能听到讲者的声音而不是周围的噪音。
- 建术语表:讯飞同传、Wordly、Palabra 都支持自定义术语表(glossary)。讲座前 30 分钟把领域专有名词、人名、机构名导进去,准确率会显著提升。
- 双屏布置:主屏看你的笔记/PPT,副屏(或手机)放原文+译文。文字呈现窗口要够大、底色对比强、字号 ≥ 24pt——这一点很多软件默认值偏小,长时间盯会非常累。
- 不要依赖一套:所有 AI 同传都会在关键处掉链子。最佳实践是主+备双跑,比如讯飞 + 本地 Whisper 同时开。
- 延迟测试:正式上场前用一段已知音频(比如讲者过往演讲视频)测当天的端到端延迟;网络环境会让标称延迟翻倍。
6. 一句话结论
如果只想买一个:买"讯飞同传桌面客户端"——中文场景术语+稳定+生态最适合中国译员日常使用。
如果想搭一套战斗系统:讯飞同传(主) + MacWhisper 或 Buzz(本地备份) + 沉浸式翻译(挂在会议软件上做字幕兜底)。这一套综合成本可控,覆盖了云服务抽风、网络断、保密讲座等所有边角情况。
F.3 小白试用攻略 1
为 20 个工具都写"保姆级"介绍内容会比较长,适合做成可下载的参考文档让你随时翻看。先把它整理成一份 Markdown 指南文件,然后下面给你最关键的 3 件事先说清楚。
不过在你打开文档真正动手之前,有 3 件事必须先讲清楚,否则一半软件你会卡在第一步:
第一件:先装虚拟声卡,否则翻译软件听不到讲者的声音
翻译软件默认只能听麦克风,但讲者的声音是从你电脑的扬声器里出来的。要让软件听到这个声音,必须装"虚拟声卡"把"输出"变成"输入"。
- Windows:开"立体声混音"(系统自带,免费),或装 VB-CABLE
- Mac:装 BlackHole 2ch(免费)
文档里有详细步骤,这一步不做,下面所有软件都白费。
第二件:建议你按"3 天试用法"快速建立直觉
- 第 1 天先注册讯飞同传 + 沉浸式翻译,跑一段已知英文演讲做基线
- 第 2 天装本地备份(Mac 装 MacWhisper、Win 装 Buzz)做对比
- 第 3 天补一个国际方案(Transync AI 或 Maestra Live)做最后裁决
不要一上来就把 20 个全装,反而会让你迷失在工具堆里。
第三件:最稳的实战配置是"双跑"
正式讲座建议主力跑讯飞同传(云端、中文场景准),备份开 MacWhisper 或 Buzz(本地、离线、保密)。一套挂了立刻切,没人能 100% 信任单一云服务。
F.4 小白试用攻略 2
根据你的三个偏好(口音、延迟、简单),给你圈定 3 个工具,这 3 个加在一起就够覆盖所有讲座场景,没必要再装别的。
你的最佳三件套
| # | 软件 | 担任角色 | 为什么是它 |
|---|---|---|---|
| 1 | 讯飞同传 | 主力(默认开它) | 三项你在意的指标里"延迟"和"操作简单"它都赢;中文界面、点点鼠标就能用 |
| 2 | MacWhisper / Buzz | 口音救命稻草 + 离线备份 | "口音重也能识别"这一项 Whisper Large v3 是地表最强;讯飞搞不定的口音它能搞定;离线运行还能在网络抖动时兜底 |
| 3 | 沉浸式翻译插件 | 线上会议挂件 | 装一个浏览器插件就能给 Zoom/Teams/Meet 网页版叠双语字幕;操作没法更简单了 |
为什么这 3 个就够,不需要更多:你是译员不是软件评测员,工具越多反而分心。讯飞负责日常 80% 的场景,Whisper 类负责讯飞翻车的 20%(重口音、网络断),沉浸式翻译只在线上会议时辅助一下。
按机器分别配置
Windows 机器装这三个:
- 讯飞同传桌面版 + VB-CABLE 虚拟声卡
- Buzz + Faster Whisper 后端 + Large v3 Turbo 模型
- Chrome / Edge + 沉浸式翻译插件
Mac 机器装这三个:
- 讯飞同传 Mac 版 + BlackHole 2ch 虚拟声卡
- MacWhisper Pro(一次性 €59 买断,比 Buzz 省心很多)
- Chrome / Safari + 沉浸式翻译插件
试用顺序(建议两个周末搞定)
第一个周末(4 小时):把讯飞同传 + 沉浸式翻译跑通
讯飞同传是主力,必须最先跑通。找一段 YouTube 上的 TED 演讲(讲者是英语母语),先用它看看默认效果。然后换一段印度英语或东欧英语的演讲(YouTube 搜 "Indian English lecture" 之类),看讯飞翻不翻车。这一步是基线——你要知道讯飞的能力边界在哪里。
沉浸式翻译装好后,去 Zoom 找个网页测试会议,看双语字幕怎么叠。
第二个周末(4 小时):装 Whisper 类做对比
Mac 装 MacWhisper(先免费版试,满意再买 Pro);Windows 装 Buzz。用同一段印度英语 / 东欧英语视频再跑一遍。你会发现 Whisper Large v3 在重口音上明显赢讯飞——这就是你为什么需要它。
针对三个痛点的具体配置要点
1. 让"口音重的英语"识别更准
- 讯飞同传:进"效果优化"→ 加热词。把讲者的母语国名(如 India、Russia)以及讲座领域的关键术语全输进去。讯飞会优先这些词。
- MacWhisper / Buzz:选 Large v3 Turbo 模型,别选 Small / Base。模型越大对口音越宽容。
- 不要选 "auto-detect language",一定手动锁定 "English",否则模型可能把奇怪口音误判为别的语言。
2. 让延迟降到最低
- 讯飞同传:在设置里关闭"翻译润色"或"高质量模式",选"流畅模式",延迟差大概 1 秒。
- Buzz / MacWhisper:选 Faster Whisper 后端(不是原版 Whisper),速度差 2-3 倍。
- 关掉所有不用的同传软件 —— 同时跑两个 Whisper 模型会互相抢 GPU 资源拖慢延迟。
- Mac M 系列 / Windows 有独显:用 Large v3 Turbo,本地延迟可压到 1-1.5 秒。
3. 让操作尽可能简单
- 把讯飞同传设成开机自启,做一个桌面快捷方式直接进"快速会议"。
- 沉浸式翻译里设好默认翻译引擎(推荐 DeepL 或 Claude),以后不用每次选。
- 字幕窗口的位置、字号、颜色,在每个软件里都一次性设好后保存为预设。讲座前 5 分钟你只要打开软件就是这个状态,不用再调。
不推荐你装的(基于偏好)
- Soniox / Palabra.ai:虽然技术强,但都是 API 优先,没有现成桌面 App,"操作简单"这一条不达标。
- WhisperLive / Whisper.cpp:要写命令行,跳过。
- Wordly / KUDO:企业活动场景,按小时收费贵,单人译员场景过度。
- DeepL Voice:翻译质量好但 ASR 是短板,对重口音不如 Whisper。
- 百度同传 / 网易见外:能力都被讯飞覆盖了,没必要重复装。
预算预估:讯飞同传按时长充值(一年 ¥500-1000 应该够你重度使用) + MacWhisper Pro 一次性 €59 + 沉浸式翻译免费版基本够用 → 第一年总投入约 ¥1500 以内。
F.5 小白试用攻略 3
下面是一份零基础小白试用手册。建议不要一次全试,按这个顺序来:先试个人电脑工具 → 再试活动级平台 → 最后准备免费备份工具。
第 1 梯队:你最该先试的 4 个
1. JotMe:个人译员最容易上手
适合你:非常适合。
它的定位就是电脑端实时翻译/转写,不需要把机器人拉进会议,官方说明可直接从 Mac 和 Windows 捕获电脑音频,用于实时翻译、转写和会议总结。
参考: JotMe 官网
从哪里下载:
去 JotMe 官网,找 Download Desktop App。Mac 页面会自动下载 .dmg,官方安装步骤是:打开下载文件 → 拖到 Applications → 打开应用。
参考: JotMe Mac 下载
小白试用步骤:
- 打开 JotMe 官网
- 点击下载桌面版,选择 Mac 或 Windows
- 安装后注册账号
- 打开 Zoom、Teams、YouTube 或任意英文演讲视频
- 打开 JotMe
- 选择输入音频来源:优先选 Computer Audio / System Audio / 电脑声音
- 设置语言:
- 说话语言:English
- 翻译语言:Chinese / Simplified Chinese
- 播放一段带口音英文视频
- 看它是否同时给你:
- 英文实时转写
- 中文实时翻译
- 会后文本记录
判断: 如果你是"自己给自己看字幕辅助同传",JotMe 是最先试的。
2. Akkadu:最像"电脑悬浮 AI 字幕"的工具
适合你:适合。
它适合会议、直播、视频、课程这类"电脑里正在播放声音,想实时看字幕和翻译"的场景。第三方工具页描述其使用方式是下载安装 Windows/macOS 应用,注册后获得免费 AI 字幕分钟数,选择语言并确保选中 Computer Sound。
参考: Toolify 评测
判断: Akkadu 非常适合做 JotMe 的替代或备份。如果喜欢"字幕悬浮在屏幕上"的形式,它可能比 JotMe 更顺手。
3. 讯飞同传:中文环境必试
适合你:非常适合国内中英场景。
讯飞同传官网说明它提供多场景多语种实时转写翻译、同声传译、直播字幕上屏和会议记录分享。其 Windows 版微软商店页面显示,个人版每日免费 20 分钟,超出部分按 0.8 元/分钟收费。
参考: 讯飞同传官网 | Microsoft Store
从哪里下载:
- 讯飞同传官网的下载页,找 立即下载讯飞同传客户端。
- Windows 用户也可以从微软应用商店下载"讯飞同传"。
参考: 讯飞同传下载页
判断: 只要讲座发生在中文环境、听众或译员主要看中文,讯飞同传必须试。
4. Windows Live Captions:免费备份
适合你:适合做免费备份。
Windows Live Captions 是系统级功能,微软官方说明它可帮助用户更好理解音频;在 Copilot+ PC 上,实时字幕还支持翻译能力。
参考: The Verge 评测
从哪里打开:
Windows 11 电脑上通常不用下载。
小白试用步骤:
- 按快捷键:
Win + Ctrl + L - 或进入:
- 设置
- 辅助功能
- 字幕 / Live captions
- 打开 Live Captions
- 播放英文视频
- 看屏幕顶部是否出现英文字幕
- 如果是 Copilot+ PC,再查看是否有翻译选项
第二章: 活动级平台
5. KUDO AI:正式活动首选之一
适合你:如果讲座很重要,非常适合。
KUDO 官网说明它提供 AI 或人工实时语音翻译,可用于远程、混合、线下活动。KUDO 定价页显示有 Pay As You Go 选项,可用于一次性会议或活动,也有年度方案。
联系销售模板:
我需要为一场英文讲座做实时英中字幕和翻译。讲者英语有口音,要求低延迟英文转写和中文翻译。预计时长 X 小时,听众人数 X 人,场景是线上/线下/混合。请提供 KUDO AI Speech Translator 的试用或 Pay As You Go 报价,并说明是否支持 English → Simplified Chinese 和 Chinese → English。
6. Wordly AI:大型会议非常适合
适合你:正式讲座、多人活动、听众也要看字幕时很适合。
Wordly 官网说明它提供实时 AI 翻译、字幕、转写和总结。
7. Interprefy:企业级会议
适合你:如果活动很正式、预算高、需要平台支持,适合。
参考: Interprefy 官网 | AI Speech Translation
第三章: 会议软件内置方案
8. Zoom Translated Captions
适合你:适合做备份,不建议唯一依赖。
9. Microsoft Teams 翻译字幕
参考: Teams Live Captions | Live Events | Interprefy 博客
第四章: DeepL Voice
10. DeepL Voice for Meetings
适合你:适合测试,但不要默认它马上能满足全部需求。
DeepL 官方说明 DeepL Voice for Meetings 支持 Microsoft Teams 和 Zoom Meetings 中的实时字幕,覆盖 100+ 语言,包括中文和英文;同时官方也标注 voice-to-voice support 是 coming soon。
参考: DeepL Voice | Voice for Meetings | Zoom Marketplace
第五章: 免费/开源备份工具
11. Buzz Captions
适合你:适合免费备份和会后复盘。
Buzz 官网说明它可以导入音视频并导出 TXT、SRT、VTT,也支持从电脑麦克风进行 live transcription and translation。GitHub 页面也显示它支持实时麦克风转写、演示窗口、降噪/语音分离、说话人识别、多种 Whisper 后端、Nvidia GPU 和 Apple Silicon。
参考: Buzz Captions 官网 | GitHub | Releases
12. Speech-Translate
参考: GitHub
13. WhisperLive
参考: GitHub | SourceForge
第六章: 手机/网页级工具
14. Google Translate
参考: Google Translate | 关于页 | 桌面端帮助
15. Microsoft Translator
参考: Microsoft Translator | App 列表 | App Store
第七章: 讯飞听见
参考: 讯飞听见帮助中心
给读者的最终实操路线
第一天:先试最容易的
按这个顺序:
- JotMe
- Akkadu
- 讯飞同传
- Windows Live Captions
- Buzz
每个工具只测试 10 分钟,不要一开始就深度配置。
第二天:如果是正式讲座,联系活动级平台
联系: KUDO、Wordly、Interprefy、DeepL Voice。
通用询价模板:
我需要为一场讲座做实时同声翻译辅助。需求是:
- 带口音、发音模糊的英语,低延迟生成英文文本,并低延迟翻译成简体中文;
- 中文语音快速转写,并可翻译成英文或生成双语字幕;
- 使用场景是线上/线下/混合,时长 X 小时,预计听众 X 人;
- 希望测试 English → Simplified Chinese、Chinese → English;
- 请提供试用、demo、价格、延迟说明、术语表支持和会后导出能力。
第三天:做最终选择
建议做一个简单打分表:
| 软件 | 英文转写延迟 | 中文翻译延迟 | 口音准确率 | 中文识别 | 操作难度 | 是否可作为主力 |
|---|---|---|---|---|---|---|
| JotMe | ||||||
| Akkadu | ||||||
| 讯飞同传 | ||||||
| Windows Live Captions | ||||||
| Buzz | ||||||
| KUDO | ||||||
| Wordly |
评分标准:
- 5 分:可以正式使用
- 4 分:可以做主力,但要备份
- 3 分:可做辅助
- 2 分:只能会后参考
- 1 分:不适合你的场景
最稳配置
如果不想纠结,直接按这个来:
个人电脑同传辅助
- 主力:JotMe 或 Akkadu
- 中文备份:讯飞同传
- 免费兜底:Windows Live Captions
- 会后复盘:Buzz 或讯飞听见
正式付费讲座
- 主力平台:KUDO 或 Wordly
- 个人译员屏幕:JotMe 或 Akkadu
- 中文环境备份:讯飞同传
- 系统兜底:Windows Live Captions
这是对零基础用户最稳、最不容易翻车的路线。
F.6 同传辅助软件保姆级试用指南(完整版)
本指南面向零基础用户,按推荐优先级依次介绍 20 款同传辅助工具的下载、安装、首次试用步骤。建议从"第一梯队"开始尝试,足够覆盖 90% 的需求。
总览(按优先级排序)
第一梯队(必装主力)
- 讯飞同传桌面客户端 —— 中文场景首选
- MacWhisper(Mac)/ Buzz(Win/Linux)—— 本地离线备份
- 沉浸式翻译浏览器插件 —— Zoom/Teams 字幕兜底
第二梯队(中文备选) 4. 同声传译王 PC 版 5. 钉钉 AI 听记 6. 百度 AI 同传 7. 网易见外工作台
第三梯队(国际方案 / 高质量翻译) 8. Transync AI(同言翻译) 9. Palabra.ai 10. Soniox 11. JotMe 12. Maestra Live 13. Wordly 14. DeepL Voice
第四梯队(系统自带 / 应急免费) 15. Windows 11 Live Captions 16. macOS Live Captions 17. Google Translate 转写模式 18. Speechlogger 网页版
第五梯队(开发者向,零基础可跳过) 19. WhisperLive 20. Whisper.cpp
准备工作(所有人都要做一次)
在试用任何同传软件之前,先做这件事,否则一半软件会"听不到电脑里播放的声音"。
为什么需要"虚拟声卡"
翻译软件默认只能听到麦克风收到的声音。但你做同传时,讲者的声音通常是从电脑的扬声器/会议软件里出来的。要让翻译软件听到这个声音,需要把"电脑输出的声音"伪装成"麦克风的输入",这就需要虚拟声卡。
Windows:开启"立体声混音"(免费内置)
- 右键任务栏右下角喇叭图标 → "声音设置"
- 拉到底部 → "更多声音设置"
- 切到"录制"标签页
- 在空白处右键 → 勾选"显示已禁用的设备"
- 找到"立体声混音",右键 → "启用"
- 再次右键 → "设为默认设备"
如果"立体声混音"不存在(很多 USB 声卡没有),改装 VB-CABLE Virtual Audio Device(免费):
- 下载: https://vb-audio.com/Cable/
- 解压后右键
VBCABLE_Setup_x64.exe→ "以管理员身份运行" → 点 Install Driver → 重启电脑
macOS:装 BlackHole(免费虚拟声卡)
- 下载: https://existential.audio/blackhole/
- 选 BlackHole 2ch(双声道版本就够用)
- 提交邮箱后会收到一个
.pkg安装包,双击安装
完成后在「系统设置 → 声音 → 输出」里会多出一个 "BlackHole 2ch" 选项。
测试虚拟声卡是否生效
- 打开 YouTube 或本地视频,随便播放一段英语
- 把系统输出(Win 的"播放设备"/Mac 的"输出")切到"立体声混音"或"BlackHole 2ch"
- 注意此时你自己听不到声音了(因为声音被引到虚拟声卡,没有引到喇叭)—— 这是正常的
- 打开任意翻译软件,让它选这个虚拟设备做麦克风输入
- 软件能识别出视频里的语音 → 成功
【小贴士】想自己也能听到声音,要么用 Mac 上的 Loopback 软件(付费)做"多输出",要么 Windows 里在喇叭属性里开"侦听此设备"。最简单办法是戴耳机听讲者的原声,另外用扬声器走虚拟声卡的复制流。
第一梯队:必装主力
1. 讯飞同传桌面客户端
适合人群:所有中文译员,尤其是中英互译为主的场景。
官方下载地址:https://tongchuan.iflyrec.com/download.html
支持平台:Windows 7+ / macOS 10.13+
操作步骤
- 打开上面网址,点"下载客户端" → 选你的系统
- Windows 安装
.exe,Mac 安装.dmg - 首次打开需要注册账号 —— 用手机号收验证码即可,免费注册
- 登录后默认会赠送一定免费时长(一般 60 分钟左右),用完再充值
- 点"快速会议" → 输入会议名 → 选"中→英"或"英→中"
- 关键:在"音频输入"里选"内录"或"立体声混音"(这就是为什么前面要装虚拟声卡)
- 点"投屏设置" → 选"字幕模式" → 字号调到 28 以上
- 点"开始会议",对面播放语音,软件就出双语字幕
计费与试用
- 注册送 60 分钟免费机翻时长
- 之后按时长付费,约 ¥30–60/小时(套餐越大越便宜)
- 直接注册账号即可试用,无需先充值
专业小贴士
- 在"效果优化"里加热词:把讲座的术语、人名、机构名提前导入,识别率会显著提升
- 字幕窗口可以拖到外接显示器上,主屏看你的笔记不打架
- 如果觉得字幕跳得太频繁,关闭"自动断句"
2A. MacWhisper(Mac 用户专用)
适合人群:Mac 用户、注重隐私(音频不上云)、网络不稳的场景。
官方下载地址:
- 网页版:https://goodsnooze.gumroad.com/l/macwhisper
- App Store:搜索 "Whisper Transcription"
支持平台:macOS 13+(Apple Silicon M1/M2/M3/M4 性能最佳)
操作步骤
- 打开网页,价格分免费版和 Pro 版(一次性 €19 / €59,永久买断不订阅)
- 先试免费版
- 安装后第一次打开,会让你下载语音模型 —— 选 Large v3 Turbo(精度高,速度也够用)
- 模型 1–3 GB,下载需要几分钟
- 主界面点 "Live Transcription"(实时转写)
- 点设置 → 音频输入选 "BlackHole 2ch"(如果你装了的话),或外接麦克风
- 选语言:英语讲座选 "English",中文识别选 "Chinese"
- 点录制按钮,文字会实时出现
- Pro 版可以打开 "Translation" 实时翻译成中文
计费与试用
- 免费版能跑基础 Whisper Tiny/Base 模型,功能受限
- Pro 版一次性 €59 永久使用,不订阅
- App Store 价格略高,但买完同账号永久同步
专业小贴士
- 第一次跑会比较慢(模型加载),第二次就快了
- 显示窗口可以调字号、调透明度、置顶 —— 非常适合译员盯字幕
- 完全离线,会议保密性极高
- 如果你的 Mac 有 16GB+ 内存,可以开 Large v3(非 Turbo),精度最高
2B. Buzz(Windows / Linux / Mac 通用,免费开源)
适合人群:Windows 用户、零预算想用 Whisper、能接受一点小折腾。
官方下载地址:
- GitHub:https://github.com/chidiwilliams/buzz/releases(下载最新版的
.exe或.dmg) - SourceForge(如果 GitHub 打不开):https://sourceforge.net/projects/buzz-captions/
支持平台:Windows 10+ / macOS 10.15+ / Linux
操作步骤
- 进 GitHub Releases 页面,找最新版本
- Windows 用户下载
Buzz-x.x.x.exe- 注意:Buzz 没有数字签名,Windows 会弹"未知发布者"警告
- 点"更多信息" → "仍要运行"即可
- Mac 用户下载
Buzz-x.x.x.dmg - 安装完打开,先去 设置 / Preferences → Models 下载 Whisper 模型
- 推荐选 Faster Whisper + large-v3 turbo
- 模型下载完成后,主界面点 "Live Recording"
- 选音频源(系统输入 / 麦克风 / 立体声混音)
- 选模型 + 任务:
- Transcribe = 转写为原语言文字
- Translate = 翻译成英文(注意:Whisper 原生只能"翻译成英文",不能直接出中文)
- 点 Start,字幕开始出现
关键提醒:要英→中翻译怎么办?
Whisper 原生不支持中文输出。Buzz 1.3+ 版本增加了 "Realtime translation with OpenAI compatible AI" 功能:
- 设置里填写 OpenAI API Key(或 DeepSeek、智谱、Moonshot 等兼容 OpenAI 协议的国产 API)
- Buzz 会把转写结果送 LLM 翻译成中文
- DeepSeek API 最便宜:每月几块钱足够个人重度使用,注册地址 https://platform.deepseek.com/
计费与试用
- Buzz 完全免费开源
- 如果用 OpenAI / DeepSeek 翻译 API,按 token 计费
专业小贴士
- 实时转写吃显卡,至少 5GB 显存才能跑大模型
- 没显卡用 CPU 也行,但延迟会到 5–10 秒
- "Faster Whisper" 后端比官方 Whisper 快 2–3 倍,必选
- 演示窗口(Presentation Window)模式下可以全屏字幕,适合译员盯屏
3. 沉浸式翻译
适合人群:所有人。它本身不是同传软件,但能给 Zoom/Teams/Meet/Webex 的会议字幕做实时双语翻译,是会议软件的"挂件"。
官方下载地址:https://immersivetranslate.com/
支持平台:Chrome / Edge / Safari / Firefox 浏览器插件 + iOS/Android App
操作步骤
- 打开网址 → 点"免费安装",跳到 Chrome 应用商店
- 装好后浏览器右上角出现一个鱼图标
- 点鱼图标 → 注册账号(用邮箱),免费版每月有较多翻译额度
- 点鱼图标 → 设置 → 翻译服务
- 默认是微软翻译(免费),质量也凑合
- 想质量好:换成 DeepL(免费有限额)或绑定自己的 OpenAI / Claude / DeepSeek API Key
- 在 Zoom / Teams 网页版打开会议时,点鱼图标 → 启用"实时翻译"
- 字幕以"原文 + 译文"双语形式叠加显示
计费与试用
- 免费版每月有翻译额度
- Pro 版 ¥10–30/月不等
专业小贴士
- 这个插件强项是字幕兜底,不是 ASR —— 它依赖会议软件本身先生成英文字幕,然后翻译。如果原始字幕不准,它也无能为力
- 给 YouTube / Bilibili / Netflix 加双语字幕也是一把好手
- 配 Claude / GPT-4 当翻译引擎,质量比 Google / 微软翻译高一档
- 配合讯飞同传使用最佳:讯飞做 ASR,沉浸式翻译挂在会议软件上做字幕兜底
第二梯队:中文场景备选
4. 同声传译王 PC 版
官方下载地址:https://www.tongshengchuanyiwang.com/
操作步骤
- 网站首页点"PC 版下载"
- 注册账号 → 登录
- 选"开始同传",配置源语言/目标语言
- 选音频源(麦克风 / 内录)
- 字幕窗口可悬浮,叠加在 Zoom / 腾讯会议上面
计费
按时长包月/包年;通常有几十分钟免费试用。
5. 钉钉 AI 听记
适合人群:钉钉用户(机构、学校、公司)。
下载:https://www.dingtalk.com/ 下载钉钉 App 或桌面端
操作步骤
- 发起钉钉视频会议
- 工具栏找"智能记录"或"实时翻译"
- 选语言对,开始即可
计费
免费版有额度,企业版功能更全。
6. 百度 AI 同传
网页:https://fanyi.baidu.com/ App:百度翻译 App → 同声传译
操作步骤
- 浏览器打开百度翻译网页
- 找到"语音"或"同传"按钮
- 授权麦克风
- 选"中→英"或"英→中",开始说话
计费
免费用,有限制时长。
7. 网易见外工作台
网页地址:https://sight.youdao.com/
操作步骤
- 注册有道账号
- 进"会议同传"模块
- 上传音视频文件或绑定会议
- 实时显示双语字幕
计费
免费有额度,超过按分钟付费。
第三梯队:国际方案
注意:第三梯队大部分需要稳定的国际网络才能正常使用,中国大陆用户使用前请确认网络可访问。
8. Transync AI(同言翻译)
官方下载地址:https://www.transyncai.com/
操作步骤
- 网站首页点 "Download" / "下载"
- 选 Windows / Mac / iOS / Android 版本
- 注册账号 → 用 Google 或邮箱登录
- 免费试用 40 分钟
- 主界面选 "Meeting Translation" → 选 Zoom / Teams / Meet
- 配置语言对(左屏英文、右屏中文)
- 开始会议时让它入会即可
计费
免费 40 分钟;订阅 $19+/月。
9. Palabra.ai
操作步骤
- 打开网址,点 "Try Demo",浏览器里直接试
- 想正式用要注册账号
- 进 Studio 在线工具,上传/接入音频源
- 选"语音→语音"或"语音→字幕"
计费
免费试用额度;正式按分钟付费。
注意
偏开发者向,普通用户上手成本比讯飞高一点。
10. Soniox
官方网址:https://soniox.com/
操作步骤
- 网站点 "Try it free" → 注册账号
- 进 Console → 有网页 demo 直接录制测试
- 试用额度内不收费
计费
免费试用额度;之后按使用量计费。
注意
Soniox 没有现成的桌面 App,强项是 ASR 引擎。普通用户体验它的方式是网页 demo。如果你讲者口音很重,强烈建议拿一段录音去 Soniox 网页 demo 测一下,对比讯飞、Whisper 谁更准。
11. JotMe
操作步骤
- 注册账号(免费 20 分钟/月)
- 桌面端 App 或 浏览器扩展二选一
- JotMe Bot 可以直接入会 Zoom / Meet / Teams / Webex
- 提供会后总结、翻译记录导出
计费
免费 20 分钟/月;订阅 $19+/月。
12. Maestra Live
操作步骤
- 浏览器打开 → 直接点 "Start",无需安装
- 授权麦克风
- 选 Source language + Target language
- 想保存录音和翻译记录,注册免费账号
计费
基础试用免费;Pro 版按分钟订阅。
13. Wordly
操作步骤
- 注册 → 创建 Session → 拿到一个二维码或链接
- 演讲者用浏览器打开链接,让它听音频
- 听众扫码 / 打开链接,选自己的语言看字幕
计费
偏企业活动,按小时付费 $39+/小时起。普通个人用户不太合适。
14. DeepL Voice
官方网址:https://www.deepl.com/voice
操作步骤
- 注册 DeepL 账号
- 桌面端 App(Win/Mac)或 Teams 集成
- 在 Teams 里加 DeepL Voice 应用
- 会议里实时双语字幕
计费
DeepL Pro 订阅,€7.5+/月起;Voice 功能在 Advanced/Ultimate 版本。
第四梯队:系统自带 / 应急免费
15. Windows 11 Live Captions
前提:Windows 11 22H2 及以上版本。
操作步骤
- 按快捷键
Ctrl + Win + L启动;或 设置 → 辅助功能 → 实时字幕 → 开启 - 第一次会下载语音模型(几百 MB)
- 字幕条会出现在屏幕顶端
- Copilot+ PC(搭载 NPU 的新款)才支持 40+ 语言互译;普通 PC 只能英→英转写
计费
完全免费,系统自带。
16. macOS Live Captions
前提:macOS Ventura 13+ + Apple Silicon Mac(M1/M2/M3/M4)。
操作步骤
- 系统设置 → 辅助功能 → 实时字幕 → 开启
- 字幕条会出现在屏幕上,支持系统所有 App 的音频
- 目前主要支持英文,中文支持有限
计费
完全免费。
17. Google Translate 转写模式
网页:https://translate.google.com App:Google Translate App → "对话"模式
操作步骤
- 打开网址,授权麦克风
- 左边选英语,右边选中文
- 点麦克风开始说话,文本实时出现
- PC 端要听系统声音,需要前面教过的"立体声混音 / BlackHole"绕道
计费
完全免费。
注意
中国大陆需要稳定的国际网络。
18. Speechlogger
网页:https://speechlogger.appspot.com/
操作步骤
- 必须用 Chrome 打开(其他浏览器有兼容问题)
- 授权麦克风
- 选语言后开始
- 自动保存历史记录、可导出
计费
完全免费。
注意
底层用的是 Google Web Speech API,中国大陆需要梯子才能稳定使用。
第五梯队:开发者向(零基础可跳过)
19. WhisperLive
网址:https://github.com/collabora/WhisperLive
需要 Python 3.12 + 命令行能力 + GPU。把项目 clone 下来,跑 python3 run_server.py,配 TensorRT/Faster Whisper 后端。不会写代码就跳过。
20. Whisper.cpp
网址:https://github.com/ggml-org/whisper.cpp
终端跑命令的 Whisper。不会用命令行就跳过。Buzz 已经把它包装好了,普通用户用 Buzz 就行。
试用顺序建议
如果时间有限,照下面顺序来:
第 1 天:建立基线
- 注册 讯飞同传 账号,跑一段已知的英文演讲视频,试中英对照效果
- 同时打开 沉浸式翻译 看 YouTube 演讲,对比效果
第 2 天:装本地备份
- Mac 用户装 MacWhisper 免费版,Win 用户装 Buzz
- 用同样的视频测试,把三家的识别结果做对比,记下你最满意的一个
第 3 天:补充国际方案
- 试 Transync AI 免费 40 分钟 或 Maestra Live
- 决定主力组合
之后按需扩展
- 如果讲者口音很重 → 重点测 Soniox 网页 demo 和 Whisper Large v3
- 如果场景在 Zoom/Teams → 重点配 沉浸式翻译 + 讯飞同传
重要的实战提醒
- 正式上场前一定要彩排一次:用同样的设备、同样的网络、同样的会议软件,跑一段讲者过往的视频,测端到端延迟和准确率。
- 永远开两套:主用讯飞同传,备用 Buzz / MacWhisper 离线版。某一套挂了立刻切。
- 关掉自动更新:演讲前一周禁用所有这些软件的自动升级,避免开场前突然弹更新框。
- 耳机要单边戴:留一只耳朵听原声,另一只耳朵听自己输出的译文(监听);眼睛瞄字幕。
- 术语表先做好:讯飞同传、Wordly、Palabra 都支持自定义术语表。讲座前 30 分钟把领域专有名词、人名、机构名导进去,识别率提升一个档次。
- 字号要够大:默认字号都偏小,长时间盯会非常累。统一调到 28pt 以上。
- 关闭翻译软件的"声音播报":不然译文会被它念出来,干扰你的输出。
故障排查速查
| 现象 | 可能原因 | 解决 |
|---|---|---|
| 翻译软件没识别到任何声音 | 没装/没启用虚拟声卡 | 回看"准备工作"章节 |
| 识别出的全是英文中夹杂奇怪符号 | 模型选错了语言 | 切换到正确的源语言 |
| 延迟超过 5 秒 | Whisper 模型太大或显卡太弱 | 改用 Faster Whisper + medium 模型 |
| 中文翻译生硬不通顺 | 翻译引擎太弱(如 Google) | 换 DeepL 或 GPT-4 / Claude |
| 讯飞客户端登录失败 | 国内网络偶发问题 | 换 4G 热点试试 |
| Buzz 模型下载失败 | 网络问题 | 在 Releases 页手动下载 .bin 文件放进 Models 目录 |
| MacWhisper 转写结果重复 | 静音时段被错误重复 | 在设置里调高 VAD 阈值 |
一键收藏的官方下载链接清单
| 软件 | 官方下载地址 |
|---|---|
| 讯飞同传 | https://tongchuan.iflyrec.com/download.html |
| MacWhisper | https://goodsnooze.gumroad.com/l/macwhisper |
| Buzz | https://github.com/chidiwilliams/buzz/releases |
| 沉浸式翻译 | https://immersivetranslate.com/ |
| 同声传译王 | https://www.tongshengchuanyiwang.com/ |
| 钉钉 | https://www.dingtalk.com/ |
| 百度翻译 | https://fanyi.baidu.com/ |
| 网易见外 | https://sight.youdao.com/ |
| Transync AI | https://www.transyncai.com/ |
| Palabra.ai | https://www.palabra.ai/ |
| Soniox | https://soniox.com/ |
| JotMe | https://www.jotme.io/ |
| Maestra Live | https://live.maestra.ai/ |
| Wordly | https://www.wordly.ai/ |
| DeepL | https://www.deepl.com/voice |
| Google Translate | https://translate.google.com/ |
| Speechlogger | https://speechlogger.appspot.com/ |
| WhisperLive | https://github.com/collabora/WhisperLive |
| Whisper.cpp | https://github.com/ggml-org/whisper.cpp |
| VB-CABLE(Windows 虚拟声卡) | https://vb-audio.com/Cable/ |
| BlackHole(Mac 虚拟声卡) | https://existential.audio/blackhole/ |
试用过程中遇到任何卡点(装虚拟声卡装不上、客户端登不上、模型下载失败等),把具体错误信息发给作者,可以一对一帮你诊断。
附录使用说明
这些素材的价值
收录这些原始素材的目的:
- 追溯本书内容来源: 让读者了解每个推荐的依据
- 保留完整调研: 不在本书章节中删减的细节也能查到
- 二次研究参考: 读者可以基于这些素材进一步研究
- 对比验证: 验证本书内容的准确性
素材的局限性
⚠️ 重要提示:
- 这些素材反映创作时的状况
- 软件功能、价格、可用性可能随时间变化
- 部分链接可能失效
- 建议结合本书正文章节阅读
持续更新
如果你发现:
- 链接失效
- 信息过时
- 有更新的内容
请加微信 15600871059(【专业译员工具社群】),共同维护这份资料的准确性。
💬 加微信 15600871059,加入【专业译员工具社群】,获取最新版本的素材整理。