附录 F: 原始素材与完整调研报告

本附录收录本书撰写过程中收集的原始素材和调研报告,作为研究参考。这些材料是本书内容的直接来源,完整保留以便读者:

  • 了解本书内容的原始依据
  • 进行二次研究和对比
  • 追溯引用来源

收录的原始素材

素材清单

编号标题类型来源
F.1选型调研观点 1选型调研实地研究
F.2选型调研观点 2选型调研实地研究
F.3小白试用攻略 1试用指南经验整理
F.4小白试用攻略 2试用指南经验整理
F.5小白试用攻略 3试用指南经验整理
F.6同传辅助软件保姆级试用指南完整指南实战手册

F.1 选型调研观点 1

下面是按"给自己做讲座同声翻译辅助"这个场景做的选型报告。结论先说:不要只靠一个软件。最稳的方案是"一个专业实时同传字幕软件做主通道 + 一个本地/免费字幕工具做备份 + 术语表预热"。

一、首选建议

最推荐组合

主力方案:KUDO AI 或 Wordly AI

适合正式讲座、付费活动、嘉宾口音重、不能翻车的场景。KUDO 主打会议/活动实时 AI 语音翻译与字幕,支持 60+ 语言,且官方公布 AI speech translator 平均延迟约 4.1 秒;Wordly 支持线下、Zoom、Teams、Google Meet、Webex、混合会议,提供实时翻译、字幕、转写和总结。

参考: KUDO 官网

个人电脑辅助方案:JotMe + Akkadu 二选一

如果你只是作为译员个人看字幕,不需要把字幕广播给全场,JotMe 和 Akkadu 更轻量。JotMe 有 Windows/Mac 桌面端,直接捕获电脑音频,不需要会议机器人,支持实时上下文翻译、转写、会议笔记,官方称支持 107 种语言;Akkadu 有 Windows/macOS 应用,支持任意会议、直播、视频的实时 AI 字幕,微软商店页面标注 90+ 语言、约 95% 高准确率、$5/小时。

参考: JotMe 官网

中文环境/国内活动:讯飞同传优先测试

如果讲座在国内、音频条件一般、涉及中文普通话识别、英中互译,讯飞同传值得优先测试。讯飞同传官方说明其提供多场景多语种实时转写翻译、同声传译、直播字幕上屏、会议记录分享;其 Windows 个人版微软商店页面显示每日免费 20 分钟,超出按 0.8 元/分钟收费。

参考: 讯飞同传官网

二、收费软件推荐(至少 5 个)

排名软件适合场景优点风险/限制建议
1KUDO AI Speech Translator正式会议、讲座、混合活动、企业活动专业活动级;支持 AI 或人工译员;60+ 语言;有字幕和翻译音频;官方披露平均延迟 4.1 秒价格偏企业级;需要提前配置正式讲座首选之一
2Wordly AI线下讲座、线上会议、Webinar、大会支持 Zoom/Teams/Meet/Webex/线下;听众可用二维码/链接;提供字幕、翻译音频、转写、总结价格通常按活动/小时;需测试中英术语大型活动非常合适
3Interprefy企业级、会议级、需要稳定支持支持 AI speech translation、实时字幕、80+ 语言;还有 6000+ 人工译员资源偏企业采购;个人使用成本高预算充足时很稳
4JotMe个人译员电脑辅助、Zoom/Teams/Meet桌面端直接捕获系统音频;不需要 bot;上下文翻译;支持中英;G2 页面有用户评价称其实时翻译、转写和 AI 总结组合实用真实低延迟和口音效果要现场测试;新兴产品个人使用性价比高
5Akkadu AI电脑悬浮字幕、任意软件/视频/会议Windows/macOS;90+ 语言;按小时付费;适合"我自己看字幕"公开评价数量不多;复杂口音需测试轻量桌面字幕强备选
6DeepL Voice for MeetingsTeams/Zoom 中的商务会议翻译DeepL 翻译质量口碑强;官方称可在 Microsoft Teams 和 Zoom Meetings 中提供实时字幕,支持 100+ 语言,包括中文、英文语音产品仍在扩展,Voice-to-Voice 有些功能标注为 coming soon/early access;需确认可购买性翻译质量潜力大,但要先试用
7Zoom Translated Captions / Voice Translator讲座本身就在 Zoom原生集成,使用方便;Zoom translated captions 可把会议语音实时翻译成另一种语言字幕;Voice Translator 当前支持英语、中文、法语、日语、西语,但 beta 仅面向部分付费美国账号中英质量口碑不稳定;Voice Translator 可用范围受限作为 Zoom 内置备份,不建议唯一依赖
8讯飞同传 / 讯飞听见国内会议、中英双向、中文识别国内中文语音识别强;有 PC 客户端、同传服务、直播字幕上屏;个人版有免费额度英语重口音表现需现场验证;价格按分钟累积国内场景强烈建议试

KUDO、Wordly、Interprefy 更像"活动级解决方案";JotMe、Akkadu、讯飞同传更像"个人译员电脑辅助工具"。KUDO 和 Wordly 的优势是稳定和活动支持,JotMe/Akkadu 的优势是部署快、成本低、适合你自己盯屏幕用。

参考来源: KUDO

三、免费或免费额度软件推荐(至少 5 个)

这些可以做备份,但不建议把免费工具作为正式同传讲座的唯一依赖。

排名软件免费属性适合场景优点限制
1Windows 11 Live Captions / Copilot+ PC Live Translation系统功能本机任意音频字幕低门槛、系统级、可捕获电脑音频;Copilot+ PC 支持把多种语言翻译成英文字幕,且部分语言可翻译成简体中文依赖硬件/系统版本;不等同专业中英双向同传
2Buzz Captions开源/本地,部分平台免费离线转写、备份字幕、会后复盘基于 Whisper,可离线转写和翻译;GitHub 页面显示支持麦克风实时转写、演示窗口、CUDA/Apple Silicon 后端官方文档也提示麦克风转写"资源密集,可能不是实时"
3Speech-Translate开源免费技术用户本地实时转写+翻译GitHub 项目定位为用 Whisper 和免费翻译 API 做实时语音转写与翻译配置门槛高;稳定性不如商业产品
4WhisperLive开源免费本地/服务器实时转写近实时 Whisper 实现,支持麦克风和预录音频;SourceForge 镜像说明支持 Faster-Whisper、TensorRT、OpenVINO 等后端以降低延迟主要是转写,不是完整会议同传产品;需技术部署
5Google Translate / Google Meet captions免费或随账号临时手机/浏览器备份易用、覆盖语言多,适合临时验证词句对长讲座、专业术语、实时字幕窗口管理不够专业
6Microsoft Translator / Teams 基础字幕能力部分免费/随 Microsoft 生态Microsoft 生态会议Teams 可显示实时字幕;Teams Premium 才有更完整的实时翻译字幕能力免费版能力有限;最好不要作为唯一方案
7讯飞同传个人版免费额度每日免费 20 分钟短时试用、中文环境测试国内中文识别和中英场景友好超出免费额度按分钟收费

Windows Live Captions 的官方文档说明,Copilot+ PC 上 live captions 可把多种语言翻译成英文,支持来源语言包括中文普通话/简体中文等;Buzz 官方说明它在电脑本地用 Whisper 转写和翻译;Buzz 文档同时提示麦克风转写资源消耗较高、可能无法真正实时。

参考: 微软官方文档

四、针对两个核心需求逐项判断

需求 1: 带口音、发音模糊的英语 → 极低延迟英文文本 + 极低延迟中文翻译

最佳方向:优先选"活动级实时 AI 翻译平台",其次选"桌面捕获式字幕软件"。

排序:

  1. KUDO AI:正式场合最稳,延迟有公开指标,适合讲座/会议级使用。
  2. Wordly AI:活动部署成熟,适合让听众也能看到字幕/听翻译。
  3. JotMe:个人电脑使用非常方便,适合译员自己看实时英中字幕。
  4. Akkadu:任意软件悬浮字幕,按小时付费,适合不想改会议平台的情况。
  5. 讯飞同传:国内/中文环境强,英中互译值得现场测试。
  6. DeepL Voice:翻译质量潜力很高,但语音产品仍要确认所在地区和账号是否可用。
  7. Zoom/Teams 内置字幕翻译:作为备份可以,作为主力要谨慎。

口音鲁棒性方面,Whisper 系列的公开介绍强调其训练数据覆盖多语种、多任务,并带来对口音、背景噪声和专业术语的鲁棒性;Otter 官方也声称能处理多种英语口音,但 Otter 当前支持的转写语言范围并不适合"中英双向同传"主需求。

参考: OpenAI Whisper

需求 2: 识别中文语音,快速生成翻译文本

如果是"中文语音 → 中文实时转写":首选 讯飞听见/讯飞同传、Windows Live Captions、JotMe、Akkadu、Buzz/WhisperLive。中文转写要求低于跨语言翻译,国内中文识别工具会更稳。

如果是"中文语音 → 英文翻译文本/双语字幕":首选 KUDO、Wordly、JotMe、Akkadu、DeepL Voice、讯飞同传

五、专业选型评分

满分 5 分,按场景加权:口音识别 30%,延迟 25%,英中翻译质量 20%,电脑端易用性 15%,稳定性/口碑 10%。

软件综合建议分口音英语识别低延迟中英互译电脑端易用适合度
KUDO AI4.64.44.24.54.0正式讲座主力
Wordly AI4.54.34.24.54.2正式讲座主力
JotMe4.34.14.34.34.8个人译员强推荐
Akkadu4.24.04.24.14.7个人电脑悬浮字幕推荐
讯飞同传4.13.94.24.34.3国内/中文环境推荐
Interprefy4.14.24.04.23.8企业活动推荐
DeepL Voice4.04.03.84.63.8翻译质量潜力强,需试用
Zoom/Teams 内置翻译字幕3.63.64.03.54.8备份,不建议唯一依赖
Buzz / WhisperLive / Speech-Translate3.44.03.03.22.8技术备份、会后复盘

六、最终采购/试用路径

预算充足、讲座重要

KUDO AI 或 Wordly AI 做主力。提前把讲座主题、嘉宾姓名、公司名、专业术语、人名地名、缩写词做成 glossary/术语表。活动当天同时开 JotMe 或 Akkadu 在你的电脑上作为个人备份字幕。

个人译员、只需要自己看字幕

优先试 JotMe → Akkadu → 讯飞同传。原因是这三类工具更像"个人桌面实时字幕助手",不一定要改造整个会议流程。

零预算或备份方案

准备 Windows Live Captions + Buzz 或 WhisperLive + Google Translate。这套适合备份,不适合高风险正式场合。

七、现场使用建议

正式讲座前至少做一次 10 分钟真实音频压测:让软件听同一段"带口音英语 + 专业术语 + 快语速 + 背景噪声"的录音,比较三件事:第一行英文字幕出现时间、中文翻译出现时间、关键术语是否错译。只看宣传页没有意义。

目标不是"完全替代同传",而是得到一个低延迟提示屏。实际同传时,AI 字幕最有价值的是帮你抓住数字、人名、术语、长句结构;不要让它主导译文节奏。落地建议:

  • 正式付费讲座:KUDO/Wordly 主力 + JotMe/Akkadu 个人备份。
  • 个人低成本讲座:JotMe 或 Akkadu 主力 + Windows Live Captions/Buzz 备份。
  • 国内中文/中英场景:讯飞同传一定要列入试用。

F.2 选型调研观点 2

(2026 年最新的同传辅助工具信息)

需求澄清:"识别中文的语音,快速生成翻译的中文文本"——按字面是"中→中",这通常意味着中文语音转写为中文字幕(作为听辨辅助)。如果实际想要的是中文语音→英文文本(即双向同传辅助),下面推荐的工具基本都能覆盖,所以不影响选型。

一、付费类备选(10 款)

#软件厂商/性质关键优势延迟价格区间(参考)
1讯飞同传 / 讯飞听见同传科大讯飞(中国)中英互译国内最稳,"AI字幕投屏、多语种会议记录…离线单机版+在线客户端双端协同";星火大模型加持1–2 秒按时长计费,约 ¥30–60/小时
2同声传译王 PC 版风平信息(中国)"0.5秒超低延迟和30+语言覆盖…悬浮字幕窗口…可叠加在 Zoom、腾讯会议中"~0.5 秒包月/包年订阅
3Transync AI(同言翻译)Transync(国际)"端到端 AI 语音大模型,近零延迟双屏输出,支持 60 种语言";支持 Zoom/Teams/Meet<1 秒月付
4SonioxSoniox(美)带口音英语最强,"高精度跨语言、口音、数字、人名、专业词;低延迟实时流"极低API 计费
5Palabra.aiPalabra(国际)"双向同传延迟低于一秒…在所有测试方案中翻译质量最高、延迟最低";可塞入 Zoom/OBS<1 秒订阅 + API
6JotMeJotMe(国际)"上下文感知,平均 3–4 秒延迟…200+语言;集成 Zoom、Meet、Teams、Webex"3–4 秒订阅,免费 20 分钟/月
7Maestra LiveMaestra AI(国际)浏览器即开即用,"实时听写+翻译+ AI 语音朗读…自动检测语言、多说话人识别",125+ 语言1–2 秒按分钟订阅
8WordlyWordly(美)会议/活动场景标杆,"按小时计价…支持现场、Zoom、Teams、Meet、Webex 或混合会议"1–2 秒按小时
9MacWhisper ProGoodsnooze(独立开发)"Whisper + Nvidia Parakeet…全程在本机处理,数据不离开设备;可自动录制 Zoom、Teams、Webex 会议"(仅 macOS)取决于硬件,本地 1–3 秒一次性买断
10DeepL VoiceDeepL(德)翻译质量最自然,"擅长准备好的演讲和结构化内容,输出比许多替代品听起来更自然"2–3 秒订阅

二、免费/开源类备选(10 款)

#软件性质关键优势局限
1Buzz(基于 Whisper)开源、跨平台"Vulkan GPU 加速,5GB 显存即可大模型实时转写…支持 Whisper、whisper.cpp、Faster Whisper",完全离线实时性吃硬件;翻译需配 LLM
2WhisperLive(Collabora)开源"近实时 Whisper 实现…支持麦克风/文件、可选启用翻译线程"需自部署服务端
3沉浸式翻译 Immersive Translate免费 + 付费"实时翻译 Zoom、Google Meet、Microsoft Teams 跨语言在线会议…内置 ChatGPT、DeepL、Deepseek、Gemini 等 20+ AI 翻译引擎"偏会议字幕,非真正双屏同传
4Microsoft Live Captions(Win 11)Windows 11 内置"在 Copilot+ PC 上可即时翻译任意应用或视频平台,覆盖 40+ 语言"普通 PC 仅英→英;最好为 Copilot+ 机型
5Apple Live Captions(macOS/iOS)系统内置系统级捕获任何 App 的音频,零配置中文支持有限,主要英文
6Google Translate Web / 转写模式网页/手机免费稳定,口音容忍度高,"转写"功能可持续翻译桌面端需做"立体声混音"绕道
7Speechlogger网页(免费)"语音转语音、自动标点、自动保存、时间戳、朗读",零安装引擎是 Google,网络要稳
8百度 AI 同传 / 度同传网页/移动端中英实时同传 + 双语字幕,国内网络友好个人版功能受限
9网易见外工作台网页"AI 智能语音转写听翻平台…会议同传…实时转写和同步翻译,支持文本编辑与导出"免费额度有限
10钉钉 AI 听记钉钉内置国内会议常见,集成会议字幕,免费额度大必须在钉钉会议内

三、专业选型建议报告

1. 工作场景的核心约束(按重要性)

作为讲座的人类同传译员,需要的是辅助听辨与术语提示,不是替代你输出译文。所以选型权重应该是:

  1. 口音鲁棒性(最重要)——讲者英语带口音、发音模糊,识别错一个关键名词,整段都会被你"带歪"。
  2. 极低延迟——译员的"听—想—说"链条只能容忍 1–2 秒可视参考延迟,超过 3 秒文本就反而干扰你了。
  3. 系统音频捕获(非常关键)——耳机里听到的是会议台/Zoom/线缆引来的信号,软件必须能直接抓系统输出,而不是只能听麦克风。
  4. 双屏/双语对照显示——同时看到原文 + 译文,便于交叉校对术语。
  5. 离线/本地能力——保密讲座、网络抖动、海外场地,离线能力是保险。
  6. 长时稳定性——一场讲座 1.5–3 小时,云服务必须不掉线。

2. 不同维度的"最佳"

  • 口音鲁棒性最佳:Soniox(专门为多口音设计) > OpenAI Whisper(large-v3)(通过 MacWhisper / Buzz 调用) > Google > 讯飞。Whisper 对印度、东南亚、东欧、拉美口音的英语识别普遍优于其他主流引擎,这一点几乎是同传圈共识。
  • 延迟最佳:Palabra.aiTransync AI(双双声称 < 1 秒);本地 Whisper 视显卡而定,RTX 3060 以上可压到 1–1.5 秒。
  • 中英术语翻译质量最佳:讯飞同传(中文语境最贴合) > DeepL(书面流畅) > GPT-4o / Claude 接入沉浸式翻译(自定义术语表灵活)。
  • 保密性最佳:MacWhisper / Buzz / WhisperLive(全本地,音频不出本机)。
  • 系统音频抓取最方便:MacWhisper(macOS 原生)、讯飞同传桌面端(含虚拟声卡)、沉浸式翻译(直接挂载会议软件)。
  • 零成本起步最佳:Buzz + 沉浸式翻译 的组合。

3. 推荐方案(按预算和环境分档)

方案 A —— 专业首选(推荐):讯飞同传桌面客户端 + MacWhisper Pro / Buzz 作为备份

讯飞同传作为主力:中文语境术语库强,国内会议网络稳定,延迟可控;同时它的 PC 客户端可以接虚拟声卡抓系统音频。把 MacWhisper(Mac)或 Buzz(Win/Linux)开成第二屏作为冷备份——一旦云服务抽风或网络抖动,本地 Whisper 立刻顶上。这是把"质量"和"可用性"分开下注的稳健打法。

方案 B —— 重口音英语 + 国际场景:Soniox(或 Palabra.ai)+ 沉浸式翻译挂会议软件

如果讲者是非英语母语者(印度、东南亚、东欧、阿拉伯英语等),Soniox 的优势会被放大。把 Soniox 作为 ASR 后端,沉浸式翻译挂在 Zoom/Teams 上吃字幕做翻译呈现。Palabra.ai 的优势是它就是一个端到端的双向同传管道,少很多接线工作。

方案 C —— 最低预算/最高保密性:Buzz + 沉浸式翻译(接 DeepL/Claude/GPT)

零费用起步,全本地。Buzz 跑 Whisper large-v3 抓英文文本,沉浸式翻译里接一个 LLM API 做 EN→ZH 翻译。代价是要花 2–3 小时配置(虚拟声卡 VB-CABLE / BlackHole、模型下载、热键),并且需要一台 GPU 不弱的电脑(≥ 8GB 显存)。

方案 D —— Mac 用户最省心:MacWhisper Pro(拿做 ASR + 系统级会议捕获)+ Apple Live Captions(备份)+ 浏览器开 DeepL沉浸式翻译 做翻译。一次性买断,整套体验非常顺。

4. 关于"需求 2"(中文识别)的建议

无论是想要"中→中转写"还是"中→英翻译",上述方案都覆盖:

  • 讯飞同传 中文识别准确率国内第一档,普通话识别远胜任何国际方案;
  • Whisper large-v3 的中文识别也很好,且离线;
  • 如果讲座有粤语、川普、东北话等口音,讯飞 > Whisper > 其他

5. 实操建议(很多人忽略的关键点)

  1. 必装虚拟声卡:Windows 上安装 VB-CABLE 或者打开"立体声混音""将电脑输出的作为麦克风的输出";Mac 上装 BlackHole 或 Loopback。这样翻译软件才能听到讲者的声音而不是周围的噪音。
  2. 建术语表:讯飞同传、Wordly、Palabra 都支持自定义术语表(glossary)。讲座前 30 分钟把领域专有名词、人名、机构名导进去,准确率会显著提升。
  3. 双屏布置:主屏看你的笔记/PPT,副屏(或手机)放原文+译文。文字呈现窗口要够大、底色对比强、字号 ≥ 24pt——这一点很多软件默认值偏小,长时间盯会非常累。
  4. 不要依赖一套:所有 AI 同传都会在关键处掉链子。最佳实践是主+备双跑,比如讯飞 + 本地 Whisper 同时开。
  5. 延迟测试:正式上场前用一段已知音频(比如讲者过往演讲视频)测当天的端到端延迟;网络环境会让标称延迟翻倍。

6. 一句话结论

如果只想买一个:买"讯飞同传桌面客户端"——中文场景术语+稳定+生态最适合中国译员日常使用。

如果想搭一套战斗系统:讯飞同传(主) + MacWhisper 或 Buzz(本地备份) + 沉浸式翻译(挂在会议软件上做字幕兜底)。这一套综合成本可控,覆盖了云服务抽风、网络断、保密讲座等所有边角情况。


F.3 小白试用攻略 1

为 20 个工具都写"保姆级"介绍内容会比较长,适合做成可下载的参考文档让你随时翻看。先把它整理成一份 Markdown 指南文件,然后下面给你最关键的 3 件事先说清楚。

不过在你打开文档真正动手之前,有 3 件事必须先讲清楚,否则一半软件你会卡在第一步:

第一件:先装虚拟声卡,否则翻译软件听不到讲者的声音

翻译软件默认只能听麦克风,但讲者的声音是从你电脑的扬声器里出来的。要让软件听到这个声音,必须装"虚拟声卡"把"输出"变成"输入"。

  • Windows:开"立体声混音"(系统自带,免费),或装 VB-CABLE
  • Mac:装 BlackHole 2ch(免费)

文档里有详细步骤,这一步不做,下面所有软件都白费

第二件:建议你按"3 天试用法"快速建立直觉

  • 第 1 天先注册讯飞同传 + 沉浸式翻译,跑一段已知英文演讲做基线
  • 第 2 天装本地备份(Mac 装 MacWhisper、Win 装 Buzz)做对比
  • 第 3 天补一个国际方案(Transync AI 或 Maestra Live)做最后裁决

不要一上来就把 20 个全装,反而会让你迷失在工具堆里。

第三件:最稳的实战配置是"双跑"

正式讲座建议主力跑讯飞同传(云端、中文场景准),备份开 MacWhisper 或 Buzz(本地、离线、保密)。一套挂了立刻切,没人能 100% 信任单一云服务。


F.4 小白试用攻略 2

根据你的三个偏好(口音、延迟、简单),给你圈定 3 个工具,这 3 个加在一起就够覆盖所有讲座场景,没必要再装别的。

你的最佳三件套

#软件担任角色为什么是它
1讯飞同传主力(默认开它)三项你在意的指标里"延迟"和"操作简单"它都赢;中文界面、点点鼠标就能用
2MacWhisper / Buzz口音救命稻草 + 离线备份"口音重也能识别"这一项 Whisper Large v3 是地表最强;讯飞搞不定的口音它能搞定;离线运行还能在网络抖动时兜底
3沉浸式翻译插件线上会议挂件装一个浏览器插件就能给 Zoom/Teams/Meet 网页版叠双语字幕;操作没法更简单了

为什么这 3 个就够,不需要更多:你是译员不是软件评测员,工具越多反而分心。讯飞负责日常 80% 的场景,Whisper 类负责讯飞翻车的 20%(重口音、网络断),沉浸式翻译只在线上会议时辅助一下。

按机器分别配置

Windows 机器装这三个:

  1. 讯飞同传桌面版 + VB-CABLE 虚拟声卡
  2. Buzz + Faster Whisper 后端 + Large v3 Turbo 模型
  3. Chrome / Edge + 沉浸式翻译插件

Mac 机器装这三个:

  1. 讯飞同传 Mac 版 + BlackHole 2ch 虚拟声卡
  2. MacWhisper Pro(一次性 €59 买断,比 Buzz 省心很多)
  3. Chrome / Safari + 沉浸式翻译插件

试用顺序(建议两个周末搞定)

第一个周末(4 小时):把讯飞同传 + 沉浸式翻译跑通

讯飞同传是主力,必须最先跑通。找一段 YouTube 上的 TED 演讲(讲者是英语母语),先用它看看默认效果。然后换一段印度英语或东欧英语的演讲(YouTube 搜 "Indian English lecture" 之类),看讯飞翻不翻车。这一步是基线——你要知道讯飞的能力边界在哪里。

沉浸式翻译装好后,去 Zoom 找个网页测试会议,看双语字幕怎么叠。

第二个周末(4 小时):装 Whisper 类做对比

Mac 装 MacWhisper(先免费版试,满意再买 Pro);Windows 装 Buzz。用同一段印度英语 / 东欧英语视频再跑一遍。你会发现 Whisper Large v3 在重口音上明显赢讯飞——这就是你为什么需要它。

针对三个痛点的具体配置要点

1. 让"口音重的英语"识别更准

  • 讯飞同传:进"效果优化"→ 加热词。把讲者的母语国名(如 India、Russia)以及讲座领域的关键术语全输进去。讯飞会优先这些词。
  • MacWhisper / Buzz:选 Large v3 Turbo 模型,别选 Small / Base。模型越大对口音越宽容。
  • 不要选 "auto-detect language",一定手动锁定 "English",否则模型可能把奇怪口音误判为别的语言。

2. 让延迟降到最低

  • 讯飞同传:在设置里关闭"翻译润色"或"高质量模式",选"流畅模式",延迟差大概 1 秒。
  • Buzz / MacWhisper:选 Faster Whisper 后端(不是原版 Whisper),速度差 2-3 倍。
  • 关掉所有不用的同传软件 —— 同时跑两个 Whisper 模型会互相抢 GPU 资源拖慢延迟。
  • Mac M 系列 / Windows 有独显:用 Large v3 Turbo,本地延迟可压到 1-1.5 秒。

3. 让操作尽可能简单

  • 把讯飞同传设成开机自启,做一个桌面快捷方式直接进"快速会议"。
  • 沉浸式翻译里设好默认翻译引擎(推荐 DeepL 或 Claude),以后不用每次选。
  • 字幕窗口的位置、字号、颜色,在每个软件里都一次性设好后保存为预设。讲座前 5 分钟你只要打开软件就是这个状态,不用再调。

不推荐你装的(基于偏好)

  • Soniox / Palabra.ai:虽然技术强,但都是 API 优先,没有现成桌面 App,"操作简单"这一条不达标。
  • WhisperLive / Whisper.cpp:要写命令行,跳过。
  • Wordly / KUDO:企业活动场景,按小时收费贵,单人译员场景过度。
  • DeepL Voice:翻译质量好但 ASR 是短板,对重口音不如 Whisper。
  • 百度同传 / 网易见外:能力都被讯飞覆盖了,没必要重复装。

预算预估:讯飞同传按时长充值(一年 ¥500-1000 应该够你重度使用) + MacWhisper Pro 一次性 €59 + 沉浸式翻译免费版基本够用 → 第一年总投入约 ¥1500 以内


F.5 小白试用攻略 3

下面是一份零基础小白试用手册。建议不要一次全试,按这个顺序来:先试个人电脑工具 → 再试活动级平台 → 最后准备免费备份工具

第 1 梯队:你最该先试的 4 个

1. JotMe:个人译员最容易上手

适合你:非常适合。

它的定位就是电脑端实时翻译/转写,不需要把机器人拉进会议,官方说明可直接从 Mac 和 Windows 捕获电脑音频,用于实时翻译、转写和会议总结。

参考: JotMe 官网

从哪里下载:

去 JotMe 官网,找 Download Desktop App。Mac 页面会自动下载 .dmg,官方安装步骤是:打开下载文件 → 拖到 Applications → 打开应用。

参考: JotMe Mac 下载

小白试用步骤:

  1. 打开 JotMe 官网
  2. 点击下载桌面版,选择 Mac 或 Windows
  3. 安装后注册账号
  4. 打开 Zoom、Teams、YouTube 或任意英文演讲视频
  5. 打开 JotMe
  6. 选择输入音频来源:优先选 Computer Audio / System Audio / 电脑声音
  7. 设置语言:
    • 说话语言:English
    • 翻译语言:Chinese / Simplified Chinese
  8. 播放一段带口音英文视频
  9. 看它是否同时给你:
    • 英文实时转写
    • 中文实时翻译
    • 会后文本记录

判断: 如果你是"自己给自己看字幕辅助同传",JotMe 是最先试的。

2. Akkadu:最像"电脑悬浮 AI 字幕"的工具

适合你:适合。

它适合会议、直播、视频、课程这类"电脑里正在播放声音,想实时看字幕和翻译"的场景。第三方工具页描述其使用方式是下载安装 Windows/macOS 应用,注册后获得免费 AI 字幕分钟数,选择语言并确保选中 Computer Sound。

参考: Toolify 评测

判断: Akkadu 非常适合做 JotMe 的替代或备份。如果喜欢"字幕悬浮在屏幕上"的形式,它可能比 JotMe 更顺手。

3. 讯飞同传:中文环境必试

适合你:非常适合国内中英场景。

讯飞同传官网说明它提供多场景多语种实时转写翻译、同声传译、直播字幕上屏和会议记录分享。其 Windows 版微软商店页面显示,个人版每日免费 20 分钟,超出部分按 0.8 元/分钟收费。

参考: 讯飞同传官网 | Microsoft Store

从哪里下载:

  1. 讯飞同传官网的下载页,找 立即下载讯飞同传客户端
  2. Windows 用户也可以从微软应用商店下载"讯飞同传"。

参考: 讯飞同传下载页

判断: 只要讲座发生在中文环境、听众或译员主要看中文,讯飞同传必须试。

4. Windows Live Captions:免费备份

适合你:适合做免费备份。

Windows Live Captions 是系统级功能,微软官方说明它可帮助用户更好理解音频;在 Copilot+ PC 上,实时字幕还支持翻译能力。

参考: The Verge 评测

从哪里打开:

Windows 11 电脑上通常不用下载。

小白试用步骤:

  1. 按快捷键:Win + Ctrl + L
  2. 或进入:
    • 设置
    • 辅助功能
    • 字幕 / Live captions
  3. 打开 Live Captions
  4. 播放英文视频
  5. 看屏幕顶部是否出现英文字幕
  6. 如果是 Copilot+ PC,再查看是否有翻译选项

第二章: 活动级平台

5. KUDO AI:正式活动首选之一

适合你:如果讲座很重要,非常适合。

KUDO 官网说明它提供 AI 或人工实时语音翻译,可用于远程、混合、线下活动。KUDO 定价页显示有 Pay As You Go 选项,可用于一次性会议或活动,也有年度方案。

参考: KUDO 官网 | 定价

联系销售模板:

我需要为一场英文讲座做实时英中字幕和翻译。讲者英语有口音,要求低延迟英文转写和中文翻译。预计时长 X 小时,听众人数 X 人,场景是线上/线下/混合。请提供 KUDO AI Speech Translator 的试用或 Pay As You Go 报价,并说明是否支持 English → Simplified Chinese 和 Chinese → English。

6. Wordly AI:大型会议非常适合

适合你:正式讲座、多人活动、听众也要看字幕时很适合。

Wordly 官网说明它提供实时 AI 翻译、字幕、转写和总结。

参考: Wordly 官网 | 购买页

7. Interprefy:企业级会议

适合你:如果活动很正式、预算高、需要平台支持,适合。

参考: Interprefy 官网 | AI Speech Translation

第三章: 会议软件内置方案

8. Zoom Translated Captions

适合你:适合做备份,不建议唯一依赖。

参考: Zoom 官方介绍 | 启用步骤 | 博客

9. Microsoft Teams 翻译字幕

参考: Teams Live Captions | Live Events | Interprefy 博客

第四章: DeepL Voice

10. DeepL Voice for Meetings

适合你:适合测试,但不要默认它马上能满足全部需求。

DeepL 官方说明 DeepL Voice for Meetings 支持 Microsoft Teams 和 Zoom Meetings 中的实时字幕,覆盖 100+ 语言,包括中文和英文;同时官方也标注 voice-to-voice support 是 coming soon。

参考: DeepL Voice | Voice for Meetings | Zoom Marketplace

第五章: 免费/开源备份工具

11. Buzz Captions

适合你:适合免费备份和会后复盘。

Buzz 官网说明它可以导入音视频并导出 TXT、SRT、VTT,也支持从电脑麦克风进行 live transcription and translation。GitHub 页面也显示它支持实时麦克风转写、演示窗口、降噪/语音分离、说话人识别、多种 Whisper 后端、Nvidia GPU 和 Apple Silicon。

参考: Buzz Captions 官网 | GitHub | Releases

12. Speech-Translate

参考: GitHub

13. WhisperLive

参考: GitHub | SourceForge

第六章: 手机/网页级工具

14. Google Translate

参考: Google Translate | 关于页 | 桌面端帮助

15. Microsoft Translator

参考: Microsoft Translator | App 列表 | App Store

第七章: 讯飞听见

参考: 讯飞听见帮助中心

给读者的最终实操路线

第一天:先试最容易的

按这个顺序:

  1. JotMe
  2. Akkadu
  3. 讯飞同传
  4. Windows Live Captions
  5. Buzz

每个工具只测试 10 分钟,不要一开始就深度配置。

第二天:如果是正式讲座,联系活动级平台

联系: KUDO、Wordly、Interprefy、DeepL Voice。

通用询价模板:

我需要为一场讲座做实时同声翻译辅助。需求是:

  1. 带口音、发音模糊的英语,低延迟生成英文文本,并低延迟翻译成简体中文;
  2. 中文语音快速转写,并可翻译成英文或生成双语字幕;
  3. 使用场景是线上/线下/混合,时长 X 小时,预计听众 X 人;
  4. 希望测试 English → Simplified Chinese、Chinese → English;
  5. 请提供试用、demo、价格、延迟说明、术语表支持和会后导出能力。

第三天:做最终选择

建议做一个简单打分表:

软件英文转写延迟中文翻译延迟口音准确率中文识别操作难度是否可作为主力
JotMe
Akkadu
讯飞同传
Windows Live Captions
Buzz
KUDO
Wordly

评分标准:

  • 5 分:可以正式使用
  • 4 分:可以做主力,但要备份
  • 3 分:可做辅助
  • 2 分:只能会后参考
  • 1 分:不适合你的场景

最稳配置

如果不想纠结,直接按这个来:

个人电脑同传辅助

  • 主力:JotMe 或 Akkadu
  • 中文备份:讯飞同传
  • 免费兜底:Windows Live Captions
  • 会后复盘:Buzz 或讯飞听见

正式付费讲座

  • 主力平台:KUDO 或 Wordly
  • 个人译员屏幕:JotMe 或 Akkadu
  • 中文环境备份:讯飞同传
  • 系统兜底:Windows Live Captions

这是对零基础用户最稳、最不容易翻车的路线。


F.6 同传辅助软件保姆级试用指南(完整版)

本指南面向零基础用户,按推荐优先级依次介绍 20 款同传辅助工具的下载、安装、首次试用步骤。建议从"第一梯队"开始尝试,足够覆盖 90% 的需求。

总览(按优先级排序)

第一梯队(必装主力)

  1. 讯飞同传桌面客户端 —— 中文场景首选
  2. MacWhisper(Mac)/ Buzz(Win/Linux)—— 本地离线备份
  3. 沉浸式翻译浏览器插件 —— Zoom/Teams 字幕兜底

第二梯队(中文备选) 4. 同声传译王 PC 版 5. 钉钉 AI 听记 6. 百度 AI 同传 7. 网易见外工作台

第三梯队(国际方案 / 高质量翻译) 8. Transync AI(同言翻译) 9. Palabra.ai 10. Soniox 11. JotMe 12. Maestra Live 13. Wordly 14. DeepL Voice

第四梯队(系统自带 / 应急免费) 15. Windows 11 Live Captions 16. macOS Live Captions 17. Google Translate 转写模式 18. Speechlogger 网页版

第五梯队(开发者向,零基础可跳过) 19. WhisperLive 20. Whisper.cpp

准备工作(所有人都要做一次)

在试用任何同传软件之前,先做这件事,否则一半软件会"听不到电脑里播放的声音"。

为什么需要"虚拟声卡"

翻译软件默认只能听到麦克风收到的声音。但你做同传时,讲者的声音通常是从电脑的扬声器/会议软件里出来的。要让翻译软件听到这个声音,需要把"电脑输出的声音"伪装成"麦克风的输入",这就需要虚拟声卡。

Windows:开启"立体声混音"(免费内置)

  1. 右键任务栏右下角喇叭图标 → "声音设置"
  2. 拉到底部 → "更多声音设置"
  3. 切到"录制"标签页
  4. 在空白处右键 → 勾选"显示已禁用的设备"
  5. 找到"立体声混音",右键 → "启用"
  6. 再次右键 → "设为默认设备"

如果"立体声混音"不存在(很多 USB 声卡没有),改装 VB-CABLE Virtual Audio Device(免费):

  • 下载: https://vb-audio.com/Cable/
  • 解压后右键 VBCABLE_Setup_x64.exe → "以管理员身份运行" → 点 Install Driver → 重启电脑

macOS:装 BlackHole(免费虚拟声卡)

  • 下载: https://existential.audio/blackhole/
  • BlackHole 2ch(双声道版本就够用)
  • 提交邮箱后会收到一个 .pkg 安装包,双击安装

完成后在「系统设置 → 声音 → 输出」里会多出一个 "BlackHole 2ch" 选项。

测试虚拟声卡是否生效

  1. 打开 YouTube 或本地视频,随便播放一段英语
  2. 把系统输出(Win 的"播放设备"/Mac 的"输出")切到"立体声混音"或"BlackHole 2ch"
  3. 注意此时你自己听不到声音了(因为声音被引到虚拟声卡,没有引到喇叭)—— 这是正常的
  4. 打开任意翻译软件,让它选这个虚拟设备做麦克风输入
  5. 软件能识别出视频里的语音 → 成功

【小贴士】想自己也能听到声音,要么用 Mac 上的 Loopback 软件(付费)做"多输出",要么 Windows 里在喇叭属性里开"侦听此设备"。最简单办法是戴耳机听讲者的原声,另外用扬声器走虚拟声卡的复制流。

第一梯队:必装主力

1. 讯飞同传桌面客户端

适合人群:所有中文译员,尤其是中英互译为主的场景。

官方下载地址:https://tongchuan.iflyrec.com/download.html

支持平台:Windows 7+ / macOS 10.13+

操作步骤
  1. 打开上面网址,点"下载客户端" → 选你的系统
  2. Windows 安装 .exe,Mac 安装 .dmg
  3. 首次打开需要注册账号 —— 用手机号收验证码即可,免费注册
  4. 登录后默认会赠送一定免费时长(一般 60 分钟左右),用完再充值
  5. 点"快速会议" → 输入会议名 → 选"中→英"或"英→中"
  6. 关键:在"音频输入"里选"内录"或"立体声混音"(这就是为什么前面要装虚拟声卡)
  7. 点"投屏设置" → 选"字幕模式" → 字号调到 28 以上
  8. 点"开始会议",对面播放语音,软件就出双语字幕
计费与试用
  • 注册送 60 分钟免费机翻时长
  • 之后按时长付费,约 ¥30–60/小时(套餐越大越便宜)
  • 直接注册账号即可试用,无需先充值
专业小贴士
  • 在"效果优化"里加热词:把讲座的术语、人名、机构名提前导入,识别率会显著提升
  • 字幕窗口可以拖到外接显示器上,主屏看你的笔记不打架
  • 如果觉得字幕跳得太频繁,关闭"自动断句"

2A. MacWhisper(Mac 用户专用)

适合人群:Mac 用户、注重隐私(音频不上云)、网络不稳的场景。

官方下载地址:

支持平台:macOS 13+(Apple Silicon M1/M2/M3/M4 性能最佳)

操作步骤
  1. 打开网页,价格分免费版Pro 版(一次性 €19 / €59,永久买断不订阅)
  2. 先试免费版
  3. 安装后第一次打开,会让你下载语音模型 —— 选 Large v3 Turbo(精度高,速度也够用)
  4. 模型 1–3 GB,下载需要几分钟
  5. 主界面点 "Live Transcription"(实时转写)
  6. 点设置 → 音频输入选 "BlackHole 2ch"(如果你装了的话),或外接麦克风
  7. 选语言:英语讲座选 "English",中文识别选 "Chinese"
  8. 点录制按钮,文字会实时出现
  9. Pro 版可以打开 "Translation" 实时翻译成中文
计费与试用
  • 免费版能跑基础 Whisper Tiny/Base 模型,功能受限
  • Pro 版一次性 €59 永久使用,不订阅
  • App Store 价格略高,但买完同账号永久同步
专业小贴士
  • 第一次跑会比较慢(模型加载),第二次就快了
  • 显示窗口可以调字号、调透明度、置顶 —— 非常适合译员盯字幕
  • 完全离线,会议保密性极高
  • 如果你的 Mac 有 16GB+ 内存,可以开 Large v3(非 Turbo),精度最高

2B. Buzz(Windows / Linux / Mac 通用,免费开源)

适合人群:Windows 用户、零预算想用 Whisper、能接受一点小折腾。

官方下载地址:

支持平台:Windows 10+ / macOS 10.15+ / Linux

操作步骤
  1. 进 GitHub Releases 页面,找最新版本
  2. Windows 用户下载 Buzz-x.x.x.exe
    • 注意:Buzz 没有数字签名,Windows 会弹"未知发布者"警告
    • 点"更多信息" → "仍要运行"即可
  3. Mac 用户下载 Buzz-x.x.x.dmg
  4. 安装完打开,先去 设置 / Preferences → Models 下载 Whisper 模型
    • 推荐选 Faster Whisper + large-v3 turbo
  5. 模型下载完成后,主界面点 "Live Recording"
  6. 选音频源(系统输入 / 麦克风 / 立体声混音)
  7. 选模型 + 任务:
    • Transcribe = 转写为原语言文字
    • Translate = 翻译成英文(注意:Whisper 原生只能"翻译成英文",不能直接出中文)
  8. 点 Start,字幕开始出现
关键提醒:要英→中翻译怎么办?

Whisper 原生不支持中文输出。Buzz 1.3+ 版本增加了 "Realtime translation with OpenAI compatible AI" 功能:

  1. 设置里填写 OpenAI API Key(或 DeepSeek、智谱、Moonshot 等兼容 OpenAI 协议的国产 API)
  2. Buzz 会把转写结果送 LLM 翻译成中文
  3. DeepSeek API 最便宜:每月几块钱足够个人重度使用,注册地址 https://platform.deepseek.com/
计费与试用
  • Buzz 完全免费开源
  • 如果用 OpenAI / DeepSeek 翻译 API,按 token 计费
专业小贴士
  • 实时转写吃显卡,至少 5GB 显存才能跑大模型
  • 没显卡用 CPU 也行,但延迟会到 5–10 秒
  • "Faster Whisper" 后端比官方 Whisper 快 2–3 倍,必选
  • 演示窗口(Presentation Window)模式下可以全屏字幕,适合译员盯屏

3. 沉浸式翻译

适合人群:所有人。它本身不是同传软件,但能给 Zoom/Teams/Meet/Webex 的会议字幕做实时双语翻译,是会议软件的"挂件"。

官方下载地址:https://immersivetranslate.com/

支持平台:Chrome / Edge / Safari / Firefox 浏览器插件 + iOS/Android App

操作步骤
  1. 打开网址 → 点"免费安装",跳到 Chrome 应用商店
  2. 装好后浏览器右上角出现一个鱼图标
  3. 点鱼图标 → 注册账号(用邮箱),免费版每月有较多翻译额度
  4. 点鱼图标 → 设置 → 翻译服务
    • 默认是微软翻译(免费),质量也凑合
    • 想质量好:换成 DeepL(免费有限额)或绑定自己的 OpenAI / Claude / DeepSeek API Key
  5. 在 Zoom / Teams 网页版打开会议时,点鱼图标 → 启用"实时翻译"
  6. 字幕以"原文 + 译文"双语形式叠加显示
计费与试用
  • 免费版每月有翻译额度
  • Pro 版 ¥10–30/月不等
专业小贴士
  • 这个插件强项是字幕兜底,不是 ASR —— 它依赖会议软件本身先生成英文字幕,然后翻译。如果原始字幕不准,它也无能为力
  • 给 YouTube / Bilibili / Netflix 加双语字幕也是一把好手
  • 配 Claude / GPT-4 当翻译引擎,质量比 Google / 微软翻译高一档
  • 配合讯飞同传使用最佳:讯飞做 ASR,沉浸式翻译挂在会议软件上做字幕兜底

第二梯队:中文场景备选

4. 同声传译王 PC 版

官方下载地址:https://www.tongshengchuanyiwang.com/

操作步骤
  1. 网站首页点"PC 版下载"
  2. 注册账号 → 登录
  3. 选"开始同传",配置源语言/目标语言
  4. 选音频源(麦克风 / 内录)
  5. 字幕窗口可悬浮,叠加在 Zoom / 腾讯会议上面
计费

按时长包月/包年;通常有几十分钟免费试用。

5. 钉钉 AI 听记

适合人群:钉钉用户(机构、学校、公司)。

下载:https://www.dingtalk.com/ 下载钉钉 App 或桌面端

操作步骤
  1. 发起钉钉视频会议
  2. 工具栏找"智能记录"或"实时翻译"
  3. 选语言对,开始即可
计费

免费版有额度,企业版功能更全。

6. 百度 AI 同传

网页:https://fanyi.baidu.com/ App:百度翻译 App → 同声传译

操作步骤
  1. 浏览器打开百度翻译网页
  2. 找到"语音"或"同传"按钮
  3. 授权麦克风
  4. 选"中→英"或"英→中",开始说话
计费

免费用,有限制时长。

7. 网易见外工作台

网页地址:https://sight.youdao.com/

操作步骤
  1. 注册有道账号
  2. 进"会议同传"模块
  3. 上传音视频文件或绑定会议
  4. 实时显示双语字幕
计费

免费有额度,超过按分钟付费。

第三梯队:国际方案

注意:第三梯队大部分需要稳定的国际网络才能正常使用,中国大陆用户使用前请确认网络可访问。

8. Transync AI(同言翻译)

官方下载地址:https://www.transyncai.com/

操作步骤
  1. 网站首页点 "Download" / "下载"
  2. 选 Windows / Mac / iOS / Android 版本
  3. 注册账号 → 用 Google 或邮箱登录
  4. 免费试用 40 分钟
  5. 主界面选 "Meeting Translation" → 选 Zoom / Teams / Meet
  6. 配置语言对(左屏英文、右屏中文)
  7. 开始会议时让它入会即可
计费

免费 40 分钟;订阅 $19+/月。

9. Palabra.ai

官方网址:https://www.palabra.ai/

操作步骤
  1. 打开网址,点 "Try Demo",浏览器里直接试
  2. 想正式用要注册账号
  3. 进 Studio 在线工具,上传/接入音频源
  4. 选"语音→语音"或"语音→字幕"
计费

免费试用额度;正式按分钟付费。

注意

偏开发者向,普通用户上手成本比讯飞高一点。

10. Soniox

官方网址:https://soniox.com/

操作步骤
  1. 网站点 "Try it free" → 注册账号
  2. 进 Console → 有网页 demo 直接录制测试
  3. 试用额度内不收费
计费

免费试用额度;之后按使用量计费。

注意

Soniox 没有现成的桌面 App,强项是 ASR 引擎。普通用户体验它的方式是网页 demo。如果你讲者口音很重,强烈建议拿一段录音去 Soniox 网页 demo 测一下,对比讯飞、Whisper 谁更准。

11. JotMe

官方网址:https://www.jotme.io/

操作步骤
  1. 注册账号(免费 20 分钟/月)
  2. 桌面端 App 或 浏览器扩展二选一
  3. JotMe Bot 可以直接入会 Zoom / Meet / Teams / Webex
  4. 提供会后总结、翻译记录导出
计费

免费 20 分钟/月;订阅 $19+/月。

12. Maestra Live

官方网址:https://live.maestra.ai/

操作步骤
  1. 浏览器打开 → 直接点 "Start",无需安装
  2. 授权麦克风
  3. 选 Source language + Target language
  4. 想保存录音和翻译记录,注册免费账号
计费

基础试用免费;Pro 版按分钟订阅。

13. Wordly

官方网址:https://www.wordly.ai/

操作步骤
  1. 注册 → 创建 Session → 拿到一个二维码或链接
  2. 演讲者用浏览器打开链接,让它听音频
  3. 听众扫码 / 打开链接,选自己的语言看字幕
计费

偏企业活动,按小时付费 $39+/小时起。普通个人用户不太合适

14. DeepL Voice

官方网址:https://www.deepl.com/voice

操作步骤
  1. 注册 DeepL 账号
  2. 桌面端 App(Win/Mac)或 Teams 集成
  3. 在 Teams 里加 DeepL Voice 应用
  4. 会议里实时双语字幕
计费

DeepL Pro 订阅,€7.5+/月起;Voice 功能在 Advanced/Ultimate 版本。

第四梯队:系统自带 / 应急免费

15. Windows 11 Live Captions

前提:Windows 11 22H2 及以上版本。

操作步骤
  1. 按快捷键 Ctrl + Win + L 启动;或 设置 → 辅助功能 → 实时字幕 → 开启
  2. 第一次会下载语音模型(几百 MB)
  3. 字幕条会出现在屏幕顶端
  4. Copilot+ PC(搭载 NPU 的新款)才支持 40+ 语言互译;普通 PC 只能英→英转写
计费

完全免费,系统自带。

16. macOS Live Captions

前提:macOS Ventura 13+ + Apple Silicon Mac(M1/M2/M3/M4)。

操作步骤
  1. 系统设置 → 辅助功能 → 实时字幕 → 开启
  2. 字幕条会出现在屏幕上,支持系统所有 App 的音频
  3. 目前主要支持英文,中文支持有限
计费

完全免费。

17. Google Translate 转写模式

网页:https://translate.google.com App:Google Translate App → "对话"模式

操作步骤
  1. 打开网址,授权麦克风
  2. 左边选英语,右边选中文
  3. 点麦克风开始说话,文本实时出现
  4. PC 端要听系统声音,需要前面教过的"立体声混音 / BlackHole"绕道
计费

完全免费。

注意

中国大陆需要稳定的国际网络。

18. Speechlogger

网页:https://speechlogger.appspot.com/

操作步骤
  1. 必须用 Chrome 打开(其他浏览器有兼容问题)
  2. 授权麦克风
  3. 选语言后开始
  4. 自动保存历史记录、可导出
计费

完全免费。

注意

底层用的是 Google Web Speech API,中国大陆需要梯子才能稳定使用。

第五梯队:开发者向(零基础可跳过)

19. WhisperLive

网址:https://github.com/collabora/WhisperLive

需要 Python 3.12 + 命令行能力 + GPU。把项目 clone 下来,跑 python3 run_server.py,配 TensorRT/Faster Whisper 后端。不会写代码就跳过

20. Whisper.cpp

网址:https://github.com/ggml-org/whisper.cpp

终端跑命令的 Whisper。不会用命令行就跳过。Buzz 已经把它包装好了,普通用户用 Buzz 就行。

试用顺序建议

如果时间有限,照下面顺序来:

第 1 天:建立基线

  1. 注册 讯飞同传 账号,跑一段已知的英文演讲视频,试中英对照效果
  2. 同时打开 沉浸式翻译 看 YouTube 演讲,对比效果

第 2 天:装本地备份

  1. Mac 用户装 MacWhisper 免费版,Win 用户装 Buzz
  2. 用同样的视频测试,把三家的识别结果做对比,记下你最满意的一个

第 3 天:补充国际方案

  1. Transync AI 免费 40 分钟Maestra Live
  2. 决定主力组合

之后按需扩展

  • 如果讲者口音很重 → 重点测 Soniox 网页 demoWhisper Large v3
  • 如果场景在 Zoom/Teams → 重点配 沉浸式翻译 + 讯飞同传

重要的实战提醒

  1. 正式上场前一定要彩排一次:用同样的设备、同样的网络、同样的会议软件,跑一段讲者过往的视频,测端到端延迟和准确率。
  2. 永远开两套:主用讯飞同传,备用 Buzz / MacWhisper 离线版。某一套挂了立刻切。
  3. 关掉自动更新:演讲前一周禁用所有这些软件的自动升级,避免开场前突然弹更新框。
  4. 耳机要单边戴:留一只耳朵听原声,另一只耳朵听自己输出的译文(监听);眼睛瞄字幕。
  5. 术语表先做好:讯飞同传、Wordly、Palabra 都支持自定义术语表。讲座前 30 分钟把领域专有名词、人名、机构名导进去,识别率提升一个档次。
  6. 字号要够大:默认字号都偏小,长时间盯会非常累。统一调到 28pt 以上。
  7. 关闭翻译软件的"声音播报":不然译文会被它念出来,干扰你的输出。

故障排查速查

现象可能原因解决
翻译软件没识别到任何声音没装/没启用虚拟声卡回看"准备工作"章节
识别出的全是英文中夹杂奇怪符号模型选错了语言切换到正确的源语言
延迟超过 5 秒Whisper 模型太大或显卡太弱改用 Faster Whisper + medium 模型
中文翻译生硬不通顺翻译引擎太弱(如 Google)换 DeepL 或 GPT-4 / Claude
讯飞客户端登录失败国内网络偶发问题换 4G 热点试试
Buzz 模型下载失败网络问题在 Releases 页手动下载 .bin 文件放进 Models 目录
MacWhisper 转写结果重复静音时段被错误重复在设置里调高 VAD 阈值

一键收藏的官方下载链接清单

试用过程中遇到任何卡点(装虚拟声卡装不上、客户端登不上、模型下载失败等),把具体错误信息发给作者,可以一对一帮你诊断。


附录使用说明

这些素材的价值

收录这些原始素材的目的:

  1. 追溯本书内容来源: 让读者了解每个推荐的依据
  2. 保留完整调研: 不在本书章节中删减的细节也能查到
  3. 二次研究参考: 读者可以基于这些素材进一步研究
  4. 对比验证: 验证本书内容的准确性

素材的局限性

⚠️ 重要提示:

  • 这些素材反映创作时的状况
  • 软件功能、价格、可用性可能随时间变化
  • 部分链接可能失效
  • 建议结合本书正文章节阅读

持续更新

如果你发现:

  • 链接失效
  • 信息过时
  • 有更新的内容

请加微信 15600871059(【专业译员工具社群】),共同维护这份资料的准确性。


💬 加微信 15600871059,加入【专业译员工具社群】,获取最新版本的素材整理。