3.3 Buzz(Windows/Linux)

Buzz 是 Windows/Linux 平台上最适合普通用户的开源 Whisper 工具。如果你是 Windows 用户,这是免费方案的首选。

快速概览

项目	信息
官方网址	https://buzzcaptions.com
GitHub	https://github.com/chidiwilliams/buzz
下载页	https://github.com/chidiwilliams/buzz/releases
支持平台	Windows / macOS / Linux
价格	完全免费开源
支持语言	99+ 语言(Whisper 模型)
延迟	取决于硬件,1-5 秒
隐私	⭐⭐⭐⭐⭐ 完全本地
难度	⭐⭐⭐(中等)

为什么选 Buzz

优势

1. 完全免费开源

没有任何付费墙
源代码在 GitHub
持续维护更新
社区活跃

2. 强大的 Whisper 引擎

支持所有 Whisper 模型
Faster-Whisper 后端(快 2-3 倍)
支持 GPU 加速(NVIDIA CUDA / Apple Metal)
支持 OpenVINO(Intel)

3. 跨平台

Windows 7+
macOS 10.15+
Linux(多个发行版)
同一界面,体验一致

4. 多种功能

实时麦克风转写
文件批量转写
实时翻译(配合 LLM API)
多种字幕格式导出

5. 隐私至上

完全本地处理
数据不上传
适合涉密场合
可断网使用

局限

1. 需要硬件支持

大模型需要独立显卡或苹果芯片
CPU 模式较慢
至少 5GB 显存推荐

2. 配置稍复杂

需要选择模型
需要配置后端
需要管理依赖

3. 中文翻译需要 API

Whisper 原生不支持中文翻译
需要配合 OpenAI/DeepSeek 等 API
增加配置步骤

4. 数字签名问题

Windows 上无签名,会弹警告
需要手动允许运行

下载与安装

Windows 安装

步骤 1: 下载安装包

访问 GitHub Releases:

https://github.com/chidiwilliams/buzz/releases

找到最新版本的 Windows 安装包:

Buzz-x.x.x-windows.exe(推荐)
或 Buzz-x.x.x.zip(便携版)

文件大小: 约 200-300 MB

步骤 2: 处理"未知发布者"警告

由于 Buzz 是开源项目,没有微软的数字签名,Windows 会弹出警告。

操作步骤:

双击 Buzz-x.x.x.exe
弹出 "Windows 已保护你的电脑" 警告
点击 "更多信息"
看到 "应用: Buzz" 等信息
点击 "仍要运行"
进入安装向导

⚠️ 安全提示: 只从官方 GitHub Releases 下载,不要从第三方下载站。

步骤 3: 完成安装

选择安装路径(默认即可)
选择是否创建桌面快捷方式
点击 "Install"
等待安装完成
启动 Buzz

macOS 安装

虽然 macOS 用户更推荐 MacWhisper,但 Buzz 也是免费选项。

步骤 1: 下载

下载 Buzz-x.x.x.dmg

步骤 2: 安装

双击 .dmg
拖到"应用程序"
第一次打开:
- 系统设置 → 隐私与安全性
- 允许"仍要打开"

Linux 安装

Ubuntu/Debian

# 下载 .deb 包
wget https://github.com/chidiwilliams/buzz/releases/latest/download/buzz_x.x.x_amd64.deb

# 安装
sudo dpkg -i buzz_x.x.x_amd64.deb

# 解决依赖
sudo apt-get install -f

其他 Linux 发行版

从 GitHub Releases 下载 AppImage 文件,赋予执行权限:

chmod +x Buzz-x.x.x.AppImage
./Buzz-x.x.x.AppImage

首次配置

步骤 1: 启动 Buzz

启动后会看到主界面,有几个主要功能:

Live Recording: 实时录音转写
File Transcription: 文件转写
Settings: 设置

步骤 2: 进入设置

点击右上角的 设置图标(齿轮),进入设置界面。

步骤 3: 配置模型

在 Models 标签页:

选择模型类型

Buzz 支持多种 Whisper 实现:

OpenAI Whisper(原版,慢)
Faster Whisper(推荐,快 2-3 倍)
Whisper.cpp(快,精度略低)
OpenAI API(云端,需 Key)

推荐选择: Faster Whisper

选择模型大小

模型	文件大小	显存	速度	精度
tiny	75 MB	1 GB	极快	低
base	150 MB	1 GB	快	中低
small	500 MB	2 GB	较快	中
medium	1.5 GB	5 GB	中	高
large-v3	3 GB	10 GB	慢	极高
large-v3-turbo	1.5 GB	6 GB	较快	接近 v3

下载模型

选择模型
点击 "Download"
等待下载(几百 MB 到几 GB)
国内用户可能需要代理

步骤 4: 配置硬件加速

NVIDIA GPU 用户(推荐)

安装 CUDA Toolkit(NVIDIA 官网)
Buzz 设置中选择 "CUDA" 后端
速度可提升 3-5 倍

AMD GPU 用户

选择 "DirectML" 后端(Windows)
速度提升 2 倍左右

CPU 用户

选择 "CPU" 后端
速度较慢,建议用 small 模型

步骤 5: 配置音频源

在 Live Recording 界面:

输入设备选择

点击 "Input Source"
选择对应的虚拟声卡:
- CABLE Output (VB-Audio Virtual Cable)(VB-CABLE 用户)
- Stereo Mix(立体声混音)(系统自带用户)
测试音量条是否跳动

如果没有这些选项,回顾第一章的虚拟声卡配置。

实时转写使用

基础流程

步骤 1: 进入 Live Recording

主界面点击 "Live Recording" 按钮。

步骤 2: 配置参数

Source Language: English(或锁定其他语言)
Task:
- Transcribe: 转写为原语言
- Translate: 翻译为英文(Whisper 原生只支持英文)
Model: 选择已下载的模型

步骤 3: 开始录制

点击 "Record" 按钮
在另一个 App 播放视频或讲话
字幕会实时出现
你会看到:
- 实时转写文本
- 时间戳
- 置信度(部分模型)

步骤 4: 演示窗口模式

Buzz 有一个特别功能: Presentation Window(演示窗口)。

适合译员/讲座使用:

启动后点击 "Presentation Window" 按钮
弹出全屏字幕窗口
字幕大字号显示
适合给观众看

步骤 5: 结束录制

点击 "Stop"
选择保存格式:
- TXT: 纯文本
- SRT: 字幕文件
- VTT: Web 字幕
- JSON: 含时间戳的结构化数据
选择保存位置

实现中文翻译

Whisper 原生只能转写或翻译成英文,要中文翻译需要额外配置。

方案 1: Buzz 内置 LLM 翻译(推荐)

Buzz 1.3+ 版本支持 OpenAI 兼容 API。

配置步骤

进入 Settings → AI Translation
启用 "Realtime translation with OpenAI compatible AI"
配置参数:
- Base URL: 选择服务商 API 地址
- API Key: 输入你的 Key
- Model: 选择模型
- Target Language: Chinese(中文)

服务商	价格	质量	速度
DeepSeek	极便宜(几块钱/月)	高	快
OpenAI(GPT-4o-mini)	便宜	高	快
OpenAI(GPT-4)	贵	极高	中
Claude(API)	中	极高	中
智谱(GLM-4)	便宜	高	快
月之暗面(Moonshot)	中	高	中

DeepSeek 配置示例

DeepSeek 是国产高性价比选择:

注册 https://platform.deepseek.com/
充值(¥10 可用很久)
创建 API Key

Buzz 中配置:

Base URL: https://api.deepseek.com/v1
API Key: sk-xxx(你的 Key)
Model: deepseek-chat
Target Language: Chinese

方案 2: 手动配合其他翻译工具

如果不想配 API:

Buzz 转写英文
复制英文到 DeepL/Claude/Google 翻译
得到中文

适合偶尔使用,不适合实时场景。

方案 3: 配合本地大模型

完全离线的方案:

安装 Ollama: https://ollama.ai/
下载本地模型(如 Qwen2.5)

Buzz 配置 Ollama 的 API:

Base URL: http://localhost:11434/v1
API Key: ollama(任意值)
Model: qwen2.5

优势: 完全离线,极致隐私
劣势: 需要好硬件,速度较慢

文件批量转写

Buzz 不仅能实时转写,还能处理已有音视频文件。

单个文件转写

步骤 1: 进入 File Transcription

主界面点击 "File Transcription"

步骤 2: 选择文件

支持的格式:

音频: MP3, WAV, M4A, FLAC, OGG
视频: MP4, MOV, MKV, AVI, WebM

拖入或点击选择文件。

步骤 3: 配置参数

模型选择
源语言
任务(Transcribe/Translate)
输出格式

步骤 4: 开始转写

点击 "Transcribe"
等待处理完成(取决于文件长度和模型)
进度条显示当前进度

步骤 5: 查看和导出

转写完成后会显示文本
可以编辑修改
导出为多种格式

批量文件处理

可以一次性转写多个文件。

步骤

File Transcription → "Add Files"
选择多个文件(可拖拽)
配置统一参数
点击 "Start Batch"
后台逐个处理

适合:

大量讲座录音
视频字幕生成
历史会议存档

高级功能

1. 字幕导出

Buzz 支持多种字幕格式,适合不同用途:

SRT 格式

最通用的字幕格式:

1
00:00:00,000 --> 00:00:05,000
Hello, welcome to today's lecture.

2
00:00:05,000 --> 00:00:10,000
Today we'll discuss artificial intelligence.

适用: VLC、PotPlayer、剪映、Premiere 等

VTT 格式

Web 视频字幕:

WEBVTT

00:00:00.000 --> 00:00:05.000
Hello, welcome to today's lecture.

适用: HTML5 视频、YouTube 上传

JSON 格式

包含详细时间戳和元数据:

{
  "segments": [
    {
      "start": 0.0,
      "end": 5.0,
      "text": "Hello, welcome to today's lecture.",
      "tokens": [...],
      "temperature": 0.0
    }
  ]
}

适用: 二次开发、数据分析

2. 多语言切换

Buzz 支持运行时切换语言。

使用场景

多语言会议
中英混说讲座
国际研讨会

操作

实时录制时,菜单选择新语言
模型会重新加载
新语言生效

3. GPU 加速优化

如果你有 NVIDIA GPU,深度优化可大幅提速。

CUDA 安装

检查 GPU 型号(必须是 NVIDIA)
下载 CUDA Toolkit:https://developer.nvidia.com/cuda-toolkit
安装后重启
Buzz 设置中选择 CUDA 后端

TensorRT 加速(高级)

更激进的加速方式:

安装 TensorRT
转换 Whisper 模型为 TensorRT 格式
速度可提升 5-10 倍

⚠️ 配置复杂,适合技术用户。

4. 演示窗口(Presentation Window)

Buzz 的特色功能,非常适合译员。

启动

实时录制时,点击 "Presentation Window"
弹出全屏字幕窗口

配置

字号: 36-72 pt
颜色: 白色字 + 黑色背景
字幕条数: 显示最近 2-3 行
透明度: 70%(可选半透明)

使用场景

给观众看的字幕投屏
译员盯屏幕
讲座辅助

实战配置示例

配置 1: 个人英文学习(零成本)

模型: Faster Whisper, Small
后端: CPU(普通电脑) / CUDA(有 GPU)
源语言: English
任务: Transcribe
翻译: 不需要(或后期手动翻译)

成本: 0 元

配置 2: 译员日常辅助(低成本)

模型: Faster Whisper, Large v3 Turbo
后端: CUDA(GPU)
源语言: English
任务: Transcribe
翻译: DeepSeek API (Chinese)

成本: < ¥30/月

配置 3: 专业同传辅助(中成本)

模型: Faster Whisper, Large v3
后端: CUDA(GPU)
源语言: English
任务: Transcribe
翻译: Claude API(Chinese)
术语表: 已配置
演示窗口: 已启用

成本: ¥100-300/月(取决于使用量)

配置 4: 涉密会议(完全本地)

模型: Faster Whisper, Large v3
后端: CUDA / CPU
源语言: English
任务: Transcribe
翻译: 本地 Ollama + Qwen2.5
存储: 完全本地

成本: 一次性硬件投入

常见问题

问题 1: 模型下载失败

原因: 网络问题或 Hugging Face 访问受限

解决:

方法 A: 使用代理
方法 B: 手动下载模型
- Hugging Face 镜像: https://hf-mirror.com/
- 下载对应模型文件
- 放到 Buzz 模型目录:
  - Windows: C:\Users\<你>\AppData\Local\Buzz\models\
  - Linux: ~/.cache/whisper/

问题 2: 转写速度极慢

原因: CPU 模式或模型太大

解决:

安装并启用 CUDA(NVIDIA GPU 用户)
切换到 Faster Whisper 后端
降低模型大小(Large → Medium)
使用 large-v3-turbo 替代 large-v3

问题 3: 转写出现乱码

原因: 编码问题或模型异常

解决:

重启 Buzz
重新下载模型
切换其他模型测试

问题 4: 出现 CUDA 错误

原因: CUDA 版本不匹配

解决:

检查 CUDA 版本(命令行: nvcc --version)
确保 CUDA 11.8 或 12.x
重新安装 CUDA Toolkit
重启电脑

问题 5: 录制声音是静音

原因: 虚拟声卡未配置或音量为 0

解决:

回顾第一章虚拟声卡配置
确认 VB-CABLE 或立体声混音正常工作
检查音量级别

问题 6: 翻译 API 报错

原因: API Key 错误或网络问题

解决:

检查 API Key 是否正确
确认账户余额
测试 API 是否可达
切换其他 API 服务商

问题 7: Buzz 启动崩溃

原因: 安装文件损坏或依赖问题

解决:

卸载 Buzz
删除配置文件:
- Windows: C:\Users\<你>\AppData\Local\Buzz\
- Linux: ~/.config/Buzz/
重新下载安装
如仍崩溃,GitHub 提交 Issue

与 MacWhisper 对比

很多人问: Buzz vs MacWhisper,哪个好?

对比表

维度	Buzz	MacWhisper
平台	Win/Mac/Linux	仅 Mac
价格	完全免费	€19-59
易用性	⭐⭐⭐	⭐⭐⭐⭐⭐
功能丰富度	⭐⭐⭐⭐	⭐⭐⭐⭐⭐
Mac 集成	⭐⭐	⭐⭐⭐⭐⭐
自动会议捕获	否	是(Pro 版)
演示窗口	是	是
API 翻译集成	是	是
开发者支持	GitHub	邮件/Discord

选择建议

Mac 用户: 如果预算允许,MacWhisper Pro 体验更好
Windows 用户: Buzz 是首选(MacWhisper 不支持 Windows)
零预算: Buzz 是唯一选择
跨平台: Buzz(Linux 用户必选)

我的使用心得

作为 Buzz 多年用户:

最大优点

完全免费: 无任何付费墙
持续更新: GitHub 项目活跃
跨平台: 一个工具,多个系统
隐私好: 完全本地

最大痛点

首次配置稍复杂: 模型下载、CUDA 安装等
没有自动会议捕获: 需要手动配置虚拟声卡
中文翻译要 API: 增加配置步骤
Windows 上没数字签名: 弹警告

最佳配置

我自己的 Windows 配置:

GPU: NVIDIA RTX 3060(12GB 显存)
模型: Faster Whisper, large-v3-turbo
后端: CUDA
翻译: DeepSeek API
术语表: 自定义
演示窗口: 启用

实测: 实时延迟 1-2 秒,精度接近讯飞同传英文识别。

本节小结

✅ Buzz 是 Windows 平台最优秀的免费同传工具
✅ 基于 Whisper 模型,口音处理强
✅ 配合 DeepSeek 等便宜 API 实现中文翻译
✅ 完全本地,适合涉密场合
⚠️ 需要 GPU 才能流畅运行大模型
⚠️ 配置稍复杂,但一次配置长期受益

下一步

继续阅读 3.4 沉浸式翻译插件,学习浏览器和会议软件的字幕方案。

💬 Buzz 高级用法:加微信 15600871059,加入【专业译员工具社群】,享每月软硬件评测、AI 同传企业培训、AI 工具选型咨询、共享术语表与配置文件、会员互测口音识别效果等福利。可分享 GPU 优化、API 配置等详细教程。

2026 实时翻译 AI 工具全攻略: 软件和智能硬件