3.3 Buzz(Windows/Linux)
Buzz 是 Windows/Linux 平台上最适合普通用户的开源 Whisper 工具。如果你是 Windows 用户,这是免费方案的首选。
快速概览
| 项目 | 信息 |
|---|---|
| 官方网址 | https://buzzcaptions.com |
| GitHub | https://github.com/chidiwilliams/buzz |
| 下载页 | https://github.com/chidiwilliams/buzz/releases |
| 支持平台 | Windows / macOS / Linux |
| 价格 | 完全免费开源 |
| 支持语言 | 99+ 语言(Whisper 模型) |
| 延迟 | 取决于硬件,1-5 秒 |
| 隐私 | ⭐⭐⭐⭐⭐ 完全本地 |
| 难度 | ⭐⭐⭐(中等) |
为什么选 Buzz
优势
1. 完全免费开源
- 没有任何付费墙
- 源代码在 GitHub
- 持续维护更新
- 社区活跃
2. 强大的 Whisper 引擎
- 支持所有 Whisper 模型
- Faster-Whisper 后端(快 2-3 倍)
- 支持 GPU 加速(NVIDIA CUDA / Apple Metal)
- 支持 OpenVINO(Intel)
3. 跨平台
- Windows 7+
- macOS 10.15+
- Linux(多个发行版)
- 同一界面,体验一致
4. 多种功能
- 实时麦克风转写
- 文件批量转写
- 实时翻译(配合 LLM API)
- 多种字幕格式导出
5. 隐私至上
- 完全本地处理
- 数据不上传
- 适合涉密场合
- 可断网使用
局限
1. 需要硬件支持
- 大模型需要独立显卡或苹果芯片
- CPU 模式较慢
- 至少 5GB 显存推荐
2. 配置稍复杂
- 需要选择模型
- 需要配置后端
- 需要管理依赖
3. 中文翻译需要 API
- Whisper 原生不支持中文翻译
- 需要配合 OpenAI/DeepSeek 等 API
- 增加配置步骤
4. 数字签名问题
- Windows 上无签名,会弹警告
- 需要手动允许运行
下载与安装
Windows 安装
步骤 1: 下载安装包
访问 GitHub Releases:
https://github.com/chidiwilliams/buzz/releases
找到最新版本的 Windows 安装包:
Buzz-x.x.x-windows.exe(推荐)- 或
Buzz-x.x.x.zip(便携版)
文件大小: 约 200-300 MB
步骤 2: 处理"未知发布者"警告
由于 Buzz 是开源项目,没有微软的数字签名,Windows 会弹出警告。
操作步骤:
- 双击
Buzz-x.x.x.exe - 弹出 "Windows 已保护你的电脑" 警告
- 点击 "更多信息"
- 看到 "应用: Buzz" 等信息
- 点击 "仍要运行"
- 进入安装向导
⚠️ 安全提示: 只从官方 GitHub Releases 下载,不要从第三方下载站。
步骤 3: 完成安装
- 选择安装路径(默认即可)
- 选择是否创建桌面快捷方式
- 点击 "Install"
- 等待安装完成
- 启动 Buzz
macOS 安装
虽然 macOS 用户更推荐 MacWhisper,但 Buzz 也是免费选项。
步骤 1: 下载
下载 Buzz-x.x.x.dmg
步骤 2: 安装
- 双击
.dmg - 拖到"应用程序"
- 第一次打开:
- 系统设置 → 隐私与安全性
- 允许"仍要打开"
Linux 安装
Ubuntu/Debian
# 下载 .deb 包
wget https://github.com/chidiwilliams/buzz/releases/latest/download/buzz_x.x.x_amd64.deb
# 安装
sudo dpkg -i buzz_x.x.x_amd64.deb
# 解决依赖
sudo apt-get install -f
其他 Linux 发行版
从 GitHub Releases 下载 AppImage 文件,赋予执行权限:
chmod +x Buzz-x.x.x.AppImage
./Buzz-x.x.x.AppImage
首次配置
步骤 1: 启动 Buzz
启动后会看到主界面,有几个主要功能:
- Live Recording: 实时录音转写
- File Transcription: 文件转写
- Settings: 设置
步骤 2: 进入设置
点击右上角的 设置图标(齿轮),进入设置界面。
步骤 3: 配置模型
在 Models 标签页:
选择模型类型
Buzz 支持多种 Whisper 实现:
- OpenAI Whisper(原版,慢)
- Faster Whisper(推荐,快 2-3 倍)
- Whisper.cpp(快,精度略低)
- OpenAI API(云端,需 Key)
推荐选择: Faster Whisper
选择模型大小
| 模型 | 文件大小 | 显存 | 速度 | 精度 |
|---|---|---|---|---|
| tiny | 75 MB | 1 GB | 极快 | 低 |
| base | 150 MB | 1 GB | 快 | 中低 |
| small | 500 MB | 2 GB | 较快 | 中 |
| medium | 1.5 GB | 5 GB | 中 | 高 |
| large-v3 | 3 GB | 10 GB | 慢 | 极高 |
| large-v3-turbo | 1.5 GB | 6 GB | 较快 | 接近 v3 |
推荐模型
- 新手/低配电脑: small 或 medium
- 中配电脑(GTX 1660 / RTX 3050): medium
- 高配电脑(RTX 3060+): large-v3-turbo
- 顶配电脑(RTX 4070+): large-v3
下载模型
- 选择模型
- 点击 "Download"
- 等待下载(几百 MB 到几 GB)
- 国内用户可能需要代理
步骤 4: 配置硬件加速
NVIDIA GPU 用户(推荐)
- 安装 CUDA Toolkit(NVIDIA 官网)
- Buzz 设置中选择 "CUDA" 后端
- 速度可提升 3-5 倍
AMD GPU 用户
- 选择 "DirectML" 后端(Windows)
- 速度提升 2 倍左右
CPU 用户
- 选择 "CPU" 后端
- 速度较慢,建议用 small 模型
步骤 5: 配置音频源
在 Live Recording 界面:
输入设备选择
- 点击 "Input Source"
- 选择对应的虚拟声卡:
- CABLE Output (VB-Audio Virtual Cable)(VB-CABLE 用户)
- Stereo Mix(立体声混音)(系统自带用户)
- 测试音量条是否跳动
如果没有这些选项,回顾第一章的虚拟声卡配置。
实时转写使用
基础流程
步骤 1: 进入 Live Recording
主界面点击 "Live Recording" 按钮。
步骤 2: 配置参数
- Source Language: English(或锁定其他语言)
- Task:
- Transcribe: 转写为原语言
- Translate: 翻译为英文(Whisper 原生只支持英文)
- Model: 选择已下载的模型
步骤 3: 开始录制
- 点击 "Record" 按钮
- 在另一个 App 播放视频或讲话
- 字幕会实时出现
- 你会看到:
- 实时转写文本
- 时间戳
- 置信度(部分模型)
步骤 4: 演示窗口模式
Buzz 有一个特别功能: Presentation Window(演示窗口)。
适合译员/讲座使用:
- 启动后点击 "Presentation Window" 按钮
- 弹出全屏字幕窗口
- 字幕大字号显示
- 适合给观众看
步骤 5: 结束录制
- 点击 "Stop"
- 选择保存格式:
- TXT: 纯文本
- SRT: 字幕文件
- VTT: Web 字幕
- JSON: 含时间戳的结构化数据
- 选择保存位置
实现中文翻译
Whisper 原生只能转写或翻译成英文,要中文翻译需要额外配置。
方案 1: Buzz 内置 LLM 翻译(推荐)
Buzz 1.3+ 版本支持 OpenAI 兼容 API。
配置步骤
- 进入 Settings → AI Translation
- 启用 "Realtime translation with OpenAI compatible AI"
- 配置参数:
- Base URL: 选择服务商 API 地址
- API Key: 输入你的 Key
- Model: 选择模型
- Target Language: Chinese(中文)
推荐 API 服务
| 服务商 | 价格 | 质量 | 速度 |
|---|---|---|---|
| DeepSeek | 极便宜(几块钱/月) | 高 | 快 |
| OpenAI(GPT-4o-mini) | 便宜 | 高 | 快 |
| OpenAI(GPT-4) | 贵 | 极高 | 中 |
| Claude(API) | 中 | 极高 | 中 |
| 智谱(GLM-4) | 便宜 | 高 | 快 |
| 月之暗面(Moonshot) | 中 | 高 | 中 |
DeepSeek 配置示例
DeepSeek 是国产高性价比选择:
- 注册 https://platform.deepseek.com/
- 充值(¥10 可用很久)
- 创建 API Key
- Buzz 中配置:
Base URL: https://api.deepseek.com/v1 API Key: sk-xxx(你的 Key) Model: deepseek-chat Target Language: Chinese
方案 2: 手动配合其他翻译工具
如果不想配 API:
- Buzz 转写英文
- 复制英文到 DeepL/Claude/Google 翻译
- 得到中文
适合偶尔使用,不适合实时场景。
方案 3: 配合本地大模型
完全离线的方案:
- 安装 Ollama: https://ollama.ai/
- 下载本地模型(如 Qwen2.5)
- Buzz 配置 Ollama 的 API:
Base URL: http://localhost:11434/v1 API Key: ollama(任意值) Model: qwen2.5
优势: 完全离线,极致隐私
劣势: 需要好硬件,速度较慢
文件批量转写
Buzz 不仅能实时转写,还能处理已有音视频文件。
单个文件转写
步骤 1: 进入 File Transcription
主界面点击 "File Transcription"
步骤 2: 选择文件
支持的格式:
- 音频: MP3, WAV, M4A, FLAC, OGG
- 视频: MP4, MOV, MKV, AVI, WebM
拖入或点击选择文件。
步骤 3: 配置参数
- 模型选择
- 源语言
- 任务(Transcribe/Translate)
- 输出格式
步骤 4: 开始转写
- 点击 "Transcribe"
- 等待处理完成(取决于文件长度和模型)
- 进度条显示当前进度
步骤 5: 查看和导出
- 转写完成后会显示文本
- 可以编辑修改
- 导出为多种格式
批量文件处理
可以一次性转写多个文件。
步骤
- File Transcription → "Add Files"
- 选择多个文件(可拖拽)
- 配置统一参数
- 点击 "Start Batch"
- 后台逐个处理
适合:
- 大量讲座录音
- 视频字幕生成
- 历史会议存档
高级功能
1. 字幕导出
Buzz 支持多种字幕格式,适合不同用途:
SRT 格式
最通用的字幕格式:
1
00:00:00,000 --> 00:00:05,000
Hello, welcome to today's lecture.
2
00:00:05,000 --> 00:00:10,000
Today we'll discuss artificial intelligence.
适用: VLC、PotPlayer、剪映、Premiere 等
VTT 格式
Web 视频字幕:
WEBVTT
00:00:00.000 --> 00:00:05.000
Hello, welcome to today's lecture.
适用: HTML5 视频、YouTube 上传
JSON 格式
包含详细时间戳和元数据:
{
"segments": [
{
"start": 0.0,
"end": 5.0,
"text": "Hello, welcome to today's lecture.",
"tokens": [...],
"temperature": 0.0
}
]
}
适用: 二次开发、数据分析
2. 多语言切换
Buzz 支持运行时切换语言。
使用场景
- 多语言会议
- 中英混说讲座
- 国际研讨会
操作
- 实时录制时,菜单选择新语言
- 模型会重新加载
- 新语言生效
3. GPU 加速优化
如果你有 NVIDIA GPU,深度优化可大幅提速。
CUDA 安装
- 检查 GPU 型号(必须是 NVIDIA)
- 下载 CUDA Toolkit:https://developer.nvidia.com/cuda-toolkit
- 安装后重启
- Buzz 设置中选择 CUDA 后端
TensorRT 加速(高级)
更激进的加速方式:
- 安装 TensorRT
- 转换 Whisper 模型为 TensorRT 格式
- 速度可提升 5-10 倍
⚠️ 配置复杂,适合技术用户。
4. 演示窗口(Presentation Window)
Buzz 的特色功能,非常适合译员。
启动
- 实时录制时,点击 "Presentation Window"
- 弹出全屏字幕窗口
配置
- 字号: 36-72 pt
- 颜色: 白色字 + 黑色背景
- 字幕条数: 显示最近 2-3 行
- 透明度: 70%(可选半透明)
使用场景
- 给观众看的字幕投屏
- 译员盯屏幕
- 讲座辅助
实战配置示例
配置 1: 个人英文学习(零成本)
模型: Faster Whisper, Small
后端: CPU(普通电脑) / CUDA(有 GPU)
源语言: English
任务: Transcribe
翻译: 不需要(或后期手动翻译)
成本: 0 元
配置 2: 译员日常辅助(低成本)
模型: Faster Whisper, Large v3 Turbo
后端: CUDA(GPU)
源语言: English
任务: Transcribe
翻译: DeepSeek API (Chinese)
成本: < ¥30/月
配置 3: 专业同传辅助(中成本)
模型: Faster Whisper, Large v3
后端: CUDA(GPU)
源语言: English
任务: Transcribe
翻译: Claude API(Chinese)
术语表: 已配置
演示窗口: 已启用
成本: ¥100-300/月(取决于使用量)
配置 4: 涉密会议(完全本地)
模型: Faster Whisper, Large v3
后端: CUDA / CPU
源语言: English
任务: Transcribe
翻译: 本地 Ollama + Qwen2.5
存储: 完全本地
成本: 一次性硬件投入
常见问题
问题 1: 模型下载失败
原因: 网络问题或 Hugging Face 访问受限
解决:
- 方法 A: 使用代理
- 方法 B: 手动下载模型
- Hugging Face 镜像: https://hf-mirror.com/
- 下载对应模型文件
- 放到 Buzz 模型目录:
- Windows:
C:\Users\<你>\AppData\Local\Buzz\models\ - Linux:
~/.cache/whisper/
- Windows:
问题 2: 转写速度极慢
原因: CPU 模式或模型太大
解决:
- 安装并启用 CUDA(NVIDIA GPU 用户)
- 切换到 Faster Whisper 后端
- 降低模型大小(Large → Medium)
- 使用 large-v3-turbo 替代 large-v3
问题 3: 转写出现乱码
原因: 编码问题或模型异常
解决:
- 重启 Buzz
- 重新下载模型
- 切换其他模型测试
问题 4: 出现 CUDA 错误
原因: CUDA 版本不匹配
解决:
- 检查 CUDA 版本(命令行:
nvcc --version) - 确保 CUDA 11.8 或 12.x
- 重新安装 CUDA Toolkit
- 重启电脑
问题 5: 录制声音是静音
原因: 虚拟声卡未配置或音量为 0
解决:
- 回顾第一章虚拟声卡配置
- 确认 VB-CABLE 或立体声混音正常工作
- 检查音量级别
问题 6: 翻译 API 报错
原因: API Key 错误或网络问题
解决:
- 检查 API Key 是否正确
- 确认账户余额
- 测试 API 是否可达
- 切换其他 API 服务商
问题 7: Buzz 启动崩溃
原因: 安装文件损坏或依赖问题
解决:
- 卸载 Buzz
- 删除配置文件:
- Windows:
C:\Users\<你>\AppData\Local\Buzz\ - Linux:
~/.config/Buzz/
- Windows:
- 重新下载安装
- 如仍崩溃,GitHub 提交 Issue
与 MacWhisper 对比
很多人问: Buzz vs MacWhisper,哪个好?
对比表
| 维度 | Buzz | MacWhisper |
|---|---|---|
| 平台 | Win/Mac/Linux | 仅 Mac |
| 价格 | 完全免费 | €19-59 |
| 易用性 | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 功能丰富度 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| Mac 集成 | ⭐⭐ | ⭐⭐⭐⭐⭐ |
| 自动会议捕获 | 否 | 是(Pro 版) |
| 演示窗口 | 是 | 是 |
| API 翻译集成 | 是 | 是 |
| 开发者支持 | GitHub | 邮件/Discord |
选择建议
- Mac 用户: 如果预算允许,MacWhisper Pro 体验更好
- Windows 用户: Buzz 是首选(MacWhisper 不支持 Windows)
- 零预算: Buzz 是唯一选择
- 跨平台: Buzz(Linux 用户必选)
我的使用心得
作为 Buzz 多年用户:
最大优点
- 完全免费: 无任何付费墙
- 持续更新: GitHub 项目活跃
- 跨平台: 一个工具,多个系统
- 隐私好: 完全本地
最大痛点
- 首次配置稍复杂: 模型下载、CUDA 安装等
- 没有自动会议捕获: 需要手动配置虚拟声卡
- 中文翻译要 API: 增加配置步骤
- Windows 上没数字签名: 弹警告
最佳配置
我自己的 Windows 配置:
GPU: NVIDIA RTX 3060(12GB 显存)
模型: Faster Whisper, large-v3-turbo
后端: CUDA
翻译: DeepSeek API
术语表: 自定义
演示窗口: 启用
实测: 实时延迟 1-2 秒,精度接近讯飞同传英文识别。
本节小结
- ✅ Buzz 是 Windows 平台最优秀的免费同传工具
- ✅ 基于 Whisper 模型,口音处理强
- ✅ 配合 DeepSeek 等便宜 API 实现中文翻译
- ✅ 完全本地,适合涉密场合
- ⚠️ 需要 GPU 才能流畅运行大模型
- ⚠️ 配置稍复杂,但一次配置长期受益
下一步
继续阅读 3.4 沉浸式翻译插件,学习浏览器和会议软件的字幕方案。
💬 Buzz 高级用法:加微信 15600871059,加入【专业译员工具社群】,享每月软硬件评测、AI 同传企业培训、AI 工具选型咨询、共享术语表与配置文件、会员互测口音识别效果等福利。可分享 GPU 优化、API 配置等详细教程。