3.3 Buzz(Windows/Linux)

Buzz 是 Windows/Linux 平台上最适合普通用户的开源 Whisper 工具。如果你是 Windows 用户,这是免费方案的首选。

快速概览

项目信息
官方网址https://buzzcaptions.com
GitHubhttps://github.com/chidiwilliams/buzz
下载页https://github.com/chidiwilliams/buzz/releases
支持平台Windows / macOS / Linux
价格完全免费开源
支持语言99+ 语言(Whisper 模型)
延迟取决于硬件,1-5 秒
隐私⭐⭐⭐⭐⭐ 完全本地
难度⭐⭐⭐(中等)

为什么选 Buzz

优势

1. 完全免费开源

  • 没有任何付费墙
  • 源代码在 GitHub
  • 持续维护更新
  • 社区活跃

2. 强大的 Whisper 引擎

  • 支持所有 Whisper 模型
  • Faster-Whisper 后端(快 2-3 倍)
  • 支持 GPU 加速(NVIDIA CUDA / Apple Metal)
  • 支持 OpenVINO(Intel)

3. 跨平台

  • Windows 7+
  • macOS 10.15+
  • Linux(多个发行版)
  • 同一界面,体验一致

4. 多种功能

  • 实时麦克风转写
  • 文件批量转写
  • 实时翻译(配合 LLM API)
  • 多种字幕格式导出

5. 隐私至上

  • 完全本地处理
  • 数据不上传
  • 适合涉密场合
  • 可断网使用

局限

1. 需要硬件支持

  • 大模型需要独立显卡或苹果芯片
  • CPU 模式较慢
  • 至少 5GB 显存推荐

2. 配置稍复杂

  • 需要选择模型
  • 需要配置后端
  • 需要管理依赖

3. 中文翻译需要 API

  • Whisper 原生不支持中文翻译
  • 需要配合 OpenAI/DeepSeek 等 API
  • 增加配置步骤

4. 数字签名问题

  • Windows 上无签名,会弹警告
  • 需要手动允许运行

下载与安装

Windows 安装

步骤 1: 下载安装包

访问 GitHub Releases:

https://github.com/chidiwilliams/buzz/releases

找到最新版本的 Windows 安装包:

  • Buzz-x.x.x-windows.exe(推荐)
  • Buzz-x.x.x.zip(便携版)

文件大小: 约 200-300 MB

步骤 2: 处理"未知发布者"警告

由于 Buzz 是开源项目,没有微软的数字签名,Windows 会弹出警告。

操作步骤:

  1. 双击 Buzz-x.x.x.exe
  2. 弹出 "Windows 已保护你的电脑" 警告
  3. 点击 "更多信息"
  4. 看到 "应用: Buzz" 等信息
  5. 点击 "仍要运行"
  6. 进入安装向导

⚠️ 安全提示: 只从官方 GitHub Releases 下载,不要从第三方下载站。

步骤 3: 完成安装

  1. 选择安装路径(默认即可)
  2. 选择是否创建桌面快捷方式
  3. 点击 "Install"
  4. 等待安装完成
  5. 启动 Buzz

macOS 安装

虽然 macOS 用户更推荐 MacWhisper,但 Buzz 也是免费选项。

步骤 1: 下载

下载 Buzz-x.x.x.dmg

步骤 2: 安装

  1. 双击 .dmg
  2. 拖到"应用程序"
  3. 第一次打开:
    • 系统设置 → 隐私与安全性
    • 允许"仍要打开"

Linux 安装

Ubuntu/Debian

# 下载 .deb 包
wget https://github.com/chidiwilliams/buzz/releases/latest/download/buzz_x.x.x_amd64.deb

# 安装
sudo dpkg -i buzz_x.x.x_amd64.deb

# 解决依赖
sudo apt-get install -f

其他 Linux 发行版

从 GitHub Releases 下载 AppImage 文件,赋予执行权限:

chmod +x Buzz-x.x.x.AppImage
./Buzz-x.x.x.AppImage

首次配置

步骤 1: 启动 Buzz

启动后会看到主界面,有几个主要功能:

  • Live Recording: 实时录音转写
  • File Transcription: 文件转写
  • Settings: 设置

步骤 2: 进入设置

点击右上角的 设置图标(齿轮),进入设置界面。

步骤 3: 配置模型

Models 标签页:

选择模型类型

Buzz 支持多种 Whisper 实现:

  1. OpenAI Whisper(原版,慢)
  2. Faster Whisper(推荐,快 2-3 倍)
  3. Whisper.cpp(快,精度略低)
  4. OpenAI API(云端,需 Key)

推荐选择: Faster Whisper

选择模型大小

模型文件大小显存速度精度
tiny75 MB1 GB极快
base150 MB1 GB中低
small500 MB2 GB较快
medium1.5 GB5 GB
large-v33 GB10 GB极高
large-v3-turbo1.5 GB6 GB较快接近 v3

推荐模型

  • 新手/低配电脑: small 或 medium
  • 中配电脑(GTX 1660 / RTX 3050): medium
  • 高配电脑(RTX 3060+): large-v3-turbo
  • 顶配电脑(RTX 4070+): large-v3

下载模型

  1. 选择模型
  2. 点击 "Download"
  3. 等待下载(几百 MB 到几 GB)
  4. 国内用户可能需要代理

步骤 4: 配置硬件加速

NVIDIA GPU 用户(推荐)

  1. 安装 CUDA Toolkit(NVIDIA 官网)
  2. Buzz 设置中选择 "CUDA" 后端
  3. 速度可提升 3-5 倍

AMD GPU 用户

  1. 选择 "DirectML" 后端(Windows)
  2. 速度提升 2 倍左右

CPU 用户

  1. 选择 "CPU" 后端
  2. 速度较慢,建议用 small 模型

步骤 5: 配置音频源

Live Recording 界面:

输入设备选择

  1. 点击 "Input Source"
  2. 选择对应的虚拟声卡:
    • CABLE Output (VB-Audio Virtual Cable)(VB-CABLE 用户)
    • Stereo Mix(立体声混音)(系统自带用户)
  3. 测试音量条是否跳动

如果没有这些选项,回顾第一章的虚拟声卡配置

实时转写使用

基础流程

步骤 1: 进入 Live Recording

主界面点击 "Live Recording" 按钮。

步骤 2: 配置参数

  • Source Language: English(或锁定其他语言)
  • Task:
    • Transcribe: 转写为原语言
    • Translate: 翻译为英文(Whisper 原生只支持英文)
  • Model: 选择已下载的模型

步骤 3: 开始录制

  1. 点击 "Record" 按钮
  2. 在另一个 App 播放视频或讲话
  3. 字幕会实时出现
  4. 你会看到:
    • 实时转写文本
    • 时间戳
    • 置信度(部分模型)

步骤 4: 演示窗口模式

Buzz 有一个特别功能: Presentation Window(演示窗口)。

适合译员/讲座使用:

  1. 启动后点击 "Presentation Window" 按钮
  2. 弹出全屏字幕窗口
  3. 字幕大字号显示
  4. 适合给观众看

步骤 5: 结束录制

  1. 点击 "Stop"
  2. 选择保存格式:
    • TXT: 纯文本
    • SRT: 字幕文件
    • VTT: Web 字幕
    • JSON: 含时间戳的结构化数据
  3. 选择保存位置

实现中文翻译

Whisper 原生只能转写或翻译成英文,要中文翻译需要额外配置。

方案 1: Buzz 内置 LLM 翻译(推荐)

Buzz 1.3+ 版本支持 OpenAI 兼容 API。

配置步骤

  1. 进入 Settings → AI Translation
  2. 启用 "Realtime translation with OpenAI compatible AI"
  3. 配置参数:
    • Base URL: 选择服务商 API 地址
    • API Key: 输入你的 Key
    • Model: 选择模型
    • Target Language: Chinese(中文)

推荐 API 服务

服务商价格质量速度
DeepSeek极便宜(几块钱/月)
OpenAI(GPT-4o-mini)便宜
OpenAI(GPT-4)极高
Claude(API)极高
智谱(GLM-4)便宜
月之暗面(Moonshot)

DeepSeek 配置示例

DeepSeek 是国产高性价比选择:

  1. 注册 https://platform.deepseek.com/
  2. 充值(¥10 可用很久)
  3. 创建 API Key
  4. Buzz 中配置:
    Base URL: https://api.deepseek.com/v1
    API Key: sk-xxx(你的 Key)
    Model: deepseek-chat
    Target Language: Chinese
    

方案 2: 手动配合其他翻译工具

如果不想配 API:

  1. Buzz 转写英文
  2. 复制英文到 DeepL/Claude/Google 翻译
  3. 得到中文

适合偶尔使用,不适合实时场景。

方案 3: 配合本地大模型

完全离线的方案:

  1. 安装 Ollama: https://ollama.ai/
  2. 下载本地模型(如 Qwen2.5)
  3. Buzz 配置 Ollama 的 API:
    Base URL: http://localhost:11434/v1
    API Key: ollama(任意值)
    Model: qwen2.5
    

优势: 完全离线,极致隐私
劣势: 需要好硬件,速度较慢

文件批量转写

Buzz 不仅能实时转写,还能处理已有音视频文件。

单个文件转写

步骤 1: 进入 File Transcription

主界面点击 "File Transcription"

步骤 2: 选择文件

支持的格式:

  • 音频: MP3, WAV, M4A, FLAC, OGG
  • 视频: MP4, MOV, MKV, AVI, WebM

拖入或点击选择文件。

步骤 3: 配置参数

  • 模型选择
  • 源语言
  • 任务(Transcribe/Translate)
  • 输出格式

步骤 4: 开始转写

  1. 点击 "Transcribe"
  2. 等待处理完成(取决于文件长度和模型)
  3. 进度条显示当前进度

步骤 5: 查看和导出

  • 转写完成后会显示文本
  • 可以编辑修改
  • 导出为多种格式

批量文件处理

可以一次性转写多个文件。

步骤

  1. File Transcription → "Add Files"
  2. 选择多个文件(可拖拽)
  3. 配置统一参数
  4. 点击 "Start Batch"
  5. 后台逐个处理

适合:

  • 大量讲座录音
  • 视频字幕生成
  • 历史会议存档

高级功能

1. 字幕导出

Buzz 支持多种字幕格式,适合不同用途:

SRT 格式

最通用的字幕格式:

1
00:00:00,000 --> 00:00:05,000
Hello, welcome to today's lecture.

2
00:00:05,000 --> 00:00:10,000
Today we'll discuss artificial intelligence.

适用: VLC、PotPlayer、剪映、Premiere 等

VTT 格式

Web 视频字幕:

WEBVTT

00:00:00.000 --> 00:00:05.000
Hello, welcome to today's lecture.

适用: HTML5 视频、YouTube 上传

JSON 格式

包含详细时间戳和元数据:

{
  "segments": [
    {
      "start": 0.0,
      "end": 5.0,
      "text": "Hello, welcome to today's lecture.",
      "tokens": [...],
      "temperature": 0.0
    }
  ]
}

适用: 二次开发、数据分析

2. 多语言切换

Buzz 支持运行时切换语言。

使用场景

  • 多语言会议
  • 中英混说讲座
  • 国际研讨会

操作

  1. 实时录制时,菜单选择新语言
  2. 模型会重新加载
  3. 新语言生效

3. GPU 加速优化

如果你有 NVIDIA GPU,深度优化可大幅提速。

CUDA 安装

  1. 检查 GPU 型号(必须是 NVIDIA)
  2. 下载 CUDA Toolkit:https://developer.nvidia.com/cuda-toolkit
  3. 安装后重启
  4. Buzz 设置中选择 CUDA 后端

TensorRT 加速(高级)

更激进的加速方式:

  1. 安装 TensorRT
  2. 转换 Whisper 模型为 TensorRT 格式
  3. 速度可提升 5-10 倍

⚠️ 配置复杂,适合技术用户。

4. 演示窗口(Presentation Window)

Buzz 的特色功能,非常适合译员。

启动

  1. 实时录制时,点击 "Presentation Window"
  2. 弹出全屏字幕窗口

配置

  • 字号: 36-72 pt
  • 颜色: 白色字 + 黑色背景
  • 字幕条数: 显示最近 2-3 行
  • 透明度: 70%(可选半透明)

使用场景

  • 给观众看的字幕投屏
  • 译员盯屏幕
  • 讲座辅助

实战配置示例

配置 1: 个人英文学习(零成本)

模型: Faster Whisper, Small
后端: CPU(普通电脑) / CUDA(有 GPU)
源语言: English
任务: Transcribe
翻译: 不需要(或后期手动翻译)

成本: 0 元

配置 2: 译员日常辅助(低成本)

模型: Faster Whisper, Large v3 Turbo
后端: CUDA(GPU)
源语言: English
任务: Transcribe
翻译: DeepSeek API (Chinese)

成本: < ¥30/月

配置 3: 专业同传辅助(中成本)

模型: Faster Whisper, Large v3
后端: CUDA(GPU)
源语言: English
任务: Transcribe
翻译: Claude API(Chinese)
术语表: 已配置
演示窗口: 已启用

成本: ¥100-300/月(取决于使用量)

配置 4: 涉密会议(完全本地)

模型: Faster Whisper, Large v3
后端: CUDA / CPU
源语言: English
任务: Transcribe
翻译: 本地 Ollama + Qwen2.5
存储: 完全本地

成本: 一次性硬件投入

常见问题

问题 1: 模型下载失败

原因: 网络问题或 Hugging Face 访问受限

解决:

  1. 方法 A: 使用代理
  2. 方法 B: 手动下载模型
    • Hugging Face 镜像: https://hf-mirror.com/
    • 下载对应模型文件
    • 放到 Buzz 模型目录:
      • Windows: C:\Users\<你>\AppData\Local\Buzz\models\
      • Linux: ~/.cache/whisper/

问题 2: 转写速度极慢

原因: CPU 模式或模型太大

解决:

  1. 安装并启用 CUDA(NVIDIA GPU 用户)
  2. 切换到 Faster Whisper 后端
  3. 降低模型大小(Large → Medium)
  4. 使用 large-v3-turbo 替代 large-v3

问题 3: 转写出现乱码

原因: 编码问题或模型异常

解决:

  1. 重启 Buzz
  2. 重新下载模型
  3. 切换其他模型测试

问题 4: 出现 CUDA 错误

原因: CUDA 版本不匹配

解决:

  1. 检查 CUDA 版本(命令行: nvcc --version)
  2. 确保 CUDA 11.8 或 12.x
  3. 重新安装 CUDA Toolkit
  4. 重启电脑

问题 5: 录制声音是静音

原因: 虚拟声卡未配置或音量为 0

解决:

  1. 回顾第一章虚拟声卡配置
  2. 确认 VB-CABLE 或立体声混音正常工作
  3. 检查音量级别

问题 6: 翻译 API 报错

原因: API Key 错误或网络问题

解决:

  1. 检查 API Key 是否正确
  2. 确认账户余额
  3. 测试 API 是否可达
  4. 切换其他 API 服务商

问题 7: Buzz 启动崩溃

原因: 安装文件损坏或依赖问题

解决:

  1. 卸载 Buzz
  2. 删除配置文件:
    • Windows: C:\Users\<你>\AppData\Local\Buzz\
    • Linux: ~/.config/Buzz/
  3. 重新下载安装
  4. 如仍崩溃,GitHub 提交 Issue

与 MacWhisper 对比

很多人问: Buzz vs MacWhisper,哪个好?

对比表

维度BuzzMacWhisper
平台Win/Mac/Linux仅 Mac
价格完全免费€19-59
易用性⭐⭐⭐⭐⭐⭐⭐⭐
功能丰富度⭐⭐⭐⭐⭐⭐⭐⭐⭐
Mac 集成⭐⭐⭐⭐⭐⭐⭐
自动会议捕获是(Pro 版)
演示窗口
API 翻译集成
开发者支持GitHub邮件/Discord

选择建议

  • Mac 用户: 如果预算允许,MacWhisper Pro 体验更好
  • Windows 用户: Buzz 是首选(MacWhisper 不支持 Windows)
  • 零预算: Buzz 是唯一选择
  • 跨平台: Buzz(Linux 用户必选)

我的使用心得

作为 Buzz 多年用户:

最大优点

  • 完全免费: 无任何付费墙
  • 持续更新: GitHub 项目活跃
  • 跨平台: 一个工具,多个系统
  • 隐私好: 完全本地

最大痛点

  • 首次配置稍复杂: 模型下载、CUDA 安装等
  • 没有自动会议捕获: 需要手动配置虚拟声卡
  • 中文翻译要 API: 增加配置步骤
  • Windows 上没数字签名: 弹警告

最佳配置

我自己的 Windows 配置:

GPU: NVIDIA RTX 3060(12GB 显存)
模型: Faster Whisper, large-v3-turbo
后端: CUDA
翻译: DeepSeek API
术语表: 自定义
演示窗口: 启用

实测: 实时延迟 1-2 秒,精度接近讯飞同传英文识别。

本节小结

  • ✅ Buzz 是 Windows 平台最优秀的免费同传工具
  • ✅ 基于 Whisper 模型,口音处理强
  • ✅ 配合 DeepSeek 等便宜 API 实现中文翻译
  • ✅ 完全本地,适合涉密场合
  • ⚠️ 需要 GPU 才能流畅运行大模型
  • ⚠️ 配置稍复杂,但一次配置长期受益

下一步

继续阅读 3.4 沉浸式翻译插件,学习浏览器和会议软件的字幕方案。


💬 Buzz 高级用法:加微信 15600871059,加入【专业译员工具社群】,享每月软硬件评测、AI 同传企业培训、AI 工具选型咨询、共享术语表与配置文件、会员互测口音识别效果等福利。可分享 GPU 优化、API 配置等详细教程。