7.1 WhisperLive
WhisperLive 是 Collabora 维护的实时 Whisper 服务,是基于 OpenAI Whisper 的 nearly-live 实现。
快速概览
| 项目 | 信息 |
|---|---|
| GitHub | https://github.com/collabora/WhisperLive |
| 支持平台 | Linux / Windows / macOS |
| 价格 | 完全开源免费 |
| 难度 | ⭐⭐⭐⭐(技术向) |
| 依赖 | Python 3.12+, GPU(推荐) |
适用人群
推荐
- ✅ 公司技术团队
- ✅ Python 开发者
- ✅ 想自建实时转写服务
- ✅ 需要批量处理
不推荐
- ❌ 普通用户(用 Buzz)
- ❌ 没有 GPU(性能不够)
- ❌ 不会命令行(放弃)
核心特点
1. 服务端/客户端架构
- 服务器跑 Whisper 模型
- 客户端发送音频流
- 实时返回转写结果
2. 多后端支持
- Faster-Whisper(默认)
- TensorRT(NVIDIA 加速)
- OpenVINO(Intel 加速)
3. 近实时延迟
通过流式处理实现近实时转写。
4. 麦克风/文件双模式
- 实时麦克风转写
- 预录音频文件转写
部署步骤(简要)
步骤 1: 克隆项目
git clone https://github.com/collabora/WhisperLive.git
cd WhisperLive
步骤 2: 安装依赖
# 创建 Python 虚拟环境
python3 -m venv venv
source venv/bin/activate # Linux/Mac
# venv\Scripts\activate # Windows
# 安装依赖
pip install -r requirements.txt
步骤 3: 启动服务器
# 默认 Faster Whisper 后端
python3 run_server.py --port 9090 --backend faster_whisper
# 使用 TensorRT 后端(更快)
python3 run_server.py --port 9090 --backend tensorrt
步骤 4: 启动客户端
# 麦克风转写
python3 run_client.py
# 文件转写
python3 run_client.py --file audio.wav
参数配置
服务器参数
python3 run_server.py \
--port 9090 \
--backend faster_whisper \
--model large-v3 \
--device cuda \
--num_workers 4
| 参数 | 说明 |
|---|---|
--port | 服务端口 |
--backend | 后端类型 |
--model | Whisper 模型 |
--device | 计算设备(cuda/cpu) |
--num_workers | 并发数 |
客户端参数
python3 run_client.py \
--host localhost \
--port 9090 \
--language en \
--task transcribe
适用场景
1. 公司内部转写服务
内部用户 → WhisperLive 服务器(本地)→ 转写结果
优势
- 数据完全本地
- 多用户共享
- 可控可定制
2. 实时直播字幕
直播流 → WhisperLive → 字幕
3. 大规模批量处理
音视频文件批量 → WhisperLive 集群 → 批量转写
性能优化
GPU 加速
NVIDIA GPU:
- CUDA 11.8+
- 至少 6GB 显存(Large 模型)
TensorRT 加速
# 转换模型为 TensorRT 格式
python3 scripts/build_whisper_tensorrt.py --model large-v3
# 使用 TensorRT 后端启动
python3 run_server.py --backend tensorrt
性能提升: 5-10 倍
OpenVINO(Intel CPU/iGPU)
适合没有独显的服务器:
python3 run_server.py --backend openvino
故障排查
问题 1: 端口占用
解决: 换端口
python3 run_server.py --port 9091
问题 2: GPU 内存不足
解决: 用更小的模型
python3 run_server.py --model medium
问题 3: 转写延迟高
解决:
- 用 TensorRT 后端
- 升级 GPU
- 减少并发数
寻求技术支持
如果你不会自己部署,可以:
1. GitHub Issues
https://github.com/collabora/WhisperLive/issues
2. 找懂技术的同事
把需求描述清楚,让技术同事帮你部署:
"请帮我部署 WhisperLive,用电脑麦克风或系统音频做英文实时转写, 并尝试接一个翻译模块输出中文。要求低延迟,优先用 faster-whisper 或 GPU 后端。"
3. 加微信 15600871059(【专业译员工具社群】)
可以分享部署文档和经验。
替代方案
如果觉得 WhisperLive 太复杂,推荐:
- Buzz: 已经把 Whisper 包装好了
- MacWhisper: Mac 用户更优雅
本节小结
- WhisperLive 适合技术团队自建实时转写服务
- 普通用户用 Buzz 即可
- 需要 GPU 才能流畅运行
- 部署需要技术能力
下一步
💬 加微信 15600871059,加入【专业译员工具社群】 获取部署协助。