10.1 术语表的建立与使用
术语表是提升同传质量的最有效手段之一,本节讲解如何建立和使用。
为什么术语表如此重要
案例对比
不用术语表
原: Sam Altman, CEO of OpenAI, discusses GPT-5.
错识别: Sam Old Man, CEO of OpenAI, discusses GBT-5.
错翻译: 萨姆·老人,OpenAI 的 CEO,讨论 GBT-5。
用术语表
术语表:
- Sam Altman
- OpenAI
- GPT-5
正识别: Sam Altman, CEO of OpenAI, discusses GPT-5.
正翻译: 萨姆·奥特曼,OpenAI 的 CEO,讨论 GPT-5。
差距明显。
术语表的核心价值
- 提升识别准确率: 5-15% 提升
- 统一术语翻译: 避免同一术语多种翻译
- 节省时间: 不用每次手动校对
- 提升专业度: 翻译听起来更专业
术语表内容
应该包括
1. 人名
- Sam Altman → 萨姆·奥特曼
- Geoffrey Hinton → 杰弗里·辛顿
- Sundar Pichai → 桑达尔·皮查伊
2. 公司/机构名
- OpenAI → OpenAI(保持)
- Anthropic → Anthropic(保持)
- 中国科学院 → Chinese Academy of Sciences
3. 产品名
- ChatGPT → ChatGPT
- Claude → Claude
- Gemini → Gemini
4. 专业术语
- machine learning → 机器学习
- deep learning → 深度学习
- transformer → Transformer架构
- attention mechanism → 注意力机制
5. 缩写
- LLM → 大语言模型
- GPT → GPT(保持)
- API → API(保持)
- SaaS → 软件即服务
6. 行业特定词汇
医疗:
- aneurysm → 动脉瘤
- hypertension → 高血压
法律:
- jurisdiction → 管辖权
- liability → 法律责任
金融:
- ROI → 投资回报率
- IPO → 首次公开募股
7. 项目代号
- Project Apollo → 阿波罗项目
- Operation X → X 行动
术语表格式
推荐格式: JSON
{
"terms": [
{
"source": "Sam Altman",
"target": "萨姆·奥特曼",
"category": "person",
"context": "OpenAI CEO"
},
{
"source": "OpenAI",
"target": "OpenAI",
"category": "company"
},
{
"source": "GPT-5",
"target": "GPT-5",
"category": "product"
},
{
"source": "machine learning",
"target": "机器学习",
"category": "term"
}
]
}
简单格式: TSV
Sam Altman 萨姆·奥特曼 person
OpenAI OpenAI company
GPT-5 GPT-5 product
machine learning 机器学习 term
Excel/Sheet 格式
| Source (英文) | Target (中文) | Category |
|---|---|---|
| Sam Altman | 萨姆·奥特曼 | person |
| OpenAI | OpenAI | company |
| GPT-5 | GPT-5 | product |
| machine learning | 机器学习 | term |
各工具的术语表导入
讯飞同传
导入热词
- 主界面 → 效果优化(或热词管理)
- 添加热词
- 输入术语 + 权重(默认 5)
- 保存
高级:批量导入
- 准备 TXT 文件,每行一个术语
- 批量导入功能
- 一次导入数百个
限制
- 单个用户热词数量有限制(通常 200-500)
- 企业版可更多
MacWhisper
Custom Vocabulary
- Settings → Vocabulary
- 添加术语
- 提示模型优先使用
Buzz
通过翻译 API 的 system prompt
You are a translator. Use the following terminology:
- Sam Altman → 萨姆·奥特曼
- OpenAI → OpenAI
- GPT-5 → GPT-5
- machine learning → 机器学习
...
Translate the following text from English to Simplified Chinese.
沉浸式翻译
自定义术语表
- 设置 → 术语表
- 添加术语对
- 翻译时自动应用
KUDO/Wordly
企业级方案通常有完善的术语管理:
- 上传术语表
- 团队共享
- 多场景管理
术语表的来源
如何收集术语
1. 提前阅读材料
- 演讲 PPT
- 论文摘要
- 公司介绍
- 项目文档
2. 调研讲者
- Google Scholar 搜索
- 讲者过往演讲
- 研究方向
3. 行业标准
- 行业术语表(网上很多)
- 国家/国际标准
- 学术词典
4. AI 辅助生成
让 ChatGPT/Claude 生成:
Prompt:
请生成一份关于人工智能领域的核心术语表,
包含 50 个最常用的术语,英文+中文翻译。
要求:
- 每行一个术语
- 格式: 英文术语\t中文翻译
术语表的维护
持续更新
每次会议/讲座后:
- 整理本次的新术语
- 加入主术语表
- 标记常用术语
分类管理
按领域分类:
术语表/
├── general.json 通用术语
├── ai_ml.json AI/机器学习
├── medical.json 医学
├── finance.json 金融
├── legal.json 法律
├── company_xxx.json 公司专属
└── speaker_xxx.json 讲者专属
版本控制
用 Git 管理:
git init terminology
git add *.json
git commit -m "Initial glossary"
每次更新提交,保留历史。
团队共享
公司团队:
- 中央术语库
- 团队成员共享
- 协作维护
术语表的高级用法
1. 上下文相关术语
同一个词在不同上下文有不同翻译:
{
"source": "interest",
"translations": [
{
"context": "finance",
"target": "利息"
},
{
"context": "general",
"target": "兴趣"
}
]
}
2. 模糊匹配
部分工具支持模糊匹配:
源: "GPT-4o"
术语表条目: "GPT-4"
依然能匹配
3. 优先级
术语之间可以设置优先级:
高优先级: 项目代号、专属人名
中优先级: 行业术语
低优先级: 通用词汇
4. AI Prompt 集成
把术语表融入 LLM Prompt:
System Prompt:
You are a professional translator.
ALWAYS use these specific translations:
[术语表内容]
Translate the following text accurately and naturally.
实战案例: AI 学术讲座术语表
完整术语表示例
{
"people": [
{"source": "Sam Altman", "target": "萨姆·奥特曼"},
{"source": "Geoffrey Hinton", "target": "杰弗里·辛顿"},
{"source": "Yoshua Bengio", "target": "约书亚·本吉奥"},
{"source": "Andrew Ng", "target": "吴恩达"},
{"source": "Yann LeCun", "target": "杨立昆"},
{"source": "Demis Hassabis", "target": "戴米斯·哈萨比斯"}
],
"companies": [
{"source": "OpenAI", "target": "OpenAI"},
{"source": "Anthropic", "target": "Anthropic"},
{"source": "DeepMind", "target": "DeepMind"},
{"source": "Google AI", "target": "Google AI"},
{"source": "Meta AI", "target": "Meta AI"}
],
"products": [
{"source": "ChatGPT", "target": "ChatGPT"},
{"source": "Claude", "target": "Claude"},
{"source": "Gemini", "target": "Gemini"},
{"source": "GPT-4", "target": "GPT-4"},
{"source": "GPT-5", "target": "GPT-5"}
],
"terms": [
{"source": "machine learning", "target": "机器学习"},
{"source": "deep learning", "target": "深度学习"},
{"source": "neural network", "target": "神经网络"},
{"source": "transformer", "target": "Transformer 架构"},
{"source": "attention mechanism", "target": "注意力机制"},
{"source": "self-attention", "target": "自注意力"},
{"source": "embeddings", "target": "嵌入"},
{"source": "fine-tuning", "target": "微调"},
{"source": "prompt engineering", "target": "提示工程"},
{"source": "RAG", "target": "检索增强生成"},
{"source": "RLHF", "target": "基于人类反馈的强化学习"},
{"source": "AGI", "target": "通用人工智能"},
{"source": "alignment", "target": "对齐"},
{"source": "hallucination", "target": "幻觉(模型)"},
{"source": "few-shot learning", "target": "少样本学习"},
{"source": "zero-shot", "target": "零样本"},
{"source": "chain-of-thought", "target": "思维链"},
{"source": "emergent abilities", "target": "涌现能力"}
],
"abbreviations": [
{"source": "LLM", "target": "大语言模型"},
{"source": "API", "target": "API"},
{"source": "GPU", "target": "GPU"},
{"source": "TPU", "target": "TPU"},
{"source": "NLP", "target": "自然语言处理"},
{"source": "CV", "target": "计算机视觉"},
{"source": "RL", "target": "强化学习"},
{"source": "SFT", "target": "监督微调"}
]
}
使用效果
- 识别准确率提升 10-15%
- 翻译一致性显著改善
- 重要名词不再出错
本节小结
- ✅ 术语表是提升同传质量的最有效手段
- ✅ 涵盖人名、公司、产品、术语、缩写
- ✅ 每个工具都有自己的导入方式
- ✅ 持续维护和更新
- ✅ 分类管理,团队共享
下一步
💬 术语表分享: 加微信 15600871059(【专业译员工具社群】) 获取常见领域的现成术语表。