优化 YouTube 翻译

INFO

这是有时效性的文章,一些截图和示例和最新版本未必一致,但是所描述的优化原理没变。

在最新的版本中,此文章提及的“断句模式”设置选项已删除,以不同的工作模式代替:

  • 标准模式,相当于“断句模式”设置为“增强”。
  • 简单模式,相当于“断句模式”设置为“普通”。

概述

众所周知,YouTube 有原生翻译功能,还有通过语音识别技术自动生成的字幕,简称“自动字幕”。

所以要实现双语字幕功能,通常的做法就是向 YouTube 请求两个字幕文件,原文和译文,两个文件的时间轴基本上是一一对应的,按照相同时间轴合并原文和译文就行了。

可能你听闻过 Google 的翻译技术有过重大突破,但如果你是 YouTube 重度用户,想必已经发现 YouTube 的翻译质量很多时候还是让人一言难尽。然而 YouTube 的翻译质量是有优化余地的,下面说明 Dualsub 的优化原理。

以这个茶的历史视频为例子,视频原声为英语,翻译到中文,分别优化人工字幕和自动字幕。

优化人工字幕

下面是 YouTube 翻译结果片段:

00:04:21.389 --> 00:04:25.699 Today, tea is the second most consumed beverage in the world after water, 今天,茶是仅次于水的世界上消费量第二大的饮料, 00:04:25.699 --> 00:04:27.449 and from sugary Turkish Rize tea, 还有含糖的土耳其里兹茶, 00:04:27.449 --> 00:04:29.440 to salty Tibetan butter tea, 咸西藏黄油茶 00:04:29.440 --> 00:04:32.410 there are almost as many ways of preparing the beverage 几乎有多种方法来准备饮料 00:04:32.410 --> 00:04:34.299 as there are cultures on the globe. 因为全球都有文化。

我们来评价一下这几条翻译:

  • 第 1 条:看上去还不错。
  • 第 2-3 条:还能接受。
  • 第 4-5 条:已经逻辑不通了。

如果你把原文粘贴到 https://translate.google.com/ 上翻译的话,你会得到一样的结果:

有意思的是,如果你把这几句话用空格拼成一行,翻译结果会变成:

翻译质量神奇地上升了一个档次,可以说和人类翻译差不多了。

想必你已经看到问题所在,YouTube 的翻译没有结合上下文,每条字幕对白独立翻译。

要提升翻译质量,翻译需要结合上下文,多条字幕对白需要同时翻译。

因此 Dualsub 引入一个设置选项“翻译模式”:

  • 普通:不结合上下文翻译,和 YouTube 做法相同。
  • 增强:结合上下文翻译,以及其它优化手段。

当你使用增强模式,翻译结果会变成:

00:04:21.389 --> 00:04:25.699 Today, tea is the second most consumed beverage in the world after water, 如今,茶已成为仅次于水的世界上消费量第二大的饮料, 00:04:25.699 --> 00:04:27.449 and from sugary Turkish Rize tea, 从含糖的土耳其里兹茶到咸味的西藏黄油茶, 00:04:27.449 --> 00:04:29.440 to salty Tibetan butter tea, 从含糖的土耳其里兹茶到咸味的西藏黄油茶, 00:04:29.440 --> 00:04:32.410 there are almost as many ways of preparing the beverage 制备饮料的方法几乎与全球文化一样多。 00:04:32.410 --> 00:04:34.299 as there are cultures on the globe. 制备饮料的方法几乎与全球文化一样多。

在此翻译模式下,译文未必和原文一一对应,一个译文可能对应多个原文,反之亦然,甚至会交换语序:

00:02:14.855 --> 00:02:17.806 This gave China a great deal of power and economic influence 随着饮茶在世界范围内的传播, 00:02:17.806 --> 00:02:20.585 as tea drinking spread around the world. 这给了中国很大的力量和经济影响力。

此外,有一些字幕是不适合使用增强模式的,比如歌词,因为歌词可能不是完整的一句话,甚至没有标点符号,并且刻意断句,所以使用增强模式未必能改进翻译质量。

优化自动字幕

“自动字幕”指在 YouTube 原生字幕菜单中带有“(自动生成)”后缀的字幕。

首先要说明一下两种时间轴格式。

一种是“基于句子”的格式,例如:

00:00:00.000 --> 00:00:03.000 aaa bbb ccc

另一种是“基于词汇”的格式,例如:

00:00:00.000 xxx 00:00:01.000 yyy 00:00:02.000 zzz

很明显,人工字幕是“基于句子”的,而自动字幕是“基于词汇”的,所以自动字幕对白的原生显示效果是“逐个词汇弹出”。

但是 YouTube 翻译后的自动字幕是“基于句子”的,下面是翻译结果片段:

00:01:42.640 --> 00:01:46.880 in the 9th century during the tang dynasty a japanese monk brought the 在9世纪唐朝期间,日本和尚带来了 00:01:46.880 --> 00:01:50.880 first tea plant to japan the japanese eventually developed their 日本最早的茶厂日本人最终发展了他们的 00:01:50.880 --> 00:01:54.880 own unique rituals around tea leading to the creation of the japanese 围绕茶的独特仪式导致日本人的创作 00:01:54.880 --> 00:01:58.240 tea ceremony and in the 14th century during the ming 茶道与明朝的14世纪 00:01:58.240 --> 00:02:01.840 dynasty the chinese emperor shifted the standard from tea 王朝将中国皇帝的标准从茶叶转移到了中国

可以推测 YouTube 翻译自动字幕的流程:

  1. 合并词汇为句子,每个句子不超过 80 个字符。
  2. 每个句子独立翻译,也就是没有结合上下文翻译。

两个步骤都是简单粗暴的做法,所以造成翻译质量非常差。

翻译前需要“合并词汇为句子”,也就是“断句”,但是原始文本都是小写字母,也没有标点符号,给断句带来麻烦。

另一种方法是“根据停顿时间”,一个人说完一句话,通常都会停顿一会,再说下一句。

因此 Dualsub 引入一个设置选项“断句模式”:

  • 普通:根据字符数量,和 YouTube 做法相同。
  • 增强:根据停顿时间,以及其它优化手段。

当你使用增强模式断句,同时使用增强模式翻译,结果如下:

00:01:42.630 --> 00:01:45.520 in the 9th century during the tang dynasty, 在唐朝的9世纪, 00:01:45.520 --> 00:01:49.30 a japanese monk brought the first tea plant to japan, 一位日本僧侣将第一棵茶树带到了日本, 00:01:49.30 --> 00:01:52.950 the japanese eventually developed their own unique rituals around tea 日本人最终围绕茶制定了自己独特的礼节, 00:01:52.950 --> 00:01:56.149 leading to the creation of the japanese tea ceremony, 从而创立了日本茶道, 00:01:56.149 --> 00:01:59.119 and in the 14th century during the ming dynasty, 在明朝的14世纪, 00:01:59.119 --> 00:02:04.560 the chinese emperor shifted the standard from tea pressed into cakes to loose-leaf tea, 中国皇帝将标准从茶压成饼转变为活叶茶,

可以看到翻译质量有明显的提升,当然,这个方法也并非万能,但综合起来还是比“凑字数”方法好得多。