这是有时效性的文章,一些截图和示例和最新版本未必一致,但是所描述的优化原理没变。
在最新的版本中,此文章提及的“断句模式”设置选项已删除,以不同的工作模式代替:
众所周知,YouTube 有原生翻译功能,还有通过语音识别技术自动生成的字幕,简称“自动字幕”。
所以要实现双语字幕功能,通常的做法就是向 YouTube 请求两个字幕文件,原文和译文,两个文件的时间轴基本上是一一对应的,按照相同时间轴合并原文和译文就行了。
可能你听闻过 Google 的翻译技术有过重大突破,但如果你是 YouTube 重度用户,想必已经发现 YouTube 的翻译质量很多时候还是让人一言难尽。然而 YouTube 的翻译质量是有优化余地的,下面说明 Dualsub 的优化原理。
以这个茶的历史视频为例子,视频原声为英语,翻译到中文,分别优化人工字幕和自动字幕。
下面是 YouTube 翻译结果片段:
00:04:21.389 --> 00:04:25.699
Today, tea is the second most consumed beverage in the world after water,
今天,茶是仅次于水的世界上消费量第二大的饮料,
00:04:25.699 --> 00:04:27.449
and from sugary Turkish Rize tea,
还有含糖的土耳其里兹茶,
00:04:27.449 --> 00:04:29.440
to salty Tibetan butter tea,
咸西藏黄油茶
00:04:29.440 --> 00:04:32.410
there are almost as many ways of preparing the beverage
几乎有多种方法来准备饮料
00:04:32.410 --> 00:04:34.299
as there are cultures on the globe.
因为全球都有文化。
我们来评价一下这几条翻译:
如果你把原文粘贴到 https://translate.google.com/ 上翻译的话,你会得到一样的结果:
有意思的是,如果你把这几句话用空格拼成一行,翻译结果会变成:
翻译质量神奇地上升了一个档次,可以说和人类翻译差不多了。
想必你已经看到问题所在,YouTube 的翻译没有结合上下文,每条字幕对白独立翻译。
要提升翻译质量,翻译需要结合上下文,多条字幕对白需要同时翻译。
因此 Dualsub 引入一个设置选项“翻译模式”:
当你使用增强模式,翻译结果会变成:
00:04:21.389 --> 00:04:25.699
Today, tea is the second most consumed beverage in the world after water,
如今,茶已成为仅次于水的世界上消费量第二大的饮料,
00:04:25.699 --> 00:04:27.449
and from sugary Turkish Rize tea,
从含糖的土耳其里兹茶到咸味的西藏黄油茶,
00:04:27.449 --> 00:04:29.440
to salty Tibetan butter tea,
从含糖的土耳其里兹茶到咸味的西藏黄油茶,
00:04:29.440 --> 00:04:32.410
there are almost as many ways of preparing the beverage
制备饮料的方法几乎与全球文化一样多。
00:04:32.410 --> 00:04:34.299
as there are cultures on the globe.
制备饮料的方法几乎与全球文化一样多。
在此翻译模式下,译文未必和原文一一对应,一个译文可能对应多个原文,反之亦然,甚至会交换语序:
00:02:14.855 --> 00:02:17.806
This gave China a great deal of power and economic influence
随着饮茶在世界范围内的传播,
00:02:17.806 --> 00:02:20.585
as tea drinking spread around the world.
这给了中国很大的力量和经济影响力。
此外,有一些字幕是不适合使用增强模式的,比如歌词,因为歌词可能不是完整的一句话,甚至没有标点符号,并且刻意断句,所以使用增强模式未必能改进翻译质量。
“自动字幕”指在 YouTube 原生字幕菜单中带有“(自动生成)”后缀的字幕。
首先要说明一下两种时间轴格式。
一种是“基于句子”的格式,例如:
00:00:00.000 --> 00:00:03.000
aaa bbb ccc
另一种是“基于词汇”的格式,例如:
00:00:00.000 xxx
00:00:01.000 yyy
00:00:02.000 zzz
很明显,人工字幕是“基于句子”的,而自动字幕是“基于词汇”的,所以自动字幕对白的原生显示效果是“逐个词汇弹出”。
但是 YouTube 翻译后的自动字幕是“基于句子”的,下面是翻译结果片段:
00:01:42.640 --> 00:01:46.880
in the 9th century during the tang dynasty a japanese monk brought the
在9世纪唐朝期间,日本和尚带来了
00:01:46.880 --> 00:01:50.880
first tea plant to japan the japanese eventually developed their
日本最早的茶厂日本人最终发展了他们的
00:01:50.880 --> 00:01:54.880
own unique rituals around tea leading to the creation of the japanese
围绕茶的独特仪式导致日本人的创作
00:01:54.880 --> 00:01:58.240
tea ceremony and in the 14th century during the ming
茶道与明朝的14世纪
00:01:58.240 --> 00:02:01.840
dynasty the chinese emperor shifted the standard from tea
王朝将中国皇帝的标准从茶叶转移到了中国
可以推测 YouTube 翻译自动字幕的流程:
两个步骤都是简单粗暴的做法,所以造成翻译质量非常差。
翻译前需要“合并词汇为句子”,也就是“断句”,但是原始文本都是小写字母,也没有标点符号,给断句带来麻烦。
另一种方法是“根据停顿时间”,一个人说完一句话,通常都会停顿一会,再说下一句。
因此 Dualsub 引入一个设置选项“断句模式”:
当你使用增强模式断句,同时使用增强模式翻译,结果如下:
00:01:42.630 --> 00:01:45.520
in the 9th century during the tang dynasty,
在唐朝的9世纪,
00:01:45.520 --> 00:01:49.30
a japanese monk brought the first tea plant to japan,
一位日本僧侣将第一棵茶树带到了日本,
00:01:49.30 --> 00:01:52.950
the japanese eventually developed their own unique rituals around tea
日本人最终围绕茶制定了自己独特的礼节,
00:01:52.950 --> 00:01:56.149
leading to the creation of the japanese tea ceremony,
从而创立了日本茶道,
00:01:56.149 --> 00:01:59.119
and in the 14th century during the ming dynasty,
在明朝的14世纪,
00:01:59.119 --> 00:02:04.560
the chinese emperor shifted the standard from tea pressed into cakes to loose-leaf tea,
中国皇帝将标准从茶压成饼转变为活叶茶,
可以看到翻译质量有明显的提升,当然,这个方法也并非万能,但综合起来还是比“凑字数”方法好得多。