澳大利亚华人摄影家悉尼展示他们眼中的中国

中新网悉尼12月19日电 (樊南)澳大利亚华人摄影家眼中的中国是什么样的?一个大型摄影展《澳洲华人摄影家眼中的中国》,18日晚在悉尼中国文化中心开幕,通过摄影作品,展示在澳华人眼中不一样的中国风情。

Schwenk等人首先用CCMatrix对神经翻译系统(NMT)进行训练,然后在TED数据集上进行测试,结果如下:

来宾观看作品。樊南 摄

来宾观看作品。樊南 摄

据雷锋网AI科技评论了解,最近Facebook基于新的方法和数据源,开发并开源了一个目前为止最大的并行语料数据集 CCMatrix。这个数据集包含 45 亿并行语料(是WikiMatrix的近50倍),覆盖576种语言对。

然后通过预处理去除高达70%的重复数据(例如模板文件、导航菜单、cookie等),并使用fastText(语言识别器,可以识别176种语言)来识别文档中的语言,最后使用一个在Wikipedia上训练的模型来过滤掉低质量的内容,只保留较低困惑度的文档。如此处理获得一个包含有327亿个句子的CCNet数据集。

在这项工作中,使用的挖掘方法的底层思想是,首先学习一种多语言的语义嵌入,即在一个嵌入空间中语义上相似的句子会有较近的距离,而与它们所使用的语言无关。这意味着空间中的距离可以作为两个句子是否是相互翻译的指标。

来宾观看作品。樊南 摄

悉尼中国文化中心兼驻悉尼旅游办事处主任肖夏勇说,3位摄影家成长于中国又移居澳大利亚,独特的生活经历使他们一直身体力行地用摄影实践探讨中西文化融合之道。希望通过这次摄影展,能向更多的澳大利亚人介绍中国文化,感知中国,增进友谊。

为了解决这一问题,在去年七月份,Facebook曾发布了第一个系统处理Wikipedia上所有语言(包括资源贫乏的语言和方言)的数据集WikiMatrix,大约包含了亿级的并行语料,覆盖1620种语言对。

 首先,从语料来源上讲。目前有几个公共的多语言并行语料库,主要来自一些国际会议(如European Parliament 、the United Nations)的语料,这些都是专业的人工翻译语料,使用语言较为正式,且仅限于政治主题。此外也有几个依靠志愿者翻译而形成的语料库,例如news commentary 、Opensub- Titles 、the TED corpus等。2019年Facebook的Schwenk等人曾利用Wikipedia中的语料进行挖掘,从而开发了WikiMatrix数据集。

澳大利亚联邦前贸易和投资部长安德鲁·罗布在致辞中提到,澳中文化交流对两国经贸关系的促进具有重要意义。两国合作发展需要理解与尊重,文化交流起到了积极的促进作用。

用于大规模训练多语言句嵌入的框架

由于规模庞大且使用了大量公共文本,或许CCMatrix将成为NMT领域中用于构建和评估系统的最常用资源之一。

3位摄影家向主要嘉宾赠送作品。樊南 摄

以上这些,从数据来源上讲都有局限。为了使并行语料库量大、覆盖主题广泛,Facebook在CCMatrix这项工作中,选择使用了随机抓取web中的数据作为并行语料的来源,他们每个月随机发送url,从而获得包含各种语言的网页快照(TB级)。  

当然,Facebook在构建CCMatrix过程中所提出的数据集构建方法更值得推广,或许能够帮助更多人来创建大规模数据集。

展览由由悉尼中国文化中心主办,展示姜长庚、张光启和徐一平3位华人摄影师的45幅摄影作品。

CCMatrix:每种语言对的并行语料数量(单位:百万),Margin阈值为1.06。举例来说,希腊语/汉语对的语料数量为470万。 

 在超过320亿个句子中挖掘平行语料,计算上是非常昂贵的。在当前版本的CCMatrix语料库中,作者限制为38种语言。 

中国驻悉尼总领事顾小杰在致辞中说,就任3年多来,一直都能看到姜长庚不断创作新的摄影作品。摄影是跨越文化、跨越语言的一门艺术。这些作品是对中澳民众之间友好交流的艺术记录,见证中澳友谊的发展。3位旅居悉尼的专业摄影师,用他们手中的照相机记录了中国大地万千变化。每一张,都是海外游子心灵的折射。

 CCMatrix使NMT研究社区能够利用比以前仅几十种语言对更大的双语料数据集。这可以加速创建更有效的NMT模型,这些模型可以使用更多的语言,尤其是语料库相对有限的资源较少的模型。

当然,在TED上的SOTA远比这些高;但需要注意,这里测试所用的NMT系统没有使用Transformer框架等最新技术。

CCMatrix:这里给出了单语文本的数量和提取的平行句子的数量(单位:百万),margin阈值为1.06,以及在TED测试中的BLEU分数。(编者注:这是11月份数据,当时数据集规模为35亿并行语料,下同) 

这里只选择了其中的27种语言。以上所有BLEU值的平均值为14.3,英语对的平均BLEU值为26.7,最高的BLEU值为42.9。

为了评估这个数据集的质量,Schwenk等人还利用这个数据集进行了神经机器翻译系统的测试,并与几个公共测试集进行了对比。

近百名各界嘉宾和摄影爱好者出席了开幕仪式。现场观众反响强烈。一位来自瑞士的摄影爱好者说,她从照片中感受到了中西文化交融,照片中动静结合令人十分着迷。(完)

利用CCMatrix在亚洲翻译研讨会的俄语/日语翻译任务上进行的测试如上图所示。这里所使用的模型与前面一样,没有Transformer,没有layer dropout。尽管相比SOTA略差,但仍然在同一层次。 

十次快照语料中,不同语言的单句数量(其中一次快照只包含英语)

不过由于余弦距离的绝对阈值在全局上并不一致,所以Schwenk在这里所采用的是Margin criterion: 

1、在TED数据集上进行测试

雷锋网原创文章,。详情见转载须知。

Back To Top