杨明星等:“互联网+”背景下多模态、多语种 外交话语平行语料库设计与创建探析

作者: 时间:2019-03-28 点击数:

本文由杨明星、吴丽华、牛桂玲、闫达撰写,发表在《外语教学》(CSSCI)2018年11月第6期,以下为正文:



摘要:交语料库研究与建设在我国尚属空白领域,明显落后于西方发达国家,难以满足中国大国外交战略需求。在全球化时代和互联网背景下,建设多模态、多语种外交话语平行语料库,不仅是我国实施大国外交的当务之急,也是外交话语翻译与传播工作的必然要求。基于已建成的小型外交话语汉英平行语料库以及外交话语和外交翻译的特殊性,本文探讨了外交语料库建设的意义、原则、策略和架构,研制了外交语料的采集、分类、数字化加工、存储和在线检索等技术处理路径和流程。论文还重点论述了外交术语库的数据结构和生成机制,优化和升级了外交机辅翻译模型。笔者提出,在外交语料库设计和研制过程中应考虑遵循政策性(即“政治等效”)、专业性、动态性、兼容性、安全性五大原则。外交语料库的开发研制前景广阔,对中国特色大国外交的话语构建、翻译与传播无疑具有重要推动作用。

关键词:外交话语;外交语料库;多模态、多语种;“政治等效”



近年来,全球化的迅猛发展和中国的改革开放给外交翻译工作带来了新机遇,也提出了巨大挑战。单靠传统的人工翻译,难以适应网络时代下现代信息技术和外交翻译的需要。平行语料库建设不仅是提高人工翻译质量和效率的重要手段,也是机辅(器)翻译的核心技术。我国应积极借鉴联合国或欧盟、美国、日本等西方发达国家的先进经验,加快引入多模态(multimodality)、多语种的文本处理技术和机辅翻译技术,尽快启动多模态、多语种外交翻译语料库建设,开辟提高外交翻译质量与效率的新路径。目前我国在多模态、多语种外交翻译平行语料库建设方面尚属空白领域,发展明显滞后。在大数据时代下,建设外交平行语料库迫在眉睫,是对外话语体系建设和外交翻译工作的当务之急和必然趋势。

1. 国内外外交话语平行语料库研制动态及评估

在语料库技术和机辅(器)翻译系统研制方面,联合国和西方发达国家_直处在领先水平和前沿阵地,最早尝试将之应用到外事外交领域。1998年,联合国第53届会议做出开发语料库和机辅翻译技术的决定,宣称“应继续努力酌情采用新技术,如机器辅助翻译和共同的词汇数据库,同时确保这样做不会不利地影响到文件和翻译的质量”;“计算机辅助翻译系统应与联合国使用的现有计算机平台兼容,这些系统应可以根据语音识别和远程存取等未来的技术发展而更新换代”(《联合国决议》,1998-12-18)。2000年,联合国第55届会议通过了“口笔译有关事项”决议“再次提请(联合国)秘书长继续努力采用新技术,例如六种正式语言的计算机辅助翻译、远距离笔译、词汇数据库以及语音识别,以便进一步提高会议事务的生产力”(《联合国决议》,2000-12-23)。2015年,联合国秘书长潘基文在联合国工作会议上肯定了联合国在语言服务系统方面所取得的成绩,宣称“(联合国)为会议所提供的语言服务已在很多方面更为现代化,特别是具有全球性功能(global)的联合国机辅翻译和机器翻译平台”(Ban Kimoon2015:28)。

此外,联合国还将语料库和机器翻译技术研发列为维护全球语言多样性的重要举措,开发建设了一系列大型多语在线语料库、数据库和术语库。“(联合国)创立语料库,既是表明联合国对多种语文并用的承诺,也是因为统计机器翻译在大会部各笔译处和联合国统计机器翻译系统(Tapta4UN)中的作用越来越大”;联合国新开发的平行语料库(UNPC1.0版)系统全面,语料涵盖25年来(1990—2014)公开发布的联合国正式记录和其他会议文件,由人工翻译、句级对齐的阿、英、西、法、俄、中六种官方文本构成,共有15个语言对(详见联合国平行语料库网站http://conferences.unite.un.org/UNCorpus/)。联合国语料库专家麦克·吉姆斯克(Michai Ziemski)宣称“为了推动统计机器翻译技术的开发和应用,联合国正努力采用可再利用的格式,如句级对齐,为公众提供一个更加完整的平行文献语料库”(Ziemskietal.2016:1-5)。联合国还同时成功创建了在线术语库(UNTERM),以六大工作语言不断储存联合国的词条、缩写和技术性名词。该技术荣获联合国UN21创造奖(参见联合国术语库网站http://un-term.un.org/)。

欧盟也大力推行机器翻译技术和语料库建设。著名语料库研究机构“跨欧洲语言资源基础建设学会(TEL-RI)”和“欧洲语言资源学会(ELRA)”重点推行外交、政府文献(特别是有关欧共体/欧盟等机构的文件)领域多种语平行语料库建设。如欧洲议会平行语料库(EPPPC),涵盖11种欧盟语言;欧洲议会口译语料库(EPIC),涉及英意西三种语言;欧洲语言资源协会资助开发的MUL-TEXT多语种语料库,其语料均采样于欧洲委员会官方杂志JOC的五种语言文档;欧盟资助的多语种语料库合作项目(MLCC)创建了涉及九种语言的平行语料库(王克非、熊文新2009:3-9)。

美国最早研发外事语料库和机辅翻译系统是出于全球军事目的的考虑,其在韩国、索马里、海地、沙特、马其顿和波斯尼亚的军事部署是研发机器翻译系统的催化剂。20世纪70年代以来,军方陆续研发应用一系列满足海外驻军需求的机器辅助翻译系统,主要有“塞尔维亚-克罗地亚语语音识别系统”(SCSR)、“公共联盟语言系统”(CCLINC)、“英韩机器辅助翻译系统”(TEKMAT)和“前沿阵地语言转换系统”(FALCON)。美国国务院下属机构国际信息局(IIP),是美国负责向国际公众传播美国对外政策信息的专门机构,为美国140多个驻外使领馆的信息传播工作提供强大数据支撑。该局秉承战略、数据驱动理念,重点开发多媒体和数字传播产品,并开办海外真实网络“美国空间”(AmericanSpaces),创建了个庞大的、多语种、多模态在线外交数据库。其官网语料涵盖英、中、阿、法、俄和西六种文本,可以在线检索和查询大量美国外交文本、声像和图片信息(参见美国国务院国际信息局网站http://iipdigital.usembassy.gov)。此外,美国宾夕法尼亚州立大学创建的“语言数据联盟”(LDC),于2004年发行了香港平行文本库。该库由香港议会平行语料库、香港法律平行语料库和香港新闻平行语料库等3个子语料库组成,语料涉及政治、经济、外交、法律等多方面(王克非2012:24)。受美国科学基金会等机构资助创建的美国国家语料库(ANC)是目前规模最大的美国英语语料库,收录了1990年以来各种口语、书面文字记录,包括美国官方发布的“)•11事件”调查报告等部分外交语料(参见美国国家语料库网站http://www.anc.org/)。

日本比较著名的RWC日语语料库也涉及外交语料,它是由日本新情报处理开发机构(EWCP)推出的已赋码语料库,收录了《日本的通商白皮书》等语料,语素标注量达1亿条(毛文伟2009:14-19)。

就国内外交语料库建设而言,虽远落后于发达国家,但也取得了一定成效。2017年9月,郑州大学中国外交话语研究中心成功创建了国内首个在线外交语料库——中国外交话语汉英平行语料库。该库系外交领域里一个初级、小型、专业性语料库,内含中国外交术语库。

近年来,国内在线政治话语数据平台建设发展迅速,代表性的有以下几家:一是中国特色话语对外翻译标准化术语库。它是2017年由中国外文局和中国翻译研究院建设的首个国家级多语种权威专业术语库,是服务国家对外话语体系建设和文化交流的基础性工程。该平台以习近平新时代中国特色社会主义思想术语和中国特色文化术语为主要内容,确立国家主导的中国特色话语外译标准,提供十种语言的术语对译查询服务(参见中国特色话语对外翻译标准化术语库网站http://210.72.20.108/index/index.jsp)。该标准化术语库为外交语料库的建设和外交核心术语的翻译提供了良好的数据支撑。二是“中国关键词——权威解读当代中国”多语在线平台。2014年由中国外文局、中国翻译研究院等部门联合创办,被列为国家重点建设项目,语料涉及十四个专题。平台对中国核心词句进行权威解读和翻译,以十个语种在线同步对全球发布(参见“中国关键词”多语在线平台网站)。该库虽涉及到外交术语,但数量十分有限,不能满足现有外交翻译的需要。三是中华思想文化多语在线术语库。2013年经国务院批准,教育部、国家语委牵头设立,以部际联席会议的形式,统筹协调中华思想文化核心术语的对外翻译与传播工作。该工程具体由北京外国语大学外语教学与研究出版社承办。四是中央文献重要术语译文在线索引库。该多语种搜索平台2016年由中央编译局中央文献重要术语译文审定委员会和光明网联合创建,定期对外发布中央文献中重要新概念的标准译文。

上述四个术语库虽不是真正意义上的语料库或专业性的外交术语库,但也涉及到不少外交术语。与发达国家相比,虽然我国政治术语库建设取得了长足发展,但外交话语平行语料库的建设却严重滞后。

2. 创建外交话语平行语料库的科学意义和时代价值

创建外交语料库具有突出的学术价值,具体表现在以下几个方面是跨学科、超学科的学术价值和研究视野。外交语料库的设计和研制将涵盖外交学、国际关系学、国际传播学、跨文化交际学、外交语言学、计算语言学、语料库语言学、翻译学、机器翻译、人工智能、词典编辑学等多个学科领域。不仅可以推动各学科之间的高度融合和交叉发展,而且可以大大拓展各学科自身的研究空间和学术视野,对学科建设具有示范引领作用。二是外交语料库建设是外交机辅翻译的核心技术和关键环节(杨明星、闫达2013:33-37)。平行语料库的建设旨在提供多语种的对齐语言资源,主要用于机器翻译系统在语言识别、术语提取、句级对齐等方面的自然语言处理。欧盟采用的统计机器翻译技术就是建立在海量平行语料库基础之上。正如欧赫所言“只要给我足够的双语对应数据,数小时之内我就可以给你建一个机器翻译系统”(Och& Ney2002:295-302)。三是外交语料库的创建将弥补国内语料库建设的不足和空缺,有力推动外交工作信息化建设。

创建外交语料库的现实意义不言而喻。首先,有利于大幅度提高外交翻译的质量与效率。在现代信息技术条件下,无论是人工翻译,还是机辅翻译,都离不开语料库。大型外交话语资源建设不仅可以规范外交翻译工作,还会为外交翻译质量与效率的提升带来新突破。其次,有利于外交政策的数据分析和中国特色大国外交话语传播体系建设。在线外交语料库和术语库的建成对文献保存、信息查询、学术研究、政策咨询、舆情监测和对外宣传,对讲好中国故事、消除“中国威胁论”具有重要的现实意义。语料库技术是监督境外外交舆情和评估国际形势的重要手段。最后,外交语料库是培养高层次外交人才的宝贵资源和重要平台。一个权威的外交语料库对翻译教学与实践也起着重要推进作用,可为翻译教学提供数据驱动型教学模式(DDL)(Johns& King1991:iv)。外交语言内涵深刻、外延广泛,具有较强的动态性和时效性,而外交语料库恰恰可为翻译教学提供海量的真实语料和教学资源。

3. 多模态、多语种外交话语平行语料库创建的原则与路径

3.1外交话语平行语料库创建的原则

外交平行语料库的建设是为外交工作、翻译实践和翻译教学服务的,在设计和研制过程中应考虑遵循以下五原则,即政策性(即‘‘政治等效”、专业性、动态性、兼容性、安全性原则。

3.1.1政策性原则

即“政治等效”原则。外交语料的政治敏感性比较强,对各种语种的文本一定要严把政治关和政策关。外交翻译由于其本身特殊的使命和角色,不允许出现质量低、错误多的译文,不仅要实现语言风格上的对等,更要达到把原文的精神内涵传达给译文读者的终极目标,即“政治等效”(YangMingxing2012:5-11)。因此,在进行语料采集过程中,必须加强对语料的“政审”工作(杨明星、闫达2013:39)。如将中国外交术语“韬光养晦”译成英语,系统会搜索所有与之相关的词组,有多种译文可供选择,如“hide our capacity and bide our timeconcealing his true intentionhide its ambitions and disguise its clawskeep/maintain a low profile”等等,其中hide our capacity and bide our time出现频率比较高。之后经过译员的介入和政审,发现该译文虽被美方频繁使用、符合英文表达习惯,但并不符合中方的政治意图。于是经过人工干预,将“韬光养晦”的译文确立为keep/maintain a low profile,并当作新语料再次输入到原有语料库中作为优先选项。

同时,应忠实地保持原语料中的元数据信息,包括标题、时间、地点、出版单位、出版时间、发布人、发布日期等。对政治敏感性较强的语料(包括口语化语料),包括关键术语、专有名词、重要概念、声明等,在确保“政治正确”和“政治等效”的前提下,严格甄别和挑选对应的翻译文本。

3.1.2专业性原则

本文创建的语料库属于专用于外交工作的多模态、多语种平行语料库,集文本的共时性和历时性于一体。其目的除了面向外交机辅翻译外,也应考虑便于外交人工翻译、国际关系学和语言学研究。同时,应注重篇头信息的设计和语料的加工,以便后期进行在线深度检索。

鉴于外交语言的特殊性,笔者在《现代信息技术条件下外交语言机辅翻译模型初探》一文中提到,在构建新型外交平行语料库过程中,可以尝试在标记语料元信息过程中引入外交参数,即对于不同的外交语料(即不同的外交语言表达)赋予不同的外交语言含义参数,从而达到提高语料专业适用性的目的(杨明星、闫达2013:33-37)。对于多语语料的对齐、标注和检索问题要纳入考核标准,同时应考虑后期研究中的语言对比、文本风格、语言习惯、句法模式、标点符号的使用特征等问题。总之,要建设具有专门用途的专业性外交语料库。

在语料库研制和语料选取上应注重外交术语的专业性表达和翻译,特别是所采集的语言数据是否真正代表了外交语言的文体特征,即语料样本的代表性。里奇曾指出,一个语料库是否具有代表性,是指在该语料库上获得的分析结果可以概括成为这种语言整体或其指定部分的特性(Leech 1992:104-122)。有关军事外交语料的采集,可在中国外交部每年发布的《中国外交》白皮书(中英版本)“军控、裁军与防扩散工作”主题中选取。如某一个年度的双语对齐样本不足以代表这一主题,此类样本连续选取5至10年,就可以组成一个具有特定语言特性的军事外交语料子库。

3.1.3动态性原则

在网络时代下,国际形势风云变幻,国际关系日新月异,外交新理论、新概念层出不穷,这使得外交语料库的建设必须注重时效性,做到与时俱进。语料的更新、扩展、补充,以及后续新语料的深加工及标注就显得至关重要。同时,在规划和创建外交话语平行语料库过程中应首先考虑其可持续性,即提高其永久使用价值,外交语料库建成后,应随着外交文本的变化而不断增容和变化,并进行定期管理与维护。

3.1.4兼容性原则

这是由外交语言的庞杂性和复杂性所决定的。外交翻译不仅涉及外交语言和术语的翻译,还涉及到其他领域的翻译,如经济、军事等专业。外交语料库应加强与其他部门专业语料库资源的互通共享,充分发挥非外交语料库的作用。“虽然国内每年都有许多语料库建设项目得到国家或省部级的资助,但建成的语料库大多仅供内部使用,有些项目建而不研,有的建成后束之高阁。其结果是语料库资源利用率不高,从而引起重复投资和浪费”(肖忠华:2015:1-14)。应积极借鉴西方发达国家的成功做法,强化语言大数据的互联互通“美国提出了科学数据‘完全与开放’的共享国策。欧盟把信息数据的传播与共享活动提高到一个非常重要的地位,认为信息数据的传播与共享是信息社会的基础,关系到维护公民获得信息和知识的权利”(刘可静:2006:1-6)。增强外交语料库的兼容性还要竭力提升其开放度和共享度。

3.1.5安全性原则

这是由外交翻译的政治敏感性和保密性所决定的。在信息安全饱受挑战的时代,语料库中有的部门数据可能涉及国家政治和军事保密,需要设计人员充分考虑信息安全性和内容保密性。因此,在开发和研制相应软件系统中需提高安全等级。同时,在筛选和录入语料信息过程中应加强人工干预,对录入内容进行审核,保证信息的安全性。

3.2外交话语平行语料库语料的构成与分类

根据中国外交工作实际,外交语料库可由十个子语料库(sub-corpus)组成。具体为:领导人外交话语子库(国家领导人外交著述、外交演讲、外交部领导外交演讲,如习近平的外交话语语料子库)、外交部长外交话语子库、外交新闻发布子库(两会新闻发言人表态、国务院新闻办发言人表态、外交部吹风会、外交部新闻发言人表态)、外交白皮书子库(中国对外援助、对外贸易、军事、和平发展、民族宗教、人权、妇女等问题)、外交文书子库(外交照会、声明、公报、条约,中国外交年鉴)、多边外交子库(联合国及国际组织、地区组织)、国别外交子库(亚洲国家、非洲国家、欧洲国家、美洲国家、大洋洲国家)、外交专题子库(涉及台湾、西藏、新疆、香港、钓鱼岛、人权、气候、朝核、伊核、军控等问题)、驻外使领馆子库(中国驻国外、境外有关地区、国家和国际组织的外交机构)、公共外交话语子库。初期库容暂定为5000万字/词(中文部分按字,英语部分按词)。有的子库下还会有专题子库,请参考图1外交话语平行语料库。

图1.外交话语平行语料库

3.3外交话语平行语料库语料的来源与采集

作为多模态的外交语料库,其语料采集应选自国家权威出版物或官方网站的文本及其配图和视频、音频资源。如中国外交部及下属机构的多语种网站,外交部出版发行的中英文《中国外交》(Chinas Foreign Affairs)年鉴,中国政府定期发布的多语种外交白皮书,以及联合国的多语种网站。在采集美国等西方发达国家的语料时,要注意甄别,防止出现政治错误。为确保取样的代表性和权威性,抽样时可参考分层选样(stratified sampling)的方法,在汉语语料中确认图1中8类不同的文本领域后,在每一类文本中采用随机抽取的方法取得样本。

3.4外交话语平行语料库语料录入、校对和加工存储

3.4.1语料录入

外交语料库的语料来源可分为五种形式:纸质文本、电子文本、网页、一些外交发布会等现场的字幕文件以及国家领导人和外交部发言人的音、视频。针对不同的形式可选择制作电子文本或利用已有的电子文本。制作电子文本的主要方式为人工键盘输入、光电扫描输入(OCR技术)及手写笔输入,音频语料和静、动态图像等语料则采用ELAN等多模态语料处理软件进行特殊的集成处理(转写、切分、标注等)。

3.4.2语料校对

由于外交语料的特殊性,在语料录入完毕后应及时进行“自动校对+人工校对”,严防政治性错误。校对人员对敏感性较强的术语或表述,应认真核对、严格把关。在国际关系方面,要注意国际形势、政治格局的变化,如所引语料已经过时,应根据国际惯例和对外政策对有关语料进行及时调整、更新或删除,否则容易酿成外交事故。如2005年以后中国政府的文本不再公开将锡金作为独立国家提及。外交场合不得使用“北朝鲜(西方国家表述为NorthKorea)”来称呼“朝鲜民主主义人民共和国”,汉语可简称“朝鲜”。英文应使用“the Democratic PeoplesRepublic of Korea”或其缩写“DPRK”。在涉及我领土、主权地名称呼时,译文要规范、恰当。如果港、澳、台一定要与国家一起表述,必须标明“中国台湾”“中国香港”。

为提高效率,本语料库的校对环节应是人工校对和自动校对并重。自动校对建议使用黑马自动校对软件,可精确校对领导人姓名职务、领导人排序、政治性问题、各语种拼写、标点、数字、重句、异形词等各种类型的错误。

3.4.3语料加工及存储

语料校对完毕之后,得到的是生文本语料,只有对其进行加工后才可为语料库的各种目的服务。对于篇头元信息的设计可按照语料的来源、发布年份、类别、题材等设计多维元信息标签,拟涉及如下主要信息:语料库各模态分类、各语种名称、语言、所采集文本的发布年份、语体(书面或口语)、文本所属类别、翻译方向、原始文本标题、发布方、责任方(数据采样人等信息)等。多语语料可归为图1中的8类文本。对语料实行分词(中文)和自动词性标注,根据研究需要可尝试对语料实施术语及句型自动标注。音频语料和静、动态图像等多模态语料则根据研究目的采用已有或开发特殊的工具进行标注。

在存储方面,为便于以后快速检索,应将元信息与文本分别独立保存。此外,为了让语料库直接为外交机辅翻译系统使用,系统可将析出语料保存为tmx等格式,以建立大规模机器翻译记忆库。

3.4.4语料对齐处理

为了便于观察中文和其它语种外交话语各自的语言差异,平行语料库建设过程中不同语种之间的句级对齐是必须做到的一步,同时辅以句对级属性标注,并将所有语料和标注属性信息都以计算机可识别的语言进行储存,以便更好地利用数据库系统对语料和标注信息进行更为全面的网上管理、检索和不断更新(牛桂玲2013:34)。

3.4.5多语种语料加工

目前国内外中英文双语平行语料库的建设技术较为成熟,而多语平行语料库建设则相对滞后。其原因一方面是受语料库加工工具和检索软件的制约,因为大部分的工具和软件只兼容英语文本或汉语文本;另_方面是缺乏通晓多语种的研究人员,同时,多语种外交平行语料库的建设还需要具有外交知识的专业人才。因此,在数据库建设前期阶段,工作重点是研制汉英双语外交平行语料库的建设;待等汉英语料库编制经验成熟,再将之作为范例推广到多语种外交话语平行数据库的建设和应用研究。

3.4.6多模态语料加工

近几年来,多模态(Multimodality)成为翻译研究的一个热点话题,它大大改变了人们对统翻译活动的认知,也开辟了译学研究的新视野、新领域。目前,多模态翻译研究多集中在翻译教学和影视翻译领域,专题研究多模态外交话语语料库的成果严重不足。多模态语料库指把文字、音频和静、动态图像等多符号语料进行集成处理,或“经过标注的不同交际渠道(包括话语、目光、手势、身势语等)同步内容的集合等,用户可以通过多模态方式进行检索、统计等操作的语料库(Kress& vanLeeuwen 1996:183)。音频语料和静、动态图像等多模态语料的加工,则根据研究目的采用已有的(如,ELAN)或自主开发新的加工工具进行处理和标注。

3.5外交话语平行语料库的检索及维护管理

外交语料库的在线检索平台应实现单机平台相似的功能,同时实现翻译辅助功能。可结合语料库检索软件Wordsmith ToolsTACTParaconcMulticoncord,翻译记忆交换文件(tmx)生成和解析系统以及ELAN多模态检索软件。前者实现深度检索功能,如词表生成、词频统计、语篇统计、关键词索引、排序、搭配词统计等等,后者用于自动生成和解析翻译记忆交换文件。简言之,该平台既可将语料库纳入整个机辅翻译模型的生态系统中,无论是载入使用、还是翻译介入、以及后期的数据库优化修改,语料库中生成的翻译记忆库都得到了应用。该平台还可进行全文索引、语境中的关键词索引、搭配词自动提取、语料比较等多项复杂检索。

语料库一旦建成后,需要对语料库进行日常的管理、维护和升级。管理的主要内容包括:保证友好的用户界面和程序的完备性;保证数据的安全性;保证检索速度。维护的主要内容包括修改语料库的平衡比例、更新语料,对语料库进行新的标注、测试、备份等。

3.6外交话语平行语料库的术语库生成

3.6.1外交话语平行语料库的术语库自动生成

外交术语是外交翻译的关键和难点,关系着术语_致性和译文质量,在外交语料库建设中享有重要地位。在外交语料库的研制阶段,应将术语库的自动生成作为主要技术目标之一。一方面可借鉴Trados、雅信等CAT机辅翻译软件或在线辅助翻译系统MemoQ的术语库创建和生成步骤,将对齐后的平行文本导入数据库,可自动生成基本的术语词表,经过人工甄别和处理,可制成外交术语库。另一方面,利用先进的自然语言处理和语料库技术,对外交术语进行自动抽取。但无论采用何种方法,人工干预必不可少。

3.6.2外交机辅翻译模型下的外交术语库构建

笔者之前提出的“外交机辅翻译模型”中,曾在翻译模块内设置了两个语料库:双语语料库和外交语料库(杨明星、闫达2013:33-41)。但这一模型还不够全面,没有考虑外交术语的特殊性,即术语语言表达的规律性、内涵丰富性,以及在语料中的高频重复出现和核心作用,有必要对模型进行优化和升级。如能在机辅翻译系统中加挂一个外交术语库(Diplomatic Terminology Corpus,如图2所示),势必可以提高翻译的精度和质量,增强译文一致性,减少术语误译现象。这样,完善修改后的翻译系统具备了通用语料库、外交语言专业语料库、外交术语库和外交术语词块库四个完整的语言数据库,然后通过先进的机器学习技术,将人工智能的优势充分应用到外交话语自动翻译,将大大提高外交机辅翻译的性能。借助翻译过程中人工的参与,在机器介入进行匹配翻译之后,再重点对外交术语进行译名统一和规范化翻译。同时,当翻译活动完成之后,新术语被扩充到术语库中,并反馈到语料库中。这样,新增的外交术语库在整个机辅翻译生态系统中得到有效利用。



图2.优化后的外交机辅翻译模型

外交术语库的构建过程需要追求最大限度的统一化和标准化。统一是对术语库内部而言,内部的每一条词汇、每一项解释,都应该符合统一的表达方式和语言要求。这对于维持外交术语库内部的条理清晰和表述精准具有重大的意义。坚持这条原则,外交术语库的管理工作就能保持高效率和高质量。本文结合外交语料库和外交翻译的特点,提出创建外交术语库的方法和路径。下面试

处五项原则”汉英翻译为例(见表1),探讨外交术语库的创建工作。

表1.外交术语库基本数据

序号

字段

字段数据要求

1.术语编号

00001

必选字段,为便于检索,须统一编号。

2.术语名称(源语)

和平共处五项原则

必选字段

3.术语定义(源语)

互相尊重主权和领土完整、互不侵犯、互不干涉内政、平等互利、和平共处五项原则。

必选字段,涉及术语的完整含义。

4.术语名称(目的语)

The Five Principles o fPeaceful Coexistence

必选字段

5.术语定义(目的语)

Mutual respect for sovereignty and territorial integrity, mutual non-aggression, non-interference in each others internal affairs, equality and mutual benefit, and peaceful coexistence.

必选字段

6.术语注释(源语)

1954年,由中国、印度、缅甸共同倡导。这是国际关系史上的重大创举,为推动建立公正合理的新型国际关系作出了历史性贡献。它生动反映了联合国宪章宗旨和原则,并赋予这些宗旨和原则以可见、可行、可依循的内涵。60年来,历经国际风云变幻的考验,和平共处五项原则作为一个开放包容的国际法原则,集中体现了主权、正义、民主、法治的价值观。  

可选字段,涉及术语的背景知识。

7.术语注释(目的语)

In 1954,China,India and Myanmar jointly proposed the Five Principles of Peaceful Coexistence. This was a major initiative in the history of international relations and a historic contribution to the building of a new type of just and equitable international relations. It gives concrete expression to the purposes and principles of the UN Charter and facilitate their implementation.Having been tested by the evolution of international relations in the past six decades, the Five Principles of Peaceful Coexistence, as open and inclusive principles of international law,embody the values of sovereignty,justice,democracy and rule of law.

可选字段


注:表1的英文译文均选自“中国关键词”多语平台“和平共处五项原则”词条(
http://china.org.cn/chinese/china_key_words/20144118/content_37472585.htm)。


4. 结语及决策建议

外交语料库建设是一个具有科学价值和实践意义的重要议题。随着信息技术的迅猛发展和中国的改革开放,多模态集成技术、汉英之外的其它语种处理技术、大型数据库和机器翻译技术的日趋普及和成熟,语料库将被更多地运用到外交工作中来,必将成为外交话语翻译和传播的重要工具,对提高翻译质量和效率具有重要意义。外交工作的信息化建设是时代的潮流、历史的必然,外交语料库的建设迫在眉睫,刻不容缓。

我们应积极借鉴联合国、欧美国家的成功做法,加快推动中国外交语料库建设,将之列入国家大数据创建工作的重要议事日程。具体建议为:

首先,应尽快成立由外交部牵头,其他部委、新闻媒体、科研院所和外国专家参加的“中国外交语料库建设委员会”形成部际协作、联合攻关常态化机制,全力推动外交术语库或外交语料库建设,以满足国内外广大读者的查阅需要,更好地服务于新时代的大国外交工作。在外交语料库设计和研制过程中应考虑遵循政策性(即“政治等效”)、专业性、动态性、兼容性、安全性五大原则。

其次,应加强各个部门、各专业之间的沟通和合作。建设一个外交语料库涉及多个学科的专业知识和技术。学科之间的通力合作不仅能拓宽研究思路、提高研究质量,同时也是满足国家创建大数据所必需的。

同时,应加强外交语料库与国内其他专业语料库的互联互通和资源共享。创建1个好的语料库,周期长、耗时长,需要投入大量人力、物力、财力。要节约开支、提高效率,就要避免浪费和重复建设,消除壁垒意识,互通有无,实现数据共享。

最后,应加强多语种、多模态语料库的技术攻关和软件开发,拓展外交话语的研究空间。外交话语研究不应局限于单一的文本单模态和汉英两种语言,全方位深化中国特色外交话语翻译研究,实现大数据与中国大国外交新时代的深度融合。目前,欧美发达国家正在强力推进多模态、多语种外交语料库建设,即除了创建传统的文字数据外,还要创建有声数据库、图像数据库,外交语料库呈多元化发展。

总之,建立一个结构合理、设计科学的大型外交话语平行语料库,对中国特色大国外交话语体系建设意义重大。作为国家大数据的重要组成部分,外交语料库不仅可以为国家对外政策提供数据分析,发挥说明中国、沟通世界的作用,而且还是开展科学研究、学科建设和人才培养的重要平台。

*杭州师范大学特聘教授冯志伟先生对本文进行了精心指导,谨致谢忱。



参考文献

[1] DGACM,United Nations,United Nations Parallel Corpus,http://conferences.unite,un.org/UNCorpus/

[2] Och,J. & H.Ney. Discriminative training and maximum entropy models for statistical machine translation [A]. In Proceedings of ACL[C].-02,2002:295-302.

[3] Johns,T. & P. King. Classroom concordancing[J].ELRJournal,1991⑷:iv.

[4] Ban,Ki-moon.Report of the Secretary-General on the Work of the Organization [M].New York: United Nations,2015.

[5] Kress,G. & van Leeuwen, T.Reading ImageThe Grammar of Visual Design [M]. London/New York:Routledge,1996.

[6] Leech,G. Corpora and theories of linguistic performance[A].InJ.Svartvik(ed.).Directions in Corpus LinguisticsProceedings of the Nobel Symposium 82Stockholm, 4-8 August 1991 [C].BerlinMouton de Gruyter,1992:104-422.

[7] McEnery,T. & Xiao, Z. Parallel and comparable corpora: What is happening? [A]. InM. Rogers & G.Anderman(eds.). Incorporating Corpora.The Linguist and the Translator [C].ClevedonMultilingual Matters,2007:18-31.

[8] Yang,Mingxing.The principles and tactics on diplomatic translationA Chinese perspective [J]. Babel:International Journal of Translation, 2012(1): 541.

[9] Yang,Mingxing. & Yan Da. The translation strategies for Chinese diplomatic neologisms from the perspective of Political Equivalence”[J].BabelInternational Journal of Translation, 2016(4):661-675.

[10] Ziemski,M., Junczys-Dowmunt, M. ,and B.Pouliquen. The United Nations Parallel Corpus,Language Resources and Evaluation (LREC’16), Portoroz, Slovenia, May 2016:1-5.

[11] 联合国第53届会议决议, A/RES/53/208,1998年12月18日.http://www.un.org/chinese/aboutun/prinorgs/ga/ares/53/a53r208.htm

[12] 联合国第55届会议决议, 55/222, 2000年12月23日.http://www.un.org/chinese/ga/55/res/a55r222.htm

[13] 刘可静. 欧美保障科学数据共享法制探究[J]. 科技与法律,2006(3):1-6.

[14] 毛文伟. 语料库在历时语言学研究领域的应用[J].外语电化教学,2009(1):14-19.

[15] 牛桂玲. 中外学术论文中英文摘要语料库的创建及应用[M].北京:知识产权出版社, 2013.

[16] 王克非.中国英汉平行语料库的设计与研制[J]. 中国外语,2012(6):24.

[17] 肖忠华. 肖忠华语料库语言学答客问[J]. 语料库语言学,2015(2):144.

[18] 杨明星. 论外交语言翻译的“政治等效”一以邓小平外交理念“韬光养晦”的译法为例[J].解放军外国语学院学报, 2008(5):90-94.

[19] 杨明星,闫达. 现代信息技术条件下外交机辅翻译模型研究初探[J].外语电化教学, 2013(5):33-41.


基金项目:本文系国家社科基金重大项目“中国特色大国外交的话语构建、翻译与传播研究”(项目编号:17ZDA318)、国家社科基金一般项目“外交翻译的理论构建与中国特色外交话语体系建设研究”(项目编号:17BYY006)、中国外文局对外话语体系招标课题“人类命运共同体被写入联合国文件后进一步对外传播该理念的策略研究”(项目编号:18DYY112)、河南省高校哲社基础研究重大项目“‘外交语言学’的理论构建与学科建设”(项目编号:2018-JCZD-018)和河南省科技攻关重点项目“现代信息技术条件下机器辅助外事翻译模型及语料库建设”(项目编号:2012KJGG)的阶段性研究成果。

作者简介:

1.杨明星,国家社科基金重大项目首席专家,中国翻译协会对外话语体系研究委员会副主任,郑州大学中国外交话语研究中心主任,博士后,二级教授,译审,博士生导师,翻译学科带头人。研究方向:外交翻译学、外交语言学、外交语料库、外事机辅翻译。

2.吴丽华,信阳职业技术学院应用外国语学院讲师,研究方向:翻译理论与实践、机辅翻译。

3.牛桂玲,郑州大学中国外交话语研究中心副教授,研究方向:外交语料库、外交话语。

4.闫达,信阳农林学院外国语学院讲师,研究方向:翻译理论与实践、机器翻译。


Abstract: The research on and construction of diplomatic corpus remain a blank field in China, which far lags behind the Western developed countries, and it is difficult to meet the strategic needs of China ‘s major-country diplomacy. In the context of globalization and the Internet, it is not only an urgent task for China’s major-country diplomacy to construct a multi—nodal and multilingual parallel corpus of diplomatic discourse, but also an inevitable requirement for the translation and dissemination of diplomatic discourse. Based on the established small-sized Diplomatic Discourse Chinese-English Parallel Corpus and the particularity of diplomatic discourse and diplomatic translation, this paper discusses the significance, principles, strategies and framework of the construction of diplomatic parallel corpus, and develops the technical paths and processes such as the collection, classification, digital processing, storage and online retrieval of diplomatic corpora. The paper also focuses on the data structure and generating mechanism of diplomatic terminology database, optimizes and upgrades the diplomatic computer- assisted translation model. In the process of designing and developing diplomatic corpus, we should take into consideration the five principles as follows: sense of policy (i. e. Political Equivalence) , professionalism, dynamics, compatibility and security. The diplomatic corpus to be developed boasts a broad prospect, which undoubtedly plays an important role in promoting the discursive construction, translation and dissemination of major-country diplomacy with Chinese characteristics.

Key words: diplomatic discourse; diplomatic corpus; multi-modal & multilingual; political equivalence



全文详见:中国知网

Copyright © 2017 郑州大学中国外交话语研究院 All Right Reserved 地址:郑州市科学大道100号 邮编:450001