@@ -567,60 +567,65 @@ His house is on the south bank of the river.
\end{itemize}
\vspace{0.5em}
\subsection{常用数据集及评测任务}\index{Chapter1.7.2}
\subsection{常用数据集及公开评测任务}\index{Chapter1.7.2}
\parinterval机器翻译相关评测主要有两种组织形式,一种是由政府及国家相关机构组织,权威性强,如由美国国家标准技术研究所组织的NIST评测、日本国家科学咨询系统中心主办的NACSIS Test Collections for IR(NTCIR)PatentMT、日本科学振兴机构(Japan Science and Technology Agency,简称JST)等组织联合举办的Workshop on Asian Translation(WAT)以及国内由中文信息学会主办的全国机器翻译研讨会(China Workshop on Machine Translation,简称CWMT)机器翻译评测,另一种为由相关学术机构组织,具有领域针对性的特点,如倾向新闻领域的Workshop on Statistical Machine Translation(WMT)以及面向口语的the International Workshop on Spoken Language Translation(IWSLT)。下面将针对上述评测进行详细介绍。
\parinterval机器翻译相关评测主要有两种组织形式,一种是由政府及国家相关机构组织,权威性强,如由美国国家标准技术研究所组织的NIST评测、日本国家科学咨询系统中心主办的NACSIS Test Collections for IR(NTCIR)PatentMT、日本科学振兴机构(Japan Science and Technology Agency,简称JST)等组织联合举办的Workshop on Asian Translation(WAT)以及国内由中文信息学会主办的全国机器翻译大会(China Conference on Machine Translation,简称CCMT);另一种是由相关学术机构组织,具有领域针对性的特点,如倾向新闻领域的Workshop on Statistical Machine Translation(WMT)以及面向口语的International Workshop on Spoken Language Translation(IWSLT)。下面将针对上述评测进行详细介绍。
\itemWMT由Special Interest Group for Machine Translation(SIGMT)主办,会议自2006年起每年召开一次,是一个针对机器翻译多种任务的综合性会议,包括多领域翻译评测任务、评价任务(如自动评价标准评测、翻译质量评估评测等)以及其它与机器翻译的相关任务(如文档对齐评测等)。现在WMT已经成为机器翻译领域的旗舰评测任务,很多研究工作都以WMT任务作为基准。其翻译评测任务中其涉及的语言范围较广,包括英语、德语、芬兰语、捷克语、罗马尼亚语等十多种语言,翻译方向一般以英语为核心,探索英语与其他欧洲语言翻译的性能,领域包括新闻、信息技术、生物医学。最近,也增加了无指导机器翻译等热门问题。WMT在评价方面类似于CCMT,也采用人工评价与自动评价相结合的方式,自动评价的指标一般为BLEU、NIST以及TER 等。此外,WMT公开了所有评测数据,因此也经常被机器翻译相关人员所使用。更多WMT 的机器翻译评测相关信息可参考官网:\url{http://www.sigmt.org/}。
\vspace{0.5em}
\itemWMT由Special Interest Group for Machine Translation(SIGMT)主办,自2006年起每年一次,是一个针对机器翻译多种任务的综合性会议,包括多领域翻译评测任务、评价任务(如自动评价标准评测、翻译质量评估评测等)以及其他技术相关任务(如文档对齐评测等)。现在WMT任务已经成为机器翻译领域的旗舰评测任务,很多研究工作都已WMT任务作为基准。其翻译评测任务中其涉及的语言范围较广,包括英语、德语、芬兰语、捷克语、罗马尼亚语等十多种语言,翻译方向一般以英语为核心,探索英语与其他欧洲语言翻译的性能,领域包括新闻、信息技术、生物医学。WMT在在评价方面类似其他评测,也采用人工评价与自动评价相结合的方式,自动评价的指标一般为NIST、BLEU以及TER 等。此外WMT公开的评测数据集也经常被研究欧洲语系的机器翻译相关人员所使用。更多WMT 的机器翻译评测相关信息可参考官网:\url{http://www.sigmt.org/}
\parinterval实验数据均可以从评测网站上下载,此外目前研究的绝大多数数据都可以从LDC(Linguistic Data Consortium)上下载,网址为\url{https://www.ldc.upenn.edu/},ELRA(European Language Resources Association)上也有一些免费的语料库供研究使用,其官网为\url{http://www.elra.info/}。
\parinterval以上评测数据大多可以从评测网站上下载,此外部分数据也可以从LDC(Linguistic Data Consortium)上申请,网址为\url{https://www.ldc.upenn.edu/}。ELRA(European Language Resources Association)上也有一些免费的语料库供研究使用,其官网为\url{http://www.elra.info/}。{\red 更多机器翻译的语料信息可参看附录??}。
\parinterval《Foundations of Statistical Natural Language Processing》中文译名《自然语言处理基础》。该书是首次对统计自然语言处理进行全面介绍。书中讲解了必要的语言学和概率论基础知识,介绍了机器翻译评价、语言建模、判别式训练以及整合语言学信息等前言方法。其中包含了构建NLP工具所需基本的理论和算法,提供了数学和语言学基础的广泛而严格的覆盖,以及统计方法的详细讨论,帮助学生和研究人员构建自己的解决方案。
\parinterval《Foundations of Statistical Natural Language Processing》中文译名《自然语言处理基础》,作者是自然语言处理领域的权威Chris Manning教授和Hinrich Sch$\ddot{\textrm{u}}$tze教授。该书对统计自然语言处理方法进行了全面介绍。书中讲解了必要的语言学和概率论基础知识,介绍了机器翻译评价、语言建模、判别式训练以及整合语言学信息等基础方法。其中包含了构建NLP工具所需的基本理论和算法,提供了对数学和语言学基础内容广泛而严格的覆盖,以及统计方法的详细讨论。
\parinterval Ian Goodfellow、Yoshua Bengio,Aaron Courville三位机器学习领域的学者所写的《深度学习》也是值得一读的参考书。其讲解了有关深度学习常用的方法,其中很多都会在深度学习模型设计和使用中用到。同时在《深度学习》应用一章中也简单讲解了神经机器翻译的任务定义和发展过程。
\item ACL,全称Annual Meeting of the Association for Computational Linguistics,是自然语言处理领域最高级别会议。每年举办一次,主题包括机器翻译,对话,信息抽取,信息检索,语言生成,语言资源,多模态,情感分析,语音等多个方面。
\item ACL,全称Annual Meeting of the Association for Computational Linguistics,是自然语言处理领域最高级别的会议。每年举办一次,主题包括机器翻译,对话,信息抽取,信息检索,语言生成,语言资源,多模态,情感分析,语音等多个方面。
\vspace{0.5em}
\item NAACL,全称Annual Meeting of the Association for Computational Linguistics,为ACL北美分会,在自然语言处理领域也属于顶级会议,每年会选择一个北美城市召开会议。
\vspace{0.5em}
\item EMNLP,全称Conference on Empirical Methods in Natural Language Processing ,由ACL当中对语言数据和经验方法有特殊兴趣的团体主办,始于1996年。会议比较偏重于方法和经验性结果。
\item EMNLP,全称Conference on Empirical Methods in Natural Language Processing ,自然语言处理另一个顶级会议之一,由ACL当中对语言数据和经验方法有特殊兴趣的团体主办,始于1996年。会议比较偏重于方法和经验性结果。
\vspace{0.5em}
\item COLING,全称Int'l Committee on Computational Linguistics (ICCL) Conf.,该会议始于1965年,是由ICCL国际计算语言学委员会主办,自从第三届会议在斯德哥尔摩举办之后,会议简称为COLING,是谐音瑞典著名作家 Albert Engström小说中的虚构人物Kolingen。COLING每两年举报一次。
\item COLING,全称Int'l Committee on Computational Linguistics (ICCL) Conf.,自然语言处理老牌顶级会议之一。该会议始于1965年,是由ICCL国际计算语言学委员会主办,自从第三届会议在斯德哥尔摩举办之后,会议简称为COLING,是谐音瑞典著名作家 Albert Engstr$\ddot{\textrm{o}}$m小说中的虚构人物Kolingen。COLING每两年举报一次。
\vspace{0.5em}
\item WMT,全称Conference on Machine Translation。机器翻译领域一年一度研讨会,是国际公认的顶级机器翻译赛事之一。
\vspace{0.5em}
\item AMTA,全称Association for Machine Translation in the Americas。AMTA会议汇聚了学术界、产业界和政府的MT研究人员、开发人员和用户,让工业界和学术界进行交流。
\field{booktitle}{Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology-Volume 1}