Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
T
Toy-MT-Introduction
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
Toy-MT-Introduction
Commits
8b5baa6d
Commit
8b5baa6d
authored
May 01, 2020
by
曹润柘
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
rewrite
parent
8181d07d
隐藏空白字符变更
内嵌
并排
正在显示
4 个修改的文件
包含
5 行增加
和
131 行删除
+5
-131
Book/ChapterAppend/ChapterAppend.tex
+1
-114
Book/mt-book-xelatex.tex
+1
-1
Book/mt-book.tex
+1
-1
Book/structure.tex
+2
-15
没有找到文件。
Book/ChapterAppend/ChapterAppend.tex
查看文件 @
8b5baa6d
...
...
@@ -8,126 +8,13 @@
%----------------------------------------------------------------------------------------
\renewcommand\figurename
{
图
}
%将figure改为图
\renewcommand\tablename
{
表
}
%将figure改为图
\chapterimage
{
fig-NEU-
1
.jpg
}
% Chapter heading image
\chapterimage
{
fig-NEU-
9
.jpg
}
% Chapter heading image
%------------------------------------------------
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%第一章附录
\begin{appendices}
\chapter
{
附录A
}
\label
{
appendix-A
}
\parinterval
在构建机器翻译系统的过程中,数据是必不可少的,尤其是现在主流的神经机器翻译系统,系统的性能往往受限于语料库规模和质量。所幸的是,随着语料库语言学的发展,一些主流语种的相关语料资源已经十分丰富。
\parinterval
为了方便读者进行相关研究,我们汇总了几个常用的基准数据集,这些数据集已经在机器翻译领域中被广泛使用,有很多之前的相关工作可以进行复现和对比。同时,我们收集了一下常用的平行语料,方便读者进行一些探索。
%%%%%%%%%%%%%%%%%%%%%
\section
{
基准数据集
}
%----------------------------------------------
% 表1.1-1
\begin{table}
[htp]
{
\footnotesize
\begin{center}
\caption
{
基准数据集
}
\label
{
tab:Reference-data-set
}
\begin{tabular}
{
p
{
1.6cm
}
| p
{
1.2cm
}
p
{
1.6cm
}
p
{
2.6cm
}
p
{
3.9cm
}}
{
任务
}
&
{
语种
}
&{
领域
}
&{
描述
}
&{
数据集地址
}
\\
\hline
\rule
{
0pt
}{
15pt
}
WMT
&
En Zh
&
新闻、医学
&
以英语为核心的多
&
{
http://www.statmt.org/wmt19/
}
\\
&
De Ru等
&
、翻译
&
语种机器翻译数据
&
\\
&
&
&
集,涉及多种任务
&
\\
\rule
{
0pt
}{
15pt
}
IWSLT
&
En De Fr
&
口语翻译
&
文本翻译数据集来
&
{
https://wit3.fbk.eu/
}
\\
&
Cs Zh等
&
&
自TED演讲,数
&
\\
&
&
&
据规模较小
&
\\
\rule
{
0pt
}{
15pt
}
NIST
&
Zh-En等
&
新闻翻译
&
评测集包括4句参
&
{
https://www.ldc.upenn.edu/coll
}
\\
&
Cs Zh等
&
&
考译文,质量较高
&
aborations/evaluations/nist
\\
\end{tabular}
\end{center}
}
\end{table}
%-------------------------------------------
%----------------------------------------------
% 表1.1-2
\begin{table}
[htp]
{
\footnotesize
\begin{center}
\begin{tabular}
{
p
{
1.6cm
}
| p
{
1.2cm
}
p
{
1.6cm
}
p
{
2.6cm
}
p
{
3.9cm
}}
\rule
{
0pt
}{
15pt
}{
任务
}
&
{
语种
}
&{
领域
}
&{
描述
}
&{
数据集地址
}
\\
\hline
\rule
{
0pt
}{
15pt
}
TVsub
&
Zh-En
&
字幕翻译
&
数据抽取自电视剧
&
{
https://github.com/longyuewan
}
\\
&
&
&
字幕,用于对话中
&
gdcu/tvsub
\\
&
&
&
长距离上下文研究
&
\\
\rule
{
0pt
}{
15pt
}
Flickr30K
&
En-De
&
多模态翻译
&
31783张图片,每
&
{
http://shannon.cs.illinois.edu/D
}
\\
&
&
&
张图片5个语句标
&
enotationGraph/
\\
&
&
&
注
&
\\
\rule
{
0pt
}{
15pt
}
Multi30K
&
En-De
&
多模态翻译
&
31014张图片,每
&
{
http://www.statmt.org/wmt16/
}
\\
&
En-Fr
&
&
张图片5个语句标
&
multimodal-task.html
\\
&
&
&
注
&
\\
\rule
{
0pt
}{
15pt
}
IAPRTC-12
&
En-De
&
多模态翻译
&
20000张图片及对
&
{
https://www.imageclef.org
}
\\
&
&
&
应标注
&
/photodata
\\
\rule
{
0pt
}{
15pt
}
IKEA
&
En-De
&
多模态翻译
&
3600张图片及对应
&
{
https://github.com/sampalomad
}
\\
&
En-Fr
&
&
标注
&
/IKEA-Dataset.git
\\
\end{tabular}
\end{center}
}
\end{table}
%-------------------------------------------
%%%%%%%%%%%%%%%%%%%%%%%%%%%
\section
{
平行语料
}
\parinterval
神经机器翻译系统的训练需要大量的双语数据,这里我们汇总了一些公开的平行语料,方便读者获取。
\vspace
{
0.5em
}
\begin{itemize}
\item
News Commentary Corpus:包括汉语、英语等12个语种,64个语言对的双语数据,爬取自Project Syndicate网站的政治、经济评论。URL:
\url
{
http://www.casmacat.eu/corpus/news-commentary.html
}
\vspace
{
0.5em
}
\item
CWMT Corpus:中国计算机翻译研讨会社区收集和共享的中英平行语料,涵盖多种领域,例如新闻、电影字幕、小说和政府文档等。URL:
\url
{
http://nlp.nju.edu.cn/cwmt-wmt/
}
\vspace
{
0.5em
}
\item
Common Crawl corpus:包括捷克语、德语、俄语、法语4种语言到英语的双语数据,爬取自互联网网页。URL:
\url
{
http://www.statmt.org/wmt13/training-parallel-commoncrawl.tgz
}
\vspace
{
0.5em
}
\item
Europarl Corpus:包括保加利亚语、捷克语等20种欧洲语言到英语的双语数据,来源于欧洲议会记录。URL:
\url
{
http://www.statmt.org/europarl/
}
\vspace
{
0.5em
}
\item
ParaCrawl Corpus:包括23种欧洲语言到英语的双语语料,数据来源于网络爬取。URL:
\url
{
https://www.paracrawl.eu/index.php
}
\vspace
{
0.5em
}
\item
United Nations Parallel Corpus:包括阿拉伯语、英语、西班牙语、法语、俄语、汉语6种联合国正式语言,30种语言对的双语数据,来源自联合国公共领域的官方记录和其他会议文件。URL:
\url
{
https://conferences.unite.un.org/UNCorpus/
}
\vspace
{
0.5em
}
\item
TED Corpus:TED大会演讲在其网站公布了自2007年以来的演讲字幕,以及超过100种语言的翻译版本。WIT收集整理了这些数据,以方便科研工作者使用,同时,会为每年的IWSLT评测比赛提供评测数据集。URL:
\url
{
https://wit3.fbk.eu/
}
\vspace
{
0.5em
}
\item
OpenSubtile:由P. Lison和J. Tiedemann收集自opensubtiles电影字幕网站,包含62种语言、1782个语种对的平行语料,资源相对比较丰富。URL:
\url
{
http://opus.nlpl.eu/OpenSubtitles2018.php
}
\vspace
{
0.5em
}
\item
Wikititles Corpus:包括古吉拉特语等14个语种,11个语言对的双语数据,数据来源自维基百科的标题。URL:
\url
{
http://data.statmt.org/wikititles/v1/
}
\vspace
{
0.5em
}
\item
CzEng:捷克语和英语的平行语料,数据来源于欧洲法律、信息技术和小说领域。URL:
\url
{
http://ufal.mff.cuni.cz/czeng/czeng17
}
\vspace
{
0.5em
}
\item
Yandex Corpus:俄语和英语的平行语料,爬取自互联网网页。URL:
\url
{
https://translate.yandex.ru/corpus
}
\vspace
{
0.5em
}
\item
Tilde MODEL Corpus:欧洲语言的多语言开放数据,包含多个数据集,数据来自于经济、新闻、政府、旅游等门户网站。URL:
\url
{
https://tilde-model.s3-eu-west-1.amazonaws.com/Tilde
_
MODEL
_
Corpus.html
}
\vspace
{
0.5em
}
\item
Setimes Corpus:包括克罗地亚语、阿尔巴尼亚等9种巴尔干语言,72种个语言对的双语数据,来源于东南欧时报的新闻报道。URL:
\url
{
http://www.statmt.org/setimes/
}
\vspace
{
0.5em
}
\item
TVsub:收集自电视剧集字幕的中英文对话语料库,包含超过200万的句对,可用于对话领域和长距离上下文信息的研究。URL:
\url
{
https://github.com/longyuewangdcu/tvsub
}
\vspace
{
0.5em
}
\item
Recipe Corpus:由Cookpad公司创建的日英食谱语料库,包含10万多的句对。URL:
\url
{
http://lotus.kuee.kyoto-u.ac.jp/WAT/recipe-corpus/
}
\end{itemize}
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\section
{
相关工具
}
\subsection
{
数据预处理工具
}
\parinterval
数据处理是搭建神经机器翻译系统的重要步骤,这里我们提供了一些开源工具供读者进行使用。
\vspace
{
0.5em
}
\begin{itemize}
\item
Moses:Moses 提供了很多数据预处理的脚本和工具,被机器翻译研究者广泛使用。其中包括符号标准化、分词、大小写转换和长度过滤等。URL:
\url
{
https://github.com/moses-smt/mosesdecoder/tree/master/scripts
}
\vspace
{
0.5em
}
\item
Jieba:常用的中文分词工具。URL:
\url
{
https://github.com/fxsjy/jieba
}
\vspace
{
0.5em
}
\item
Subword-nmt:基于BPE算法的子词切分工具。URL:
\url
{
https://github.com/rsennrich/subword-nmt
}
\end{itemize}
\subsection
{
评价工具
}
\parinterval
机器翻译领域已经有多种自动评价指标,包括BLEU、TER和METEOR等,这里我们提供了一些自动评价指标的工具,方便读者使用。
\vspace
{
0.5em
}
\begin{itemize}
\item
Moses:其中包括了通用的BLEU评测脚本。URL:
\url
{
https://github.com/moses-smt/mosesdecoder/tree/master/scripts/generic
}
\vspace
{
0.5em
}
\item
Tercom:自动评价指标TER的计算工具,只有java版本。URL:
\url
{
http://www.cs.umd.edu/~snover/tercom/
}
\vspace
{
0.5em
}
\item
Meteor:自动评价指标METEOR的实现。URL:
\url
{
https://www.cs.cmu.edu/~alavie/METEOR/
}
\end{itemize}
\end{appendices}
...
...
Book/mt-book-xelatex.tex
查看文件 @
8b5baa6d
...
...
@@ -90,7 +90,7 @@
{
\large
\noindent
{
\color
{
red
}
在此感谢所有为本书做出贡献的人
}
\\
\noindent
曹润柘、曾信、孟霞、单韦乔、姜雨帆、王子扬、刘辉、许诺、李北、刘继强、张哲旸、周书
含
、周涛、张裕浩、李炎洋、林野、刘晓倩、牛蕊
\\
\noindent
曹润柘、曾信、孟霞、单韦乔、姜雨帆、王子扬、刘辉、许诺、李北、刘继强、张哲旸、周书
涵
、周涛、张裕浩、李炎洋、林野、刘晓倩、牛蕊
\\
}
...
...
Book/mt-book.tex
查看文件 @
8b5baa6d
...
...
@@ -92,7 +92,7 @@
{
\large
\noindent
{
\color
{
red
}
在此感谢所有为本书做出贡献的人
}
\\
\noindent
曹润柘、曾信、孟霞、单韦乔、姜雨帆、王子扬、刘辉、许诺、李北、刘继强、张哲旸、周书
含
、周涛、张裕浩、李炎洋,刘晓倩、牛蕊
\\
\noindent
曹润柘、曾信、孟霞、单韦乔、姜雨帆、王子扬、刘辉、许诺、李北、刘继强、张哲旸、周书
涵
、周涛、张裕浩、李炎洋,刘晓倩、牛蕊
\\
}
...
...
Book/structure.tex
查看文件 @
8b5baa6d
...
...
@@ -615,21 +615,8 @@ addtohook={%
\definecolor
{
xtgreen
}{
rgb
}{
0.914,0.945,0.902
}
\definecolor
{
lightgray
}{
gray
}{
0.85
}
%%%%%%%%%%%%appendix-------------------------------
\makeatletter
\def\UrlAlphabet
{
%
\do\a\do\b\do\c\do\d\do\e\do\f\do\g\do\h\do\i\do\j
%
\do\k\do\l\do\m\do\n\do\o\do\p\do\q\do\r\do\s\do\t
%
\do\u\do\v\do\w\do\x\do\y\do\z\do\A\do\B\do\C\do\D
%
\do\E\do\F\do\G\do\H\do\I\do\J\do\K\do\L\do\M\do\N
%
\do\O\do\P\do\Q\do\R\do\S\do\T\do\U\do\V\do\W\do\X
%
\do\Y\do\Z
}
\def\UrlDigits
{
\do\1\do\2\do\3\do\4\do\5\do\6\do\7\do\8\do\9\do\0
}
\g
@addto@macro
{
\UrlBreaks
}{
\UrlOrds
}
%特殊符号
\g
@addto@macro
{
\UrlBreaks
}{
\UrlAlphabet
}
%26个字母表
\g
@addto@macro
{
\UrlBreaks
}{
\UrlDigits
}
%10个阿拉伯数字
\makeatother
%上述设置的作用是URL自动换行
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论