Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
M
mtbookv2
概览
Overview
Details
Activity
Cycle Analytics
版本库
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
问题
0
Issues
0
列表
Board
标记
里程碑
合并请求
0
Merge Requests
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
Snippets
成员
Collapse sidebar
Close sidebar
活动
图像
聊天
创建新问题
作业
提交
Issue Boards
Open sidebar
NiuTrans
mtbookv2
Commits
224ebf11
Commit
224ebf11
authored
Jan 10, 2021
by
zengxin
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
append
parent
0f42ee2d
隐藏空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
5 行增加
和
5 行删除
+5
-5
ChapterAppend/chapterappend.tex
+5
-5
没有找到文件。
ChapterAppend/chapterappend.tex
查看文件 @
224ebf11
...
...
@@ -46,11 +46,11 @@
\vspace
{
0.5em
}
\item
SilkRoad。SilkRoad是由五个国内机构(中科院计算所、中科院软件所、中科院自动化所、厦门大学和哈尔滨工业大学)联合开发的基于短语的统计机器翻译系统。该系统是中国乃至亚洲地区第一个开源的统计机器翻译系统。SilkRoad支持多种解码器和规则提取模块,这样可以组合成不同的系统,提供多样的选择。网址:
\url
{
http://www.nlp.org.cn/project/project.php?projid=14
}
\vspace
{
0.5em
}
\item
SAMT。SAMT
\upcite
{
zollmann2007the
}
是由卡内基梅隆大学机器翻译团队开发的语法增强的统计机器翻译系统。SAMT在解码的时候使用目标树来生成翻译规则,而不严格遵守目标语言的语法。SAMT 的一个亮点是它提供了简单但高效的方式在机器翻译中使用句法信息。由于SAMT在hadoop中实现,它可受益于大数据集的分布式处理。网址:
\url
{
http://www.cs.cmu.edu/zollmann/samt/
}
\item
SAMT。SAMT
\upcite
{
zollmann2007the
}
是由卡内基梅隆大学机器翻译团队开发的语法增强的统计机器翻译系统。SAMT在解码的时候使用目标树来生成翻译规则,而不严格遵守目标语言的语法。SAMT 的一个亮点是它提供了简单但高效的方式在机器翻译中使用句法信息。由于SAMT在hadoop中实现,它可受益于大数据集的分布式处理。网址:
\url
{
http://www.cs.cmu.edu/
~
zollmann/samt/
}
\vspace
{
0.5em
}
\item
HiFST。HiFST
\upcite
{
iglesias2009hierarchical
}
是剑桥大学开发的统计机器翻译系统。该系统完全基于有限状态自动机实现,因此非常适合对搜索空间进行有效的表示。网址:
\url
{
http://ucam-smt.github.io/
}
\vspace
{
0.5em
}
\item
cdec。cdec
\upcite
{
dyer2010cdec
}
是一个强大的解码器,是由Chris Dyer 和他的合作者们一起开发。cdec的主要功能是它使用了翻译模型的一个统一的内部表示,并为结构预测问题的各种模型和算法提供了实现框架。所以,cdec也可以被用来做一个对齐系统或者一个更通用的学习框架。此外,由于使用C++语言编写,cdec的运行速度较快。网址:
\url
{
http
://cdec-decoder.org/index.php?title=MainPage
}
\item
cdec。cdec
\upcite
{
dyer2010cdec
}
是一个强大的解码器,是由Chris Dyer 和他的合作者们一起开发。cdec的主要功能是它使用了翻译模型的一个统一的内部表示,并为结构预测问题的各种模型和算法提供了实现框架。所以,cdec也可以被用来做一个对齐系统或者一个更通用的学习框架。此外,由于使用C++语言编写,cdec的运行速度较快。网址:
\url
{
http
s://github.com/redpony/cdec
}
\vspace
{
0.5em
}
\item
Phrasal。Phrasal
\upcite
{
Cer2010Phrasal
}
是由斯坦福大学自然语言处理小组开发的系统。除了传统的基于短语的模型,Phrasal还支持基于非层次短语的模型,这种模型将基于短语的翻译延伸到非连续的短语翻译,增加了模型的泛化能力。网址:
\url
{
http://nlp.stanford.edu/phrasal/
}
\vspace
{
0.5em
}
...
...
@@ -162,8 +162,8 @@
\rule
{
0pt
}{
15pt
}
TVsub
&
Zh-En
&
字幕翻译
&
数据抽取自电视剧
&
{
https://github.com/longyuewan
}
\\
&
&
&
字幕,用于对话中
&
gdcu/tvsub
\\
&
&
&
长距离上下文研究
&
\\
\rule
{
0pt
}{
15pt
}
Flickr30K
&
En-De
&
多模态翻译
&
31783张图片,每
&
{
http
://shannon.cs.illinois.edu/D
}
\\
&
&
&
张图片5个语句标
&
enotationGraph/
\\
\rule
{
0pt
}{
15pt
}
Flickr30K
&
En-De
&
多模态翻译
&
31783张图片,每
&
{
http
s://www.kaggle.com/hsankesara/
}
\\
&
&
&
张图片5个语句标
&
flickr-image-dataset
\\
&
&
&
注
&
\\
\rule
{
0pt
}{
15pt
}
Multi30K
&
En-De
&
多模态翻译
&
31014张图片,每
&
{
http://www.statmt.org/wmt16/
}
\\
&
En-Fr
&
&
张图片5个语句标
&
multimodal-task.html
\\
...
...
@@ -186,7 +186,7 @@
\parinterval
神经机器翻译系统的训练需要大量的双语数据,这里本节汇总了一些公开的平行语料,方便读者获取。
\vspace
{
0.5em
}
\begin{itemize}
\item
News Commentary Corpus:包括汉语、英语等12个语种,64个语言对的双语数据,爬取自Project Syndicate网站的政治、经济评论。URL:
\url
{
http://
www.casmacat.eu/corpus/news-commentary.html
}
\item
News Commentary Corpus:包括汉语、英语等12个语种,64个语言对的双语数据,爬取自Project Syndicate网站的政治、经济评论。URL:
\url
{
http://
opus.nlpl.eu/News-Commentary.php
}
\vspace
{
0.5em
}
\item
CWMT Corpus:中国计算机翻译研讨会社区收集和共享的中英平行语料,涵盖多种领域,例如新闻、电影字幕、小说和政府文档等。URL:
\url
{
http://nlp.nju.edu.cn/cwmt-wmt/
}
\vspace
{
0.5em
}
...
...
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论