Commit 2ca76332 by xiaotong

minor update

parent 9452bcd1
...@@ -485,28 +485,27 @@ His house is on the south bank of the river. ...@@ -485,28 +485,27 @@ His house is on the south bank of the river.
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\vspace{0.5em} \vspace{0.5em}
\begin{itemize} \begin{itemize}
\item NiuTrans.SMT:NiuTrans\cite{Tong2012NiuTrans}是由东北大学自然语言处理实验室自主研发的SMT系统,该系统可支持基于短语的模型、基于层次结构的模型以及基于句法树结构的模型。由于使用C++语言开发,所以该系统运行时间快,所占存储空间少且易于上手。系统中内嵌有$n$-gram语言模型,故无需使用其它的系统即可对语言进行建模。\url{http://www.niutrans.com/} \item NiuTrans.SMT:NiuTrans\cite{Tong2012NiuTrans}是由东北大学自然语言处理实验室自主研发的SMT系统,该系统可支持基于短语的模型、基于层次结构的模型以及基于句法树结构的模型。由于使用C++语言开发,所以该系统运行时间快,所占存储空间少且易于上手。系统中内嵌有$n$-gram语言模型,故无需使用其它的系统即可对语言进行建模。网址:\url{http://www.niutrans.com/}
\vspace{0.5em} \vspace{0.5em}
\item Moses:Moses\cite{Koehn2007Moses}统计机器翻译时代最著名的系统之一,(主要)由爱丁堡大学的机器翻译团队开发。最新的Moses系统支持很多的功能,例如,它既支持基于短语的模型,也支持基于句法的模型。Moses 提供因子化翻译模型(factored translation model),该模型可以在不同的层次中使用不同的信息。此外,它允许将混淆网络和字格(word lattices)作为输入,可缓解系统的1-best 输出中的错误。Moses 还提供了很多有用的脚本和工具来支持其他的功能。\url{http://www.statmt.org/moses/} \item Moses:Moses\cite{Koehn2007Moses}统计机器翻译时代最著名的系统之一,(主要)由爱丁堡大学的机器翻译团队开发。最新的Moses系统支持很多的功能,例如,它既支持基于短语的模型,也支持基于句法的模型。Moses 提供因子化翻译模型(factored translation model),该模型可以在不同的层次中使用不同的信息。此外,它允许将混淆网络和字格(word lattices)作为输入,可缓解系统的1-best 输出中的错误。Moses 还提供了很多有用的脚本和工具来支持其他的功能。网址:\url{http://www.statmt.org/moses/}
\vspace{0.5em} \vspace{0.5em}
\item Joshua:Joshua\cite{Li2010Joshua}是由约翰霍普金斯大学的语言和语音处理中心开发的层次短语翻译系统。由于Joshua是由Java语言开发,所以它在不同的平台上运行或开发时具有良好的可扩展性和可移植性。Joshua也是使用非常广泛的通机器翻译系统之一。\url{http://joshua.sourceforge.net/Joshua/Welcome.html} \item Joshua:Joshua\cite{Li2010Joshua}是由约翰霍普金斯大学的语言和语音处理中心开发的层次短语翻译系统。由于Joshua是由Java语言开发,所以它在不同的平台上运行或开发时具有良好的可扩展性和可移植性。Joshua也是使用非常广泛的通机器翻译系统之一。网址:\url{http://joshua.sourceforge.net/Joshua/Welcome.html}
\vspace{0.5em} \vspace{0.5em}
\item SilkRoad:SilkRoad是由中国五个机构(中科院计算所、中科院软件所、中科院自动化所、厦门大学和哈尔滨工业大学)联合开发的,基于短语的统计机器翻译系统。该系统是中国乃至亚洲地区第一个开源的统计机器翻译系统。SilkRoad支持多解码器和规则提取并为不同组合的子系统提供了不同的实验选择。\url{http://www.nlp.org.cn/project/project.php?projid=14} \item SilkRoad:SilkRoad是由中国五个机构(中科院计算所、中科院软件所、中科院自动化所、厦门大学和哈尔滨工业大学)联合开发的,基于短语的统计机器翻译系统。该系统是中国乃至亚洲地区第一个开源的统计机器翻译系统。SilkRoad支持多解码器和规则提取并为不同组合的子系统提供了不同的实验选择。网址:\url{http://www.nlp.org.cn/project/project.php?projid=14}
\\{\color{red} 关于silkroad系统,找了5个大学的nlp官网以及对相关论文搜索,也问了学长学姐和曹润柘,总共只找到了该系统的使用说明https://www.doc88.com/p-4174403220161.html以及一个提及它的文章《Machine Translation in China》}
\vspace{0.5em} \vspace{0.5em}
\item SAMT:SAMT\cite{zollmann2007the}是由卡内基梅隆大学机器翻译团队开发的语法增强的统计机器翻译系统。SAMT在解码的时候使用目标树来生成翻译规则,而不严格遵守目标语言的语法。SAMT 的一个亮点是它提供了简单但高效的方式来利用在机器翻译中句法信息。由于SAMT在hadoop中实现,它可受益于跨计算机群的大数据集的分布式处理。\url{http://www.cs.cmu.edu/zollmann/samt/} \item SAMT:SAMT\cite{zollmann2007the}是由卡内基梅隆大学机器翻译团队开发的语法增强的统计机器翻译系统。SAMT在解码的时候使用目标树来生成翻译规则,而不严格遵守目标语言的语法。SAMT 的一个亮点是它提供了简单但高效的方式来利用在机器翻译中句法信息。由于SAMT在hadoop中实现,它可受益于跨计算机群的大数据集的分布式处理。网址:\url{http://www.cs.cmu.edu/zollmann/samt/}
\vspace{0.5em} \vspace{0.5em}
\item cdec:cdec\cite{Dyer2010cdec}是一个强大的解码器,是由Chris Dyer 和他的合作者们一起开发。cdec的主要的功能是它使用了翻译模型的一个统一的内部表示,并为实验结构预测问题的各种模型和算法提供了框架。所以,cdec也可以在被用来做一个对齐系统或者一个更通用的学习框架。此外,cdec由于使用高效的C++语言编写,运行速度较快。\url{http://cdec-decoder.org/index.php?title=MainPage} \item cdec:cdec\cite{Dyer2010cdec}是一个强大的解码器,是由Chris Dyer 和他的合作者们一起开发。cdec的主要的功能是它使用了翻译模型的一个统一的内部表示,并为实验结构预测问题的各种模型和算法提供了框架。所以,cdec也可以在被用来做一个对齐系统或者一个更通用的学习框架。此外,cdec由于使用高效的C++语言编写,运行速度较快。网址:\url{http://cdec-decoder.org/index.php?title=MainPage}
\vspace{0.5em} \vspace{0.5em}
\item Phrasal:Phrasal\cite{Cer2010Phrasal}是由斯坦福自然语言处理小组开发的系统。除了传统的基于短语的模型,Phrasal还支持了基于非层次短语的模型,这种模型将基于短语的翻译延伸到非连续的短语翻译(phrasal discontinues translation),增加了模型的泛化能力。\url{http://nlp.stanford.edu/phrasal/} \item Phrasal:Phrasal\cite{Cer2010Phrasal}是由斯坦福自然语言处理小组开发的系统。除了传统的基于短语的模型,Phrasal还支持了基于非层次短语的模型,这种模型将基于短语的翻译延伸到非连续的短语翻译(phrasal discontinues translation),增加了模型的泛化能力。网址:\url{http://nlp.stanford.edu/phrasal/}
\vspace{0.5em} \vspace{0.5em}
\item Jane:Jane\cite{VilarJane}是一个基于短语和基于层次短语的机器翻译系统,由亚琛工业大学的人类语言技术与模式识别小组开发。Jane提供了系统融合模块,因此可以非常方便的对多个系统进行融合。\url{http://www-i6.informatik.rwth-aachen.de/jane/} \item Jane:Jane\cite{VilarJane}是一个基于短语和基于层次短语的机器翻译系统,由亚琛工业大学的人类语言技术与模式识别小组开发。Jane提供了系统融合模块,因此可以非常方便的对多个系统进行融合。网址:\url{http://www-i6.informatik.rwth-aachen.de/jane/}
\vspace{0.5em} \vspace{0.5em}
\item GIZA++:GIZA++\cite{Junczysdowmunt2012SyMGiza}是Franz Och研发的用于训练IBM模型1-5和HMM单词对齐模型的工具包。在早期,GIZA++是所有统计机器翻译系统中词对齐的标配工具。\url{https://github.com/moses-smt/giza-pp} \item GIZA++:GIZA++\cite{Junczysdowmunt2012SyMGiza}是Franz Och研发的用于训练IBM模型1-5和HMM单词对齐模型的工具包。在早期,GIZA++是所有统计机器翻译系统中词对齐的标配工具。网址:\url{https://github.com/moses-smt/giza-pp}
\vspace{0.5em} \vspace{0.5em}
\item HiFST:HiFST\cite{pino2010the}是剑桥大学开发的统计机器翻译系统。该系统完全基于有限状态自动机实现,因此非常适合对搜索空间进行有效的表示。\\ \url{http://ucam-smt.github.io/} \item HiFST:HiFST\cite{pino2010the}是剑桥大学开发的统计机器翻译系统。该系统完全基于有限状态自动机实现,因此非常适合对搜索空间进行有效的表示。网址:\\ \url{http://ucam-smt.github.io/}
\vspace{0.5em} \vspace{0.5em}
\item FastAlign:FastAlign\cite{dyer2013a}是一个快速,无监督的词对齐工具,由卡内基梅隆大学开发。\url{https://github.com/clab/fast\_align} \item FastAlign:FastAlign\cite{dyer2013a}是一个快速,无监督的词对齐工具,由卡内基梅隆大学开发。网址:\url{https://github.com/clab/fast\_align}
\end{itemize} \end{itemize}
\vspace{0.5em} \vspace{0.5em}
...@@ -514,34 +513,33 @@ His house is on the south bank of the river. ...@@ -514,34 +513,33 @@ His house is on the south bank of the river.
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\vspace{0.5em} \vspace{0.5em}
\begin{itemize} \begin{itemize}
\item GroundHog:GroundHog\cite{bahdanau2015neural}基于Theano框架,由蒙特利尔大学LISA 实验室使用Python语言编写的一个框架,旨在提供灵活而高效的方式来实现复杂的循环神经网络模型。它提供了包括LSTM在内的多种模型。Bahdanau等人在此框架上又编写了GroundHog神经机器翻译系统。该系统被当作很多论文的基线系统。\url{https://github.com/lisa-groundhog/GroundHog} \item GroundHog:GroundHog\cite{bahdanau2015neural}基于Theano框架,由蒙特利尔大学LISA 实验室使用Python语言编写的一个框架,旨在提供灵活而高效的方式来实现复杂的循环神经网络模型。它提供了包括LSTM在内的多种模型。Bahdanau等人在此框架上又编写了GroundHog神经机器翻译系统。该系统被当作很多论文的基线系统。网址:\url{https://github.com/lisa-groundhog/GroundHog}
\vspace{0.5em} \vspace{0.5em}
\item Nematus:Nematus\cite{SennrichNematus}是英国爱丁堡大学开发的,基于Theano框架的神经机器翻译系统。该系统使用GRU作为隐层单元,支持多层网络。Nematus 编码端有正向和反向的编码方式,可以同时提取源语句子中的上下文信息。该系统的一个优点是,它可以支持输入端有多个特征的输入(例如词的词性等)。\url{https://github.com/EdinburghNLP/nematus} \item Nematus:Nematus\cite{SennrichNematus}是英国爱丁堡大学开发的,基于Theano框架的神经机器翻译系统。该系统使用GRU作为隐层单元,支持多层网络。Nematus 编码端有正向和反向的编码方式,可以同时提取源语句子中的上下文信息。该系统的一个优点是,它可以支持输入端有多个特征的输入(例如词的词性等)。网址:\url{https://github.com/EdinburghNLP/nematus}
\vspace{0.5em} \vspace{0.5em}
\item ZophRNN:ZophRNN\cite{zoph2016simple}是由南加州大学的Barret Zoph 等人使用C++语言开发的系统。Zoph在多个GPU 上既可以训练序列模型(如语言模型),也可以训练序列到序列的模型(如神经机器翻译模型)。当训练神经机器翻译系统时,Zoph也支持了多源输入,即在输入源语句子时可同时输入其一种译文。该系统由于使用C++语言,运行速度快。\url{https://github.com/isi-nlp/Zoph\_RNN} \item ZophRNN:ZophRNN\cite{zoph2016simple}是由南加州大学的Barret Zoph 等人使用C++语言开发的系统。Zoph在多个GPU 上既可以训练序列模型(如语言模型),也可以训练序列到序列的模型(如神经机器翻译模型)。当训练神经机器翻译系统时,Zoph也支持了多源输入,即在输入源语句子时可同时输入其一种译文。该系统由于使用C++语言,运行速度快。网址:\url{https://github.com/isi-nlp/Zoph\_RNN}
\vspace{0.5em} \vspace{0.5em}
\item Fairseq:Fairseq\cite{Ottfairseq}是由Facebook开发的,基于PyTorch框架的用以解决序列到序列问题的工具包,其中包括基于卷积神经网络、基于循环神经网络、基于Transformer的模型等。Fairseq是当今使用最广泛的神经机器翻译开源系统之一。https://github.com/facebookresearch/fairseq \item Fairseq:Fairseq\cite{Ottfairseq}是由Facebook开发的,基于PyTorch框架的用以解决序列到序列问题的工具包,其中包括基于卷积神经网络、基于循环神经网络、基于Transformer的模型等。Fairseq是当今使用最广泛的神经机器翻译开源系统之一。https://github.com/facebookresearch/fairseq
\vspace{0.5em} \vspace{0.5em}
\item Tensor2Tensor:Tensor2Tensor\cite{VaswaniTensor2Tensor}是由谷歌推出的,基于TensorFlow框架的开源系统。该系统基于Transformer模型,因此可以支持大多数序列到序列任务。得益于Transformer 的网络结构,系统的训练速度较快。现在,Tensor2Te-\\nsor也是机器翻译翻译领域广泛使用的开源系统之一。\url{https://github.com/tensorflow/tensor2tensor} \item Tensor2Tensor:Tensor2Tensor\cite{VaswaniTensor2Tensor}是由谷歌推出的,基于TensorFlow框架的开源系统。该系统基于Transformer模型,因此可以支持大多数序列到序列任务。得益于Transformer 的网络结构,系统的训练速度较快。现在,Tensor2Te-\\nsor也是机器翻译翻译领域广泛使用的开源系统之一。网址:\url{https://github.com/tensorflow/tensor2tensor}
\vspace{0.5em} \vspace{0.5em}
\item OpenNMT:OpenNMT\cite{KleinOpenNMT}系统是由哈佛大学自然语言处理研究组开源的,基于Torch框架的神经机器翻译系统。OpenNMT系统的早期版本使用Lua 语言编写,现在也扩展到了TensorFlow和PyTorch,设计简单易用,易于扩展,同时保持效率和翻译精度。\url{https://github.com/OpenNMT/OpenNMT} \item OpenNMT:OpenNMT\cite{KleinOpenNMT}系统是由哈佛大学自然语言处理研究组开源的,基于Torch框架的神经机器翻译系统。OpenNMT系统的早期版本使用Lua 语言编写,现在也扩展到了TensorFlow和PyTorch,设计简单易用,易于扩展,同时保持效率和翻译精度。网址:\url{https://github.com/OpenNMT/OpenNMT}
\vspace{0.5em} \vspace{0.5em}
\item 斯坦福神经机器翻译开源代码库:斯坦福大学自然语言处理组(Stanford NLP)发布了一篇教程,介绍了该研究组在神经机器翻译上的研究信息,同时实现了多种翻译模型\cite{luong2016acl_hybrid}\url{https://nlp.stanford.edu/projects/nmt/} \item 斯坦福神经机器翻译开源代码库:斯坦福大学自然语言处理组(Stanford NLP)发布了一篇教程,介绍了该研究组在神经机器翻译上的研究信息,同时实现了多种翻译模型\cite{luong2016acl_hybrid}。网址:\url{https://nlp.stanford.edu/projects/nmt/}
\\{\color{red} 此处也问了学长学姐,可能该处的原意是引用了教程\\https://sites.google.com/site/acl16nmt/,所以按照自己的理解改了一下,另外在斯坦福nlp的官网上发现他们实现的三种结构中,只有两个开源了代码库,并且这两个连接给出的引用是一致的,所以暂时选用了它给出的引用}
\vspace{0.5em} \vspace{0.5em}
\item THUMT:清华大学NLP团队实现的神经机器翻译系统,支持Transformer等模型\cite{ZhangTHUMT}。该系统主要基于Tensorflow和Theano实现,其中Theano版本包含了RNNsearch模型,训练方式包括MLE (Maximum Likelihood Estimate), MRT\\(minimum risk training), SST(semi-supervised training)。Tensorflow 版本实现了Seq2Seq, RNNsearch, Transformer三种基本模型。\url{https://github.com/THUNLP-MT/THUMT} \item THUMT:清华大学NLP团队实现的神经机器翻译系统,支持Transformer等模型\cite{ZhangTHUMT}。该系统主要基于Tensorflow和Theano实现,其中Theano版本包含了RNNsearch模型,训练方式包括MLE (Maximum Likelihood Estimate), MRT\\(minimum risk training), SST(semi-supervised training)。Tensorflow 版本实现了Seq2Seq, RNNsearch, Transformer三种基本模型。网址:\url{https://github.com/THUNLP-MT/THUMT}
\vspace{0.5em} \vspace{0.5em}
\item NiuTrans.NMT:由小牛翻译团队基于NiuTensor工具集实现,支持循环神经网络、Transformer等结构,并支持语言建模、序列标注、机器翻译等任务。支持机器翻译GPU与CPU 训练及解码。其小巧易用,为开发人员提供快速二次开发基础。此外,NiuTrans.NMT已经得到了大规模应用,形成了支持187种语言翻译的小牛翻译系统。\url{http://niutrans.com/opensource/} \item NiuTrans.NMT:由小牛翻译团队基于NiuTensor工具集实现,支持循环神经网络、Transformer等结构,并支持语言建模、序列标注、机器翻译等任务。支持机器翻译GPU与CPU 训练及解码。其小巧易用,为开发人员提供快速二次开发基础。此外,NiuTrans.NMT已经得到了大规模应用,形成了支持187种语言翻译的小牛翻译系统。网址:\url{http://niutrans.com/opensource/}
\vspace{0.5em} \vspace{0.5em}
\item MARIANNMT:主要由微软翻译团队搭建\cite{JunczysMarian},其使用纯C++实现的用于GPU\\/CPU训练和解码的引擎,支持多GPU训练和批量解码,最小限度依赖第三方库,静态编译一次之后,复制其二进制文件就能在其他平台使用。\url{https://marian-nmt.github.io/} \item MARIANNMT:主要由微软翻译团队搭建\cite{JunczysMarian},其使用纯C++实现的用于GPU\\/CPU训练和解码的引擎,支持多GPU训练和批量解码,最小限度依赖第三方库,静态编译一次之后,复制其二进制文件就能在其他平台使用。网址:\url{https://marian-nmt.github.io/}
\vspace{0.5em} \vspace{0.5em}
\item Sockeye:由Awslabs开发得神经机器翻译框架\cite{hieber2017sockeye}。其中支持RNNSearch、Tra-nsformer、CNN等翻译模型,同时还有提供了从图片翻译到文字的模块。提供了WMT 德英新闻翻译、领域适应任务、多语言零资源翻译任务的教程。\url{https://awslabs.github.io/sockeye/} \item Sockeye:由Awslabs开发得神经机器翻译框架\cite{hieber2017sockeye}。其中支持RNNSearch、Tra-nsformer、CNN等翻译模型,同时还有提供了从图片翻译到文字的模块。提供了WMT 德英新闻翻译、领域适应任务、多语言零资源翻译任务的教程。网址:\url{https://awslabs.github.io/sockeye/}
\vspace{0.5em} \vspace{0.5em}
\item CytonMT:由NICT开发的一种用C++实现的高效神经机器翻译开源工具包\cite{WangCytonMT}。主要支持Transformer模型,并支持一些常用的训练方法以及解码方法。\url{https://github.com/arthurxlw/cytonMt} \item CytonMT:由NICT开发的一种用C++实现的高效神经机器翻译开源工具包\cite{WangCytonMT}。主要支持Transformer模型,并支持一些常用的训练方法以及解码方法。网址:\url{https://github.com/arthurxlw/cytonMt}
\vspace{0.5em} \vspace{0.5em}
\item OpenSeq2Seq:由NVIDIA团队开发的\cite{KuchaievMixed}基于Tensorflow的模块化架构,用于序列到序列的模型,允许从可用组件中组装新模型,支持混合精度训练,利用NVIDIA Volta Turing GPU中的Tensor核心,基于Horovod的快速分布式训练,支持多GPU,多节点多模式。\url{https://nvidia.github.io/OpenSeq2Seq/html/index.html} \item OpenSeq2Seq:由NVIDIA团队开发的\cite{KuchaievMixed}基于Tensorflow的模块化架构,用于序列到序列的模型,允许从可用组件中组装新模型,支持混合精度训练,利用NVIDIA Volta Turing GPU中的Tensor核心,基于Horovod的快速分布式训练,支持多GPU,多节点多模式。网址:\url{https://nvidia.github.io/OpenSeq2Seq/html/index.html}
\vspace{0.5em} \vspace{0.5em}
\item NMTPyTorch:由勒芒大学语言实验室发布的基于序列到序列框架的神经网络翻译模型\cite{nmtpy2017},Nmtpytorch的核心部分依赖于Numpy,Pytorch和tqdm。其允许训练各种端到端神经体系结构,包括但不限于神经机器翻译,图像字幕和自动语音识别系统。\url{https://github.com/lium-lst/nmtpytorch} \item NMTPyTorch:由勒芒大学语言实验室发布的基于序列到序列框架的神经网络翻译模型\cite{nmtpy2017},Nmtpytorch的核心部分依赖于Numpy,Pytorch和tqdm。其允许训练各种端到端神经体系结构,包括但不限于神经机器翻译,图像字幕和自动语音识别系统。网址:\url{https://github.com/lium-lst/nmtpytorch}
\end{itemize} \end{itemize}
\vspace{0.5em} \vspace{0.5em}
......
...@@ -55,7 +55,7 @@ ...@@ -55,7 +55,7 @@
\IfFileExists{C:/WINDOWS/win.ini} \IfFileExists{C:/WINDOWS/win.ini}
{\newcommand{\mycfont}{song}} {\newcommand{\mycfont}{song}}
%{\newcommand{\mycfont}{gbsn}} {\newcommand{\mycfont}{gbsn}}
\begin{CJK}{UTF8}{\mycfont} \begin{CJK}{UTF8}{\mycfont}
\end{CJK} \end{CJK}
......
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论