Commit c8caf820 by zengxin

tag

parent 0ce27737
## **How Should Markup Tags Be Translated?** EMNLP 2020
## **How Should Markup Tags Be Translated?** EMNLP 2020
* 比较了两种常用的标记表示方法,测试了MT模型通过训练数据增强学习标记放置的能力;
* 构建了三种语言的标记语言测试集;
* 研究了标记表示、数据扩展大小、标记复杂度和语言对之间的相互作用,以说明每种方法的优缺点;
* 贡献
* 提出一种可在任意平行语料库中注入复杂度可控的标记方法,可以获得较高精度的数据,并且该方法能提高模型放置标签的精度:
* n-gram片段对齐,然后插入标签
* 校验集人工评价错误率,在英德、英法、ENHU中分别是3.5%、5.8%和6.1%
* 提供了几种标记处理方法的综合评价:
* 基线实验
* 基线实验使用纯文本
* 词对齐模型使用模型的训练集进行训练
* 使用BPE和FastAlign
* 强制对齐BPE文件
* 分析了两种方法,一种泛化、一种raw data
* 质量评估
## 面向机器翻译的标记语言研究,2005年 情报学报
* 提出一种标记语言
## Neural Machine Translation with Explicit Phrase Alignment
* 提出一种词对齐方法
## **Transferring** **Markup** **Tags in Statistical** **Machine Transla** **tion:** **A** **Two**-Stream Approach**
* **Two**-Stream Approach:
* 用统计机器翻译翻译纯文本,然后再向译文中插入标签
* 插标签,不仅依赖短语对齐,还依赖短语中单个词的对齐
## **Treatment of Markup in Statistical Machine Translation**
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论