|
基于短语的汉维/维汉统计机器翻译
Phrase-based Chinese-Uyghur/Uyghur-Chinese Statistical Machine Translation
查看参考文献7篇
文摘
|
利用电话录音的汉维平行语料库和开源的Moses系统构建一个基于短语的统计机器翻译系统。针对汉维平行语料库规模较小和维吾尔语形态变化比较丰富的特点,通过对词级的语料库进行切分得到词素级的语料库,并分别进行词一级的实验和词素级的实验。实验表明,词素级的实验能降低无法识别的词的概率,提高翻译的质量。 |
其他语种文摘
|
This paper gives a description of implementing a phrase-based machine translation system for Chinese-Uyghur,by the Moses toolkit,using a parallel corpus which is based on telephone recording.For the small scale parallel corpus and highly-inflected characteristics for Uyghur,it splits the Uyghur words into morphemes,and it gets another parallel corpus on morpheme-level.Experiments are carried out on word-level and morpheme-level separately,and show it can reduce the probability of Out-Of-Vocabulary(OOV)and improve the translation quality. |
来源
|
计算机工程
,2011,37(9):16-18,21 【核心库】
|
关键词
|
汉维
;
维汉
;
词素
;
预处理
;
后处理
|
地址
|
1.
中国科学院新疆理化技术研究所, 乌鲁木齐, 830011
2.
中国科学院新疆分院, 乌鲁木齐, 830011
|
语种
|
中文 |
文献类型
|
研究性论文 |
ISSN
|
1000-3428 |
学科
|
自动化技术、计算机技术 |
基金
|
中国科学院知识创新工程西部行动计划项目
|
文献收藏号
|
CSCD:4289687
|
参考文献 共
7
共1页
|
1.
Dyer C.
Using Word Lattices to Improve Translation from Morphologically Complex Languages,2007
|
被引
2
次
|
|
|
|
2.
Koehn P. Europarl:A Parallel Corpus for Statistical Machine Translation.
Proc.of the 10th Machine Translation Summit,2005
|
被引
1
次
|
|
|
|
3.
Creutz M.
Unsupervised Morpheme Segmentation and Morphology Induction from Text Corpora Using Morfessor1.0,2005
|
被引
1
次
|
|
|
|
4.
杨攀. 汉蒙统计机器翻译中的形态学方法研究.
中文信息学报,2009,23(1):50-56
|
被引
9
次
|
|
|
|
5.
Koehn P. Statistical Phrase-based Translation.
Proc,of HLTNAACL'03,2003:48-54
|
被引
1
次
|
|
|
|
6.
米尔夏提.力提甫. 汉维机器翻译中维语动词的处理方法.
新疆大学学报:自然科学版,2004,21(1):77-80
|
被引
1
次
|
|
|
|
7.
艾山.吾买尔. 基于最大熵的维吾尔语句子边界识别模型.
计算机工程,2010,36(6):24-26
|
被引
1
次
|
|
|
|
|
|