帮助关于我们

返回检索结果

基于改进主题分布特征的神经网络语言模型
Neural Network Language Modeling Using an Improved Topic Distribution Feature

查看参考文献19篇

刘畅 ^1,2 张一珂 ^1,2 张鹏远 ^1,2 ^* 颜永红 ^1,2,3

文摘	在递归神经网络(RNN)语言模型输入中增加表示当前词所对应主题的特征向量是一种有效利用长时间跨度历史信息的方法。由于在不同文档中各主题的概率分布通常差别很大,该文提出一种使用文档主题概率改进当前词主题特征的方法,并将改进后的特征应用于基于长短时记忆(LSTM)单元的递归神经网络语言模型中。实验表明,在PTB数据集上该文提出的方法使语言模型的困惑度相对于基线系统下降11.8%。在SWBD数据集多候选重估实验中,该文提出的特征使LSTM模型相对于基线模型词错误率(WER)相对下降6.0%;在WSJ数据集上的实验中,该特征使LSTM模型相对于基线模型词错误率(WER)相对下降6.8%,并且在eval92测试集上,改进隐含狄利克雷分布(LDA)特征使RNN效果与LSTM相当。
其他语种文摘	Attaching topic features to the input of Recurrent Neural Network (RNN) models is an efficient method to leverage distant contextual information. To cope with the problem that the topic distributions may vary greatly among different documents, this paper proposes an improved topic feature using the topic distributions of documents and applies it to a recurrent Long Short-Term Memory (LSTM) language model. Experiments show that the proposed feature achieved an 11.8% relatively perplexity reduction on the Penn TreeBank (PTB) dataset, and reached 6.0% and 6.8% relative Word Error Rate (WER) reduction on the SWitch BoarD (SWBD) and Wall Street Journal (WSJ) speech recognition task respectively. On WSJ speech recognition task, RNN with this feature can reach the effect of LSTM on eval92 testset.
来源	电子与信息学报 ,2018,40(1):219-225 【核心库】
DOI	10.11999/jeit170219
关键词	语音识别 ; 语言模型 ; 隐含狄利克雷分布 ; 长短时记忆
地址	1. 中国科学院声学研究所, 中国科学院语言声学与内容理解重点实验室, 北京, 100190 2. 中国科学院大学, 北京, 100049 3. 中国科学院新疆理化技术研究所, 新疆民族语音语言信息处理实验室, 乌鲁木齐, 830011
语种	中文
文献类型	研究性论文
ISSN	1009-5896
学科	自动化技术、计算机技术
基金	国家自然科学基金 ; 国家重点研发计划重点专项 ; 新疆维吾尔自治区科技重大专项
文献收藏号	CSCD:6158980

参考文献共 19 共1页

引证文献 2 篇

1 徐萍基于迁移学习的个性化循环神经网络语言模型南京理工大学学报. 自然科学版,2018,42(4):401-408
被引 4 次

2 钟琪跨语言语料库的语音情感识别对比研究南京大学学报. 自然科学版,2019,55(5):765-773
被引 1 次

显示所有2篇文献

论文科学数据集

PlumX Metrics

相关文献
作者相关关键词相关参考文献相关

版权所有 ©2008 中国科学院文献情报中心制作维护：中国科学院文献情报中心
地址：北京中关村北四环西路33号邮政编码：100190 联系电话：(010)82627496 E-mail:cscd@mail.las.ac.cn 京ICP备05002861号-4 | 京公网安备11010802043238号