帮助 关于我们

返回检索结果

融合耦合距离区分度和强类别特征的短文本相似度计算方法
Combining Coupled Distance Discrimination and Strong Classification Features for Short Text Similarity Calculation

查看参考文献12篇

马慧芳 1,2,3 *   刘文 1   李志欣 3   蔺想红 1  
文摘 短文本相似度计算在社会网络、文本挖掘和自然语言处理等领域中起着至关重要的作用.针对短文本内容简短、特征稀疏等特点,以及传统的短文本相似度计算忽略类别信息等问题,提出一种融合耦合距离区分度和强类别特征的短文本相似度计算方法.一方面,在整个短文本语料库中利用两个共现词之间的距离计算词项共现距离相关度,并以此来对词项加权从而捕获词项间内联和外联关系,得到短文本的耦合距离区分度相似度;另一方面,基于少量带类别标签的监督数据提取每类中强类别区分能力的特征项作为强类别特征集合,并利用词项的上下文来对强类别特征语义消歧,然后基于文本间包含相同类别的强类别特征数量来衡量文本间的相似度.最后,本文结合耦合距离区分度和强类别特征来衡量短文本的相似度.经实验证明本文提出的方法能够提高短文本相似度计算的准确率.
其他语种文摘 Text similarity measures play a vital role in text related applications in tasks such as social networks, text mining,natural language processing, and others. The typical characteristics of short texts demonstrate severe sparseness and high dimension while the traditional short texts similarity calculation always ignores category information. A coupled distance discrimination and strong classification features based approach for short text similarity calculation,CDDCF, is presented. On the one hand, co-occurrence distance between terms are considered in each text to determine the co-occurrence distance correlation, based on which the weight for each term can be determined and the intra and inter relations between words are established. The similarity of coupling distance discrimination on short text can be captured. On the other hand, strong classification features are extracted via labeled texts. The similarity between two short texts is measured by using the common number of strong discrimination features with the same context. Finally, the distance discrimination and strong classification features are unified into a joint framework to measure the similarity of short texts. Experimental results show that CDDCF performs better compared to baseline algorithms in term of its performance and efficiency of similarity computation.
来源 电子学报 ,2019,47(6):1331-1336 【核心库】
DOI 10.3969/j.issn.0372-2112.2019.06.021
关键词 文本挖掘 ; 自然语言处理 ; 文本聚类 ; 社会网络 ; 耦合关系 ; 特征提取 ; 语义消歧 ; 相似度计算
地址

1. 西北师范大学计算机科学与工程学院, 甘肃, 兰州, 730000  

2. 桂林电子科技大学, 广西可信软件重点实验室, 广西, 桂林, 541004  

3. 广西师范大学, 广西多源信息挖掘与安全重点实验室, 广西, 桂林, 541004

语种 中文
文献类型 研究性论文
ISSN 0372-2112
学科 自动化技术、计算机技术
基金 国家自然科学基金 ;  广西多源信息挖掘与安全重点实验室开放基金项目 ;  广西可信软件重点实验室研究课题
文献收藏号 CSCD:6668562

参考文献 共 12 共1页

1.  曹玖新. 基于多维特征分析的社交网络意见领袖挖掘. 电子学报,2016,44(4):898-905 CSCD被引 14    
2.  Song S. Probabilistic correlation-based similarity measure on text records. Information Sciences,2014,289(1):8-24 CSCD被引 8    
3.  Li P. Alarge probabilistic semantic network based approach to compute term similarity. IEEE Transactions on Knowledge & Data Engineering,2015,27(10):2604-2617 CSCD被引 6    
4.  Chen Q. Document similarity analysis via involving both explicit and implicit semantic couplings. IEEE International Conference on Data Science and Advanced Analytics,2016:1-10 CSCD被引 2    
5.  Cheng X. Coupled term-term relation analysis for document clustering. International Joint Conference on Neural Networks,2013:1-8 CSCD被引 1    
6.  Zhang L. Feature correlation hypergraph: exploiting high-order potentials for multimodal recognition. IEEE Transactions on Cybernetics,2014,44(8):1408-1419 CSCD被引 3    
7.  Ma H. Leveraging term co-occurrence distance and strong classification features for short text feature extraction. International Conference on Knowledge Science,Engineering and Management,2017:67-75 CSCD被引 2    
8.  Michael Ley. DBLP Dataset,2016 CSCD被引 1    
9.  搜狗实验室. 文本分类语料库,2012 CSCD被引 4    
10.  Ken Lang. 20 Newsgroups Dataset,2009 CSCD被引 1    
11.  刘文. 融合共现距离和区分度的短文本相似度计算方法. 计算机工程与科学,2017,29(3):52-53 CSCD被引 1    
12.  Wen H. A semi-supervised text clustering based on strong classification features affinity propagation. Pattern Recognition and Artificial Intelligence,2014,27(7):646-654 CSCD被引 1    
引证文献 3

1 石彩霞 多重检验加权融合的短文本相似度计算方法 计算机工程,2021,47(2):95-102
CSCD被引 2

2 刘亚波 基于长短时记忆网络的电商大数据同一性标定 计算机工程与科学,2021,43(3):407-415
CSCD被引 0 次

显示所有3篇文献

论文科学数据集
PlumX Metrics
相关文献

 作者相关
 关键词相关
 参考文献相关

版权所有 ©2008 中国科学院文献情报中心 制作维护:中国科学院文献情报中心
地址:北京中关村北四环西路33号 邮政编码:100190 联系电话:(010)82627496 E-mail:cscd@mail.las.ac.cn 京ICP备05002861号-4 | 京公网安备11010802043238号