帮助 关于我们

返回检索结果

基于大规模语料库的古文词典构建及分词技术研究
Large-scale Online Corpus Based Classical Integrated Chinese Dictionary Construction and Word Segmentation

查看参考文献17篇

邢付贵 1,2   朱廷劭 1,2 *  
文摘 古文献的研究有助于传统文化的继承与发扬,而古文分词则是利用自然语言处理技术对古文献进行分析的重要环节。当前互联网拥有大量古汉语文本和词典方面的数据资料,该文提出利用互联网大规模古文语料构建古文基础词典;进而通过互信息、信息熵、位置成词概率多特征融合的新词发现方法从大规模古籍文本中建立候补词典;最终将基础词典与候补词典融合,形成含有349 740个字词的集成古文词典CCIDict。在CCIDict基础上,利用多种分词算法实现古文的分词。基于CCIDict的正向最大匹配算法与开源的分词器甲言比较后,F值提高了14%,取得了良好的效果,证明基于大规模古文语料库建立的古文词典,能够提供良好的古文分词效果。
其他语种文摘 The classical Chinese word segmentation is an important step to analyze existing ancient documents.In this paper,we first collect unstructured classical Chinese online corpus and accumate a basic dictionary.Then the candidate new words are discovered by a multi-feature fusion strategy,including mutual information,information entropy,and position word probability.Finally,a CCIDict of 349,740words is applied with the forward maximum matching to segment the words in classical Chinese texts,achieving 14%improvements in F-value compared with the open-source Jiayan.
来源 中文信息学报 ,2021,35(7):41-46 【核心库】
关键词 古汉语分词 ; 大数据 ; 语料库
地址

1. 中国科学院心理研究所, 北京, 100101  

2. 中国科学院大学心理学系, 北京, 100049

语种 中文
文献类型 研究性论文
ISSN 1003-0077
学科 自动化技术、计算机技术
基金 国家社会科学基金
文献收藏号 CSCD:7029840

参考文献 共 17 共1页

1.  Amrani A. A chain of text-mining to extract information in archaeology. Proceedings of the 3rd International Conference on Information and Communication Technologies:From Theory to Applications,2008:1-5 CSCD被引 1    
2.  严顺. 基于CRF的古汉语分词标注模型研究. 江苏科技信息,2016(8):14-16 CSCD被引 1    
3.  王晓玉. 基于CRFs和词典信息的中古汉语自动分词. 数据分析与知识发现,2017,1(5):62-70 CSCD被引 10    
4.  钱智勇. 基于HMM的楚辞自动分词标注研究. 图书情报工作,2014,58(4):105-110 CSCD被引 11    
5.  李筱瑜. 基于新词发现与词典信息的古籍文本分词研究. 软件导刊,2019,18(4):66-69 CSCD被引 1    
6.  张梅山. 统计与词典相结合的领域自适应中文分词. 中文信息学报,2012,26(2):8-13 CSCD被引 16    
7.  刘永楠. 海量不完整数据的核心数据选择问题的研究. 计算机学报,2018,40(4):915-930 CSCD被引 4    
8.  夭荣朋. 基于改进互信息和邻接熵的微博新词发现方法. 计算机应用,2016,36(10):2772-2776 CSCD被引 11    
9.  林自芳. 基于改进位置成词概率的新词识别. 福州大学学报(自然科学版),2011,39(1):43-48 CSCD被引 2    
10.  Voit A. Big data processing for full-text search and visualization with elasticsearch. International Journal of Advanced Computer Science and Applications,2017,8(12):76-83 CSCD被引 1    
11.  王思丽. 领域本体学习语料的自动获取与预处理方法研究. 图书馆学研究,2019(20):54-64 CSCD被引 1    
12.  鲁一冰. Skip-ngram模型解决数据稀疏问题的研究. 自动化技术与应用,2015,34(3):35-37,46 CSCD被引 1    
13.  王思力. 双数组Trie树算法优化及其应用研究. 中文信息学报,2006,20(5):26-32 CSCD被引 1    
14.  Hou J. Design and implementation of reconfigurable acceleration for in-memory distributed big data computing. Future Generation Computer Systems,2019,92(3):68-75 CSCD被引 2    
15.  刘鹏. 基于Spark的大规模文本k-means并行聚类算法. 中文信息学报,2017,31(4):145-153 CSCD被引 4    
16.  Aziz K. Big data optimisation among RDDs persistence in apache spark. Communications in Computer and Information Science,2018:29-40 CSCD被引 1    
17.  刘风成. 基于AdaBoost.MH算法的汉语多义词消歧. 中文信息学报,2006,20(3):8-15 CSCD被引 1    
引证文献 2

1 吴胜涛 基于大数据的文化心理分析 心理科学进展,2023,31(3):317-329
CSCD被引 2

2 唐雪梅 基于图卷积神经网络的古汉语分词研究 情报学报,2023,42(6):740-750
CSCD被引 1

显示所有2篇文献

论文科学数据集
PlumX Metrics
相关文献

 作者相关
 关键词相关
 参考文献相关

版权所有 ©2008 中国科学院文献情报中心 制作维护:中国科学院文献情报中心
地址:北京中关村北四环西路33号 邮政编码:100190 联系电话:(010)82627496 E-mail:cscd@mail.las.ac.cn 京ICP备05002861号-4 | 京公网安备11010802043238号