基于大规模语料库的古文词典构建及分词技术研究
Large-scale Online Corpus Based Classical Integrated Chinese Dictionary Construction and Word Segmentation
查看参考文献17篇
文摘
|
古文献的研究有助于传统文化的继承与发扬,而古文分词则是利用自然语言处理技术对古文献进行分析的重要环节。当前互联网拥有大量古汉语文本和词典方面的数据资料,该文提出利用互联网大规模古文语料构建古文基础词典;进而通过互信息、信息熵、位置成词概率多特征融合的新词发现方法从大规模古籍文本中建立候补词典;最终将基础词典与候补词典融合,形成含有349 740个字词的集成古文词典CCIDict。在CCIDict基础上,利用多种分词算法实现古文的分词。基于CCIDict的正向最大匹配算法与开源的分词器甲言比较后,F值提高了14%,取得了良好的效果,证明基于大规模古文语料库建立的古文词典,能够提供良好的古文分词效果。 |
其他语种文摘
|
The classical Chinese word segmentation is an important step to analyze existing ancient documents.In this paper,we first collect unstructured classical Chinese online corpus and accumate a basic dictionary.Then the candidate new words are discovered by a multi-feature fusion strategy,including mutual information,information entropy,and position word probability.Finally,a CCIDict of 349,740words is applied with the forward maximum matching to segment the words in classical Chinese texts,achieving 14%improvements in F-value compared with the open-source Jiayan. |
来源
|
中文信息学报
,2021,35(7):41-46 【核心库】
|
关键词
|
古汉语分词
;
大数据
;
语料库
|
地址
|
1.
中国科学院心理研究所, 北京, 100101
2.
中国科学院大学心理学系, 北京, 100049
|
语种
|
中文 |
文献类型
|
研究性论文 |
ISSN
|
1003-0077 |
学科
|
自动化技术、计算机技术 |
基金
|
国家社会科学基金
|
文献收藏号
|
CSCD:7029840
|
参考文献 共
17
共1页
|
1.
Amrani A. A chain of text-mining to extract information in archaeology.
Proceedings of the 3rd International Conference on Information and Communication Technologies:From Theory to Applications,2008:1-5
|
CSCD被引
1
次
|
|
|
|
2.
严顺. 基于CRF的古汉语分词标注模型研究.
江苏科技信息,2016(8):14-16
|
CSCD被引
1
次
|
|
|
|
3.
王晓玉. 基于CRFs和词典信息的中古汉语自动分词.
数据分析与知识发现,2017,1(5):62-70
|
CSCD被引
10
次
|
|
|
|
4.
钱智勇. 基于HMM的楚辞自动分词标注研究.
图书情报工作,2014,58(4):105-110
|
CSCD被引
11
次
|
|
|
|
5.
李筱瑜. 基于新词发现与词典信息的古籍文本分词研究.
软件导刊,2019,18(4):66-69
|
CSCD被引
1
次
|
|
|
|
6.
张梅山. 统计与词典相结合的领域自适应中文分词.
中文信息学报,2012,26(2):8-13
|
CSCD被引
16
次
|
|
|
|
7.
刘永楠. 海量不完整数据的核心数据选择问题的研究.
计算机学报,2018,40(4):915-930
|
CSCD被引
4
次
|
|
|
|
8.
夭荣朋. 基于改进互信息和邻接熵的微博新词发现方法.
计算机应用,2016,36(10):2772-2776
|
CSCD被引
11
次
|
|
|
|
9.
林自芳. 基于改进位置成词概率的新词识别.
福州大学学报(自然科学版),2011,39(1):43-48
|
CSCD被引
2
次
|
|
|
|
10.
Voit A. Big data processing for full-text search and visualization with elasticsearch.
International Journal of Advanced Computer Science and Applications,2017,8(12):76-83
|
CSCD被引
1
次
|
|
|
|
11.
王思丽. 领域本体学习语料的自动获取与预处理方法研究.
图书馆学研究,2019(20):54-64
|
CSCD被引
1
次
|
|
|
|
12.
鲁一冰. Skip-ngram模型解决数据稀疏问题的研究.
自动化技术与应用,2015,34(3):35-37,46
|
CSCD被引
1
次
|
|
|
|
13.
王思力. 双数组Trie树算法优化及其应用研究.
中文信息学报,2006,20(5):26-32
|
CSCD被引
1
次
|
|
|
|
14.
Hou J. Design and implementation of reconfigurable acceleration for in-memory distributed big data computing.
Future Generation Computer Systems,2019,92(3):68-75
|
CSCD被引
2
次
|
|
|
|
15.
刘鹏. 基于Spark的大规模文本k-means并行聚类算法.
中文信息学报,2017,31(4):145-153
|
CSCD被引
4
次
|
|
|
|
16.
Aziz K. Big data optimisation among RDDs persistence in apache spark.
Communications in Computer and Information Science,2018:29-40
|
CSCD被引
1
次
|
|
|
|
17.
刘风成. 基于AdaBoost.MH算法的汉语多义词消歧.
中文信息学报,2006,20(3):8-15
|
CSCD被引
1
次
|
|
|
|
|