帮助关于我们

返回检索结果

基于大规模语料库的古文词典构建及分词技术研究
Large-scale Online Corpus Based Classical Integrated Chinese Dictionary Construction and Word Segmentation

查看参考文献17篇

邢付贵 ^1,2 朱廷劭 ^1,2 ^*

文摘	古文献的研究有助于传统文化的继承与发扬,而古文分词则是利用自然语言处理技术对古文献进行分析的重要环节。当前互联网拥有大量古汉语文本和词典方面的数据资料,该文提出利用互联网大规模古文语料构建古文基础词典;进而通过互信息、信息熵、位置成词概率多特征融合的新词发现方法从大规模古籍文本中建立候补词典;最终将基础词典与候补词典融合,形成含有349 740个字词的集成古文词典CCIDict。在CCIDict基础上,利用多种分词算法实现古文的分词。基于CCIDict的正向最大匹配算法与开源的分词器甲言比较后,F值提高了14%,取得了良好的效果,证明基于大规模古文语料库建立的古文词典,能够提供良好的古文分词效果。
其他语种文摘	The classical Chinese word segmentation is an important step to analyze existing ancient documents.In this paper,we first collect unstructured classical Chinese online corpus and accumate a basic dictionary.Then the candidate new words are discovered by a multi-feature fusion strategy,including mutual information,information entropy,and position word probability.Finally,a CCIDict of 349,740words is applied with the forward maximum matching to segment the words in classical Chinese texts,achieving 14%improvements in F-value compared with the open-source Jiayan.
来源	中文信息学报 ,2021,35(7):41-46 【核心库】
关键词	古汉语分词 ; 大数据 ; 语料库
地址	1. 中国科学院心理研究所, 北京, 100101 2. 中国科学院大学心理学系, 北京, 100049
语种	中文
文献类型	研究性论文
ISSN	1003-0077
学科	自动化技术、计算机技术
基金	国家社会科学基金
文献收藏号	CSCD:7029840

参考文献共 17 共1页

引证文献 2 篇

1 吴胜涛基于大数据的文化心理分析心理科学进展,2023,31(3):317-329
CSCD被引 2 次

2 唐雪梅基于图卷积神经网络的古汉语分词研究情报学报,2023,42(6):740-750
CSCD被引 1 次

显示所有2篇文献

论文科学数据集

PlumX Metrics

相关文献
作者相关关键词相关参考文献相关

版权所有 ©2008 中国科学院文献情报中心制作维护：中国科学院文献情报中心
地址：北京中关村北四环西路33号邮政编码：100190 联系电话：(010)82627496 E-mail:cscd@mail.las.ac.cn 京ICP备05002861号-4 | 京公网安备11010802043238号