帮助 关于我们

返回检索结果

年报文本信息质量与财务违规预测——基于结构化主题模型的机器学习方法
Measuring Financial Information Quality and Forecasting Financial Fraud:Based on a Structural Topic Model Machine Learning Design

查看参考文献35篇

李广众 1   高庆 1 *   杨海生 2   陈少凌 3  
文摘 现有研究发现引入LDA (latent Dirichlet allocation)主题模型能够提高对公司财务违规的预测效果.为了进一步探讨主体模型中主题因子预测能力的来源,本文以2008-2019年我国3,397家A股上市公司18,220份年度报告为样本,在以往LDA的基础上加入公司、经理、宏观基本面变量作为主题选择变量,加入违规标签作为情景变量,对年报信息质量进行分析并提取高质量和低质量主题因子.本文基于半监督思想的结构化主题模型(structural topic model)的实证结果表明,基于STM的财务违规预测模型优于基于LDA、词频和财务指标的财务违规预测模型,其错误分类成本降低13%以上.进一步研究发现主题因子的预测能力更多地来源于公司规模、年龄、杠杆、固定资产占比等公司特征,而非反映经理特征的有关变量.本文的预测模型不仅能够预测重大违规事件,也能在精确度较高的前提下给出覆盖率较高的违规公司或安全投资标的.本文的研究在实践上对监管机构监测违规公司和投资者构建安全投资标的池具有重要参考价值.
其他语种文摘 Current research has found that the introduction of latent Dirichlet allocation(LDA) topic modeling can improve the prediction of corporate financial fraud.To further explore the source of predictive ability in the topic model,this study uses a sample of 18,220 annual reports from 3,397 A-share listed companies in China from 2008 to 2019.Building upon previous LDA models,the study incorporates company,manager,and macro fundamental variables as topic selection variables,and includes a fraud label as content variable to analyze the quality of annual report information and extract high-quality and low-quality topic factors.The empirical results of this study show that the semi-supervised STM-based financial fraud prediction model outperforms models based on LDA,word frequency,and financial indicators,reducing misclassification costs by more than 13%.Further research reveals that the predictive ability of topic factors is more closely related to company characteristics such as size,age,leverage,and proportion of PPE,rather than variables reflecting managerial characteristics.The proposed predictive model not only predicts major frauds but also provides a higher coverage of violating companies or safe investment targets with high accuracy.The findings of this study have important practical implications for regulatory agencies monitoring financial frauds and investors constructing safe investment portfolios.
来源 计量经济学报 ,2023,3(4):1032-1062 【核心库】
DOI 10.12012/CJoE2023-0017
关键词 财务违规预测 ; 信息质量 ; 结构化主题模型 ; 文本分析 ; 机器学习
地址

1. 中山大学商学院, 深圳, 518107  

2. 中山大学岭南学院, 广州, 510275  

3. 暨南大学经济学院, 广州, 510632

语种 中文
文献类型 研究性论文
ISSN 2096-9732
学科 社会科学总论
基金 国家社会科学基金重大项目 ;  国家自然科学基金 ;  广东省自然科学基金 ;  国家教育部人文社会科学研究项目
文献收藏号 CSCD:7591973

参考文献 共 35 共2页

1.  郦金梁. 有效预警上市公司违规的递延所得税异动指标和人工智能模型. 金融研究,2020(8):149-168 CSCD被引 6    
2.  刘云菁. 上市公司财务舞弊识别模型设计及其应用研究---基于新兴机器学习算法. 数量经济技术经济研究,2022,39(7):152-175 CSCD被引 4    
3.  钱爱民. 财务报告文本相似度与违规处罚——基于文本分析的经验证据. 会计研究,2020(9):44-58 CSCD被引 3    
4.  张庆龙. 上市公司财务违规特征分析及预测研究——基于企业画像和机器学习的经验证据. 审计研究,2023,232(2):73-87 CSCD被引 1    
5.  周卫华. 基于XGBoost的上市公司财务舞弊预测模型研究. 数量经济技术经济研究,2022,39(7):176-196 CSCD被引 7    
6.  Athey S. The State of Applied Econometrics: Causality and Policy Evaluation. Journal of Economic Perspectives,2017,31(2):3-32 CSCD被引 13    
7.  Baker S R. Measuring Economic Policy Uncertainty. The Quarterly Journal of Economics,2016,131(4):1593-1636 CSCD被引 133    
8.  Bao Y. Detecting Accounting Fraud in Publicly Traded US Firms Using a Machine Learning Approach. Journal of Accounting Research,2020,58(1):199-235 CSCD被引 14    
9.  Beneish M D. Detecting GAAP Violation: Implications for Assessing Earnings Management Among Firms with Extreme Financial Performance. Journal of Accounting and Public Policy,1997,16(3):271-309 CSCD被引 7    
10.  Bertomeu J. Using Machine Learning to Detect Misstatements. Review of Accounting Studies,2021,26(2):468-519 CSCD被引 7    
11.  Blei D M. Latent Dirichlet Allocation. The Journal of Machine Learning Research,2003,3:993-1022 CSCD被引 1372    
12.  Bloomfield R. Discussion of "Annual Report Readability, Current Earnings, and Earnings Persistence". Journal of Accounting and Economics,2008,45(2/3):248-252 CSCD被引 2    
13.  Brown N C. What are You Saying? Using Topic to Detect Financial Misreporting. Journal of Accounting Research,2020,58(1):237-291 CSCD被引 6    
14.  Bushee B J. Linguistic Complexity in Firm Disclosures: Obfuscation or Information?. Journal of Accounting Research,2018,56(1):85-121 CSCD被引 1    
15.  Dechow P M. Predicting Material Accounting Misstatements. Contemporary Accounting Research,2011,28(1):17-82 CSCD被引 7    
16.  Diebold F X. Comparing Predictive Accuracy, Twenty Years Later: A Personal Perspective on the Use and Abuse of Diebold-Mariano Tests. Journal of Business & Economic Statistics,2015,33:1-9 CSCD被引 2    
17.  Diebold F X. Comparing Predictive Accuracy. Journal of Business & Economic Statistics,1995,13:134-144 CSCD被引 49    
18.  Dieng A B. Topic Modeling in Embedding Spaces. Transactions of the Association for Computational Linguistics,2020,8:439-453 CSCD被引 14    
19.  Douglas K M. Effects of Communication Goals and Expectancies on Language Abstraction. Journal of Personality and Social Psychology,2003,84(4):682 CSCD被引 8    
20.  Dopuch N. Predicting Audit Qualifications with Financial and Market Variables. The Accounting Review,1987,62(3):431-454 CSCD被引 3    
引证文献 1

1 马溪远 基于新闻文本数据的财务欺诈识别研究 计量经济学报,2024,4(3):699-726
CSCD被引 0 次

显示所有1篇文献

论文科学数据集
PlumX Metrics
相关文献

 作者相关
 关键词相关
 参考文献相关

版权所有 ©2008 中国科学院文献情报中心 制作维护:中国科学院文献情报中心
地址:北京中关村北四环西路33号 邮政编码:100190 联系电话:(010)82627496 E-mail:cscd@mail.las.ac.cn 京ICP备05002861号-4 | 京公网安备11010802043238号