首页 投资策略 财务报表分析系列:机器学习在上市公司财务造假识别中的应用

财务报表分析系列:机器学习在上市公司财务造假识别中的应用

投资策略 43

  核心观点:财务造假会影响投资者的判断,从而给投资者带来巨大的损失。本文选取了2001 至2022 年间,证监会,上交所以及深交所发布的公告中搜集到发生财务造假的A 股上市公司作为造假样本,共涉及1503 家公司的3959 份年报。从财务指标、公司基本情况和市场指标三个维度入手, 构建了特征变量池。使用了 Logistic 回归、XGBoost 和MLP,3 种机器学习方法,构建上市公司财务造假识别模型。

      其中XGBoost 回归结果最优,XGBoost 结果为准确率76.43%,精确率18.12%,召回率69.63%,特异性76.93%。通过对特征重要度的分析可以发现,非标的审计意见、与财务费用相关的指标、与净利润相关的指标、预付款项等,在现实中如果要判断财务造假,可以从这些特征入手,观察它们是否出现异常。

      财务造假数量增加,虚假记载是最主要的造假动机2001 至2022 年,涉及财务造假的公司达1503 家。财务造假会影响投资者的判断,从而给投资者带来巨大的损失,也给中国资本市场的健康发展蒙上了阴影。财务造假数量呈现增长趋势,虽然近两年有所缓解,但对财务造假的甄别仍然值得关注。经统计,超过90%的财务造假处罚类型均为虚假记载,因此可以围绕利润的形成过程,构建识别的特征。本文选取了2001 至2022 年间,证监会,上交所以及深交所发布的公告中搜集到发生财务造假的A 股上市公司作为造假样本,共涉及1503 家公司的3959 份年报。为了保证模型的可回测性,选取控制样本为当年所有无造假的上市公司。对于连续年度造假的样本,将每一年都视为一个独立的造假样本。

      根据财务指标、公司基本情况和市场指标,构建特征变量池,结合显著性检验筛选,使用多种机器学习算法构建预测模型依据财务造假常见的手段,从财务指标、公司基本情况和市场指标三个维度入手,构建了特征变量池,结合显著性检验进一步筛选。本文使用了 Logistic 回归、XGBoost 和MLP,3 种机器学习方法,构建上市公司财务造假识别模型。不同算法的原理不同,表现相近。结果表明,XGBoost 回归结果最优,XGBoost 结果为准确率76.43%,精确率18.12%,召回率69.63%,特异性76.93%。

财务报表分析系列:机器学习在上市公司财务造假识别中的应用


      不同机器学习算法中特征重要度均较高的特征是财务造假识别的关键特征

      通过对特征重要度的分析可以发现,在现实中如果要判断财务造假,可以从非标的审计意见、与财务费用相关的指标、与净利润相关的指标、预付款项等特征入手,观察它们是否出现异常。

      风险提示:数据质量风险、机器学习模型风险、依赖风险

机构:中信建投证券股份有限公司 研究员:王程畅 日期:2024-11-20

*免责声明:文章内容仅供参考,不构成投资建议

*风险提示:股市有风险,入市需谨慎