基于财报文本的情感语调的分析:DEEPSEEK辅助识别财务瑕疵
财务造假样本分析:从CSMAR数据库“财务违规表”筛选2010-2021年样本,通讯服务行业造假占比最高,金融和公用事业最低。2010-2018年造假公司数量及占比上升,2019年后下降,且约58.3%的造假行为在1-2年内暴露或终止。信息披露违规成为主流,虚构利润和虚列资产减少。
特征池构建:基于上市公司定期财务报告,从8个维度构建378个比率型指标,经筛选处理后保留100个指标,形成特征池,包含5483个财务造假样本和42046个控制样本。
情感语调因子构建:利用DeepSeek R1模型分析财报文本情感语调,设计相关函数和处理流程,获取情感语调分数。财务造假公司情感语调分数整体低于正常公司,可捕捉情绪矛盾、模糊表述和行业异常等风险线索。
模型表现:分别构建Logistic、LightGBM和MLP模型,加入情感语调因子后,三个模型召回率均提升,第二类错误下降。情感语调因子在非线性模型(MLP、LightGBM)中重要性高,与传统财务指标协同,提升综合预警能力。
拓展路径:基于Zero-Shot的财报文本直接分析模式,利用大模型通用语义理解能力挖掘潜在造假信号;基于违规说明的Fine-Tuning模式,对基座LLMs进行微调构建专家模型,通过精准匹配率和人工盲测评估。
风险提示:模型过拟合风险,DeepSeek的训练依赖于投喂的框架语料与底稿数据,多维框架下存在未来函数和过拟合风险;数据口径调整风险,财务指标统计口径的调整可能带来AI配置结论的改变;AI推理的不稳健性,AI模型的输出结论具备一定随机性,多次生成可能产生不同的结果。
*免责声明:文章内容仅供参考,不构成投资建议
*风险提示:股市有风险,入市需谨慎
本站内容源自互联网,如有内容侵犯了您的权益,请联系删除相关内容。 本站不提供任何金融服务,站内链接均来自开放网络,本站力求但不保证数据的完全准确,由此引起的一切法律责任均与本站无关,请自行识别判断,谨慎投资。