贝叶斯网在公司破产预测中的应用.doc

上传人:韩长文 文档编号:3625494 上传时间:2019-09-18 格式:DOC 页数:4 大小:153.50KB
返回 下载 相关 举报
贝叶斯网在公司破产预测中的应用.doc_第1页
第1页 / 共4页
贝叶斯网在公司破产预测中的应用.doc_第2页
第2页 / 共4页
贝叶斯网在公司破产预测中的应用.doc_第3页
第3页 / 共4页
贝叶斯网在公司破产预测中的应用.doc_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《贝叶斯网在公司破产预测中的应用.doc》由会员分享,可在线阅读,更多相关《贝叶斯网在公司破产预测中的应用.doc(4页珍藏版)》请在三一文库上搜索。

1、精品论文贝叶斯网在公司破产预测中的应用郭艳军,叶鹰华中科技大学数学与统计学院,武汉 (430074)摘要:通过主成分分析将多项破产预测因子转化为相互独立的几个新的综合指标,建立朴 素贝叶斯网模型并确定网络参数,最后通过构造似然比对上市公司进行预测。而且此模型亦适用于作其它预测。此外,预测因子的选取以及采用非线性主成分分析方法压缩预测因子都 可能提高预测精度,有待进一步研究。关键词:朴素贝叶斯网;主成分;似然比;破产预测 中图分类号:O212文献标记码:A0. 引言对数回归技术(Logistic Regression)是一种常用来做预测的工具。贝叶斯网又称因果网, 也常用作分析预测。与回归技术相

2、比,用贝叶斯网作预测有以下几个优点:一、它对变量的 分布没有任何的限制;二、对于有缺失数据的样本,它有更完善的数据修补技术,例如 EM 算法、SEM 算法等1,而且即使去掉某些缺失数据所属变量,仍可进行预测;三、由于贝叶 斯网是图论与概率论相结合的产物,它能以一种直观而又科学的方式把各变量之间的关系反 映到网络结构中。本文所构造的朴素贝叶斯网模型就是一种结构简单而且计算复杂度低的贝 叶斯网。1. 朴素贝叶斯网朴素贝叶斯网模型(Nave Bayes Model)是一个包含一个根节点,多个叶节点的树状贝叶 斯网。图 1 就是一个包含 n 个叶节点的朴素贝叶斯网模型。通常根节点 C 称为类别变量,

3、A1,A2 , ,An 称为属性变量,而且要求各属性变量之间必须相互独立。此模型的主要优点 就是结构简单,计算复杂度低。由各属性变量之间的独立性可得出下面的公式:nP(C ) P( Ai C )P(C A , A , A ) = i =1 .(1.1)- 4 -12nP( A1 , A2 , An )CA1A2. . .A3An2. 主成分分析图 1 朴素贝叶斯网模型主成分分析的基本思想是在损失很少的前提下把彼此相关的一组指标变量转化为彼此独立的一组新指标变量,并且其中较少的几个新指标变量就能综合反映原来多个指标变量中 所包含的主要信息,并可依据新变量与原变量的关系对变量的实际含义作合理的解释

4、。主成分分析的一般步骤如下:(1)假设对 p 个指标作 n 次观测得到样本观测矩阵 X(2)对 X ij 标准化并计算样本相关阵 R = (rij ) p p .= ( X1 , Xp2 , , Xij) = (X.)n p(3)计算 R 的特征值 1 2 p 0 和单位正交化的特征向量 e1 , e2 , e p ,则称变量 Z j= e jX ( j = 1,2, p )为第 j 个主成分。k(4)按累积方差贡献率 ii =13. 应用pii =1 85%的准则确定最小 k 值即为选取的主成分个数.在本次实验过程中,选取营业外收益率(x1)、资产收益率(x2)、净利润率(x3)、现金比率(

5、x4)、资本充足率(x5)、应收账款回收率(x6)、资产周转率(x7)、市盈率(x8)、 速动比率(x9)、总资产增长率(x10)、流动比率(x11)、债务资产比率(x12)等十二项指标对 97-98 年 1535 家上市公司(其中 125 家破产)进行破产预测。3.1 确定主成分个数首先通过主成分分析法对十二个指标进行压缩,由于前六个主成分的累积方差贡献率已 达到 89%,将它们分别记为 A1 , A2 , , A6 .下面给出前三个主成分表达式: A1=0.1167x1+0.3426x2+0.0934x3+0.4185x4+0.3650x5-0.0303x6+0.2552x7-0.0348

6、x8+0.4543x9-0.2712x10+0.4519x11-0.0237x12A2=-0.2890x1-0.3339x2-0.1355x3+0.2519x4+0.1270x5+0.0622x6-0.5040x7-0.0578x8+0.3036x9+0.5084x10+0.3004x11-0.0701x12A3=0.4276x1+0.2138x2+0.4680x3-0.1270x4+0.2784x5+0.3186x6-0.2974x7-0.4346x8-0.0988x9+0.2184x10-0.0963x11-0.1147x12显然,主成分 A1 反映了公司的短期偿债能力,主成分 A2 反映

7、了公司的营运能力,主成 分 A3 反映了公司的盈利能力。由于各 Ai(i=1,26)相互独立,此时就可以构造如图 2 所示的包含这六个属性变量的朴素贝叶斯网。记 B 为公司破产事件, B 为 B 的逆事件,A= ( A1 , A2 , A6 ) 为预测公司破产的新综合指标向量。由公式(1.1)构造如下似然比公式:=P(B A)L = P(B)6 P( Ai B)P(B A)P(B)i =1P( Ai B)若 L 1 ,即认为该公司破产,反之则认为该公司没有破产。BA1A2. . .A5A6图 2 预测模型 数据来源于 CCER3.2 确定网络参数用贝叶斯网作预测通常各节点取离散值。因此,必须先

8、对各连续指标变量作离散化处理。 考虑到多数连续的破产预测指标分布“尖峰厚尾”的特性,采用 EP-T2方法对上面的六个连续a综合指标作离散化处理。设某项指标密度函数为 f ( x), x R ,由公式18.5% = f ( x)dx ,ba63% =f ( x)dx 分别确定分位点 a、b 的值。若某公司该项指标值小于 a,记其状态为“低”,若处于 a 与 b 之间,记其状态为“中”,若大于 b,记其状态为“高”。在实际应用中,由于各指标分布的参数很难确定,因此本文依照大数定律的思想,由实验中的 1535 个样本来确定 各指标所对应 a、b 的值。记 Xij 为第 i 项指标第 j 个样本值,

9、i = 1,2, 6, j = 1,2, 1535 . 按该项指标对样本作升序排列后依次记为 X (i ,1) , X (i , 2) ,,X (i ,1535) .显然满足 18.5%和 63%的第 i 项指标对应的 a、b 值分别为 X (i , 284) 和 X (i ,1251) .由于在似然比公式中涉及到破产和非破产条件下的两种条件概率参数,因此需要结合样 本数据分别在破产和非破产条件下确定各指标三种状态下参数值。表一给出了六个综合指标 的所有网络参数。表 1 网络参数表A1低(%)中(%)高(%)A2低(%)中(%)高(%)破产21.657.620.8破产15.252.832非破产

10、18.263.518.3非破产18.863.917.3A3低(%)中(%)高(%)A4低(%)中(%)高(%)破产47.2484.8破产2849.622.4非破产15.964.319.8非破产17.764.118.2A5低(%)中(%)高(%)A6低(%)中(%)高(%)破产26.464.88.8破产41.645.612.8非破产17.762.919.4非破产16.564.5193.3 预测结果在似然比公式中,以 1535 个样本中公司破产率作为公司破产的先验概率 P(B),结合表1 中的网络参数对 1535 家上市公司进行预测。首先将 1410 家非破产公司和 125 家破产公司分别随机等分

11、为五个子样本集,对每个子 样本集各自进行预测;然后增大子样本容量分别在作三次预测。将 1410 家非破产公司和 125 家破产公司分别随机等分为三个子样本集(其中有一个子样本集包含 41 家破产公司),对各 个子样本集进行预测。表 2 给出了八次预测结果的正确率。由表二可知八次破产预测的平均 正确率达 77.42%,非破产预测正确率达 81.28%。此外,由本次实验所得的六个主成分数据可以拟合出如下的对数回归方程:P(B)y=95.06+5.41A1-3.33A2-3.28A3-9.31A4-0.95A5+32.76A6.其中 y = ln.1 P(B)由上式作破产预测正确率可达 76%,非破

12、产预测正确率达 83.46%。显然,由本文所构 造的朴素贝叶斯网模型基本可达到与对数回归技术相同的预测水平。表 2 预测结果表预测破产正确率(%)预测非破产正确率(%)184.3680.72273.4885.96382.5680.28471.4777.54572.8783.26675.9679.56780.4282.44878.2380.47平均77.4281.284. 结论朴素贝叶斯网是一种结构简单而又计算复杂度低的模型。本文通过对多项公司破产因子 作主成分分析,将其转化为相互独立的几个新的综合指标,并由此来构造朴素贝叶斯网对1535 家上市公司进行破产预测。实验结果表明本文所构造的朴素贝叶

13、斯网模型基本能够达 到与对数回归技术同样的预测水平。但在有数据缺失的情形下,贝叶斯网模型就可体现出它 在处理缺失数据方面的优越性。由于主成分分析与指标的选取有很大的关系,因此当指标选取恰当时可以进一步提高预 测的准确率。此外,由于各预测指标数据的线性关系不太明显,因此若采用非线性主成分分 析法可能会得到更好的预测效果。此外,本文的方法还可用于其它领域,例如水质监测、风 险评估等。参考文献1 张连文,郭海鹏. 贝叶斯网引论M. 北京: 科学出版社, 20062 Keefer, D.L, Bodily, S.E. 3-point approximations for continuous rand

14、om variables. Management Science 29 (1983) 595-6063 范金城,梅长林. 数据分析M. 北京: 科学出版社, 20024 荆新,王化成,刘俊彦. 财务管理学M. 北京: 科学出版社, 20055 余锦华,杨维权. 多元统计分析与应用. 广州: 中山大学出版社, 20056 C.E.Bonafede, P. Giudici. Bayesian Networks for enterprise risk assessment. Physic A 382(2007) 22-28Using Bayesian Networks for Bankruptcy

15、PredictionGuo Yanjun, Ye YingDep. of Math., Huazhong Univ. of Science and Technology, Wuhan (430074)AbstractIn this study we mainly use Nave Bayes Model for bankruptcy prediction. First, some bankruptcypredictors are transformed into lesser independent variables through principal component analysis

16、method. Then we can construct the nave Bayes model and ascertain the model parameter from sample data. Finally, we can process the prediction through a likelihood-ratio. In addition; the method in this study can also be used for other prediction.Keywords: Nave Bayes model; principal component analysis; likelihood-ratio; bankruptcy prediction作者简介: 郭艳军,男,1982 年生,华中科技大学硕士研究生。主要研究方向是贝叶斯网 理论与数据挖掘。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1