故障树模块化分析系统可靠性
陈光宇 ,黄锡滋,唐小我(电子科技大学管理学院 成都 610054)
【摘要】针对软硬件复合计算机系统的可靠性分析,提出了相应的模块化分解模型,采用动态和静态相结合的方法分析系统可靠性。通过分析案例系统的可靠性和部件的重要度,揭示在软硬件复合计算机系统中软件子系统是系统可靠性增长的重要因素,说明软件可靠性分析和设计技术的研究和应用对系统可靠性的整体提高亦十分重要。
关 键 词: 可靠性; 故障树分析; 模块化; 失效率; 重要度
中图分类号 N945 文献标识码 A
Modular Solutions for Fault Tree Analysis of Reliability of Systems
CHEN Guang-yu,HUANG Xi-zi,TANG Xiao-wo(School of Management, Univ. of Electron. Sci. & Tech. of China Chengdu 610054)
Abstract Accounting for reliability analysis of computer systems with hardware and software, a dynamic and static Fault Tree model is presented to analyze reliability of systems. Analyzing reliability and components’ importance of a sample of computer systems, this paper is focused on software reliability increment as the most crucial component for increasing system reliability effectively, and thus the importance of software reliability analysis and design is illustrated to increase the global reliability of systems distinctly.
Key words reliability; fault tree analysis; modularization; failure rate; importance
1996年6月,欧洲航天局研制的“阿丽亚娜5型火箭”发射失败,根本原因在于火箭设计师重硬件可靠性设计,轻软件可靠性设计,导致火箭惯性制导系统软件出现规格和设计错误。由此看出,复合计算机系统软件可靠性分析至关重要。
源于20世纪70年代的故障树分析方法(FTA),以其严整的逻辑结构和形象的树状图形,以及强大的揭示故障根源和定量计算失效概率的功能,深受可靠性工程界的欢迎[1]。传统的FTA方法以系统的各种基本事件是否发生作为故障分析的依据,没有考虑各种基本事件在时间变化过程中的相互依存关系,是一种静态的基本事件组合关系的图形化分析方法。而动态FTA分析方法是传统(静态)FTA的扩展集,即在传统故障树逻辑门的基础上,新设计了若干能够反映系统动态特征(时序活动)的逻辑门[1]。
1 复合计算机系统的FTA模块化分解模型
假定复合计算机系统是串联结构,由相互独立的硬件子系统和软件子系统组成,可得到系统的FTA模块化分解模式,如图1所示。
静态故障树采用图形化的方法表示基本事件的组合关系。组合关系可用布尔函数表达,通过最小割集、不交化方法等求解事件的失效概率。但是,计算量随着故障树逻辑门和基本事件数目的增加而呈指数增长,产生组合爆炸问题。另外,可利用早期逻辑简化、早期模块分解和早期不交化的“三早”简化技术对故障树进行综合简化处理[2]。类似的还有二元决策图(Binary Decision Diagram,BDD)[3]、GA(Genetic algorithms)等算法。BDD是一种紧凑、规范的布尔函数表示法,没有重复的子树或冗余节点,能为系统庞大的组合结构提供有效方案,是一种不需要找割集或对偶树的算法[4]。BDD的缺点是在故障树转化过程中,不能保证结果最优,不利于被广泛使用。
动态故障树模型能有效地表示基本事件的失效顺序性、功能相关性和储备件分配等相互依存关系。马尔科夫链的状态可以完整地描述部件的失效行为、部件的失效时序和储备件分配等,马尔科夫链模型可用于分析动态故障树[5]。
蒙特卡罗仿真法可用于故障树评价。对于完全接受任何失效分布的模型和无法采用分析方法解决的模型,模型仿真是一种可选方案。而且,模型仿真对于解决高度冗余的情况是非常有效的方法。例如,k/m表决门的k、m值很大,且部件不同型。在这种情况下,模型分析会产生组合爆炸,采用模型仿真将优于模型分析。模型仿真方法需要很长的运算时间才能得到所需要的高精度结果,同时采用变量减少的方法,可明显地减少运算时间。
常用的部件分布函数有固定的失效概率、失效率为常数的指数分布、威布尔分布和对数正态分布等。固定概率常常用于描述软件设计故障[4],指数分布常常用于描述物理随机故障。假如比较复杂的增长模型的数据得不到时,常常容易将固定失效概率应用到计算机应用软件的建模中[4]。不过,在具有实际数据支持的条件下,建议采用由相应的软件可靠性数学模型确定的失效概率进行建模。关于硬件的物理失效和系统软件的随机失效较准确的建模,则常常采用指数分布。
…
4 结 束 语
FTA模块化分解模型和重要度分析方法有助于系统设计师分析软硬件复合计算机系统的可靠性。案例分析提示,在目前硬件可靠性技术相对较完善的情况下,应该更加重视对软件可靠性技术的研究和应用,从而有效地提高软件子系统的可靠性,实现系统可靠性水平的整体提高。
参 考 文 献
[1] 黄锡滋. 动态故障树FTA方法的新进展[J]. 装备质量, 2003, 1: 34-43.
[2] 曾声奎. 系统可靠性设计分析教程[M]. 北京: 北京航空航天大学出版社, 2000.
[3] Dugan J B, Coppit D. Developing a low-cost high-quality software tool for dynamic fault-tree analysis[J]. IEEE Transaction on Reliability, 2000, 49(1): 49-59.
[4] Manian R, Dugan J B, Coppit D, et al. Combining various solution techniques for dynamic fault tree analysis of computer system[C]// Third IEEE International High-Assurance System Engineering Symposium, Washington D C., 1998.
[5] Dugan J B, Bavuso S, Boyd M. Dynamic fault tree models for fault tolerant computer systems[J]. IEEE Transaction on Reliability, 1992, 41(3): 363-377.
[6] Henly E J, Kumamoto H. Reliability engineering and risk assessment[M]. Englewood Cliffs: Prentice-Hall, 1981.
[7] 曹晋华, 程 侃. 可靠性数学引论[M]. 北京: 科学出版社, 1986.