1.引言
对于本文来说,一次性使用的系统被定义为工作时间较短和系统功能局限于单一情况下的系统。此外,在要求使用之前,系统会经历很长时限的“休眠”贮存。对于核武器来说,弹头元件的工作时间一般为少于1秒至几小时,而寿命则长达几十年。尽管一次性使用的系统不能重复工作,但它们可以部分地由可重复工作的元件组成。例如,核武器通常包括可实际使用之前设定和复位多次的安全装置。应注意,还有作为一次性使用系统进行最佳分析的、能多次工作的系统。
对于核武器用的一次性使用系统的可靠性评估方法来说,有几个重要的元素。首先,可靠性定义的基本原则应在终端用户的需求文本中得到解释。其次,应强调可靠性分析方法的细节,包括可靠性建模方法和给模型元素定量要采取的步骤。最后,应说明支持分析的数据收集以及过程的另一重要方面。本报告中描述的一次性器件的可靠性评估方法已用了多年。当持续操作系统的技术和方法不适用时,应考虑使用本方法的元素。
2. 一次性使用系统分析面临的挑战
文献中有许多持续操作系统的的分析方法,但对于一次性使用系统来说有一些重要差别。若干重要差别将在下面进行描述。
2.1 量度
多数可靠性教科书都是从作为可靠性计算基本量度的失效率的讨论开始的。诸如平均无故障工作时间(MTBF)和平均失效前时间(MTTF)之类的量度是从失效率中推算出来的。一次性使用系统没有有效的工作期限,这些量度不适合用来给该系统的可靠性表征。相反,人们还是很想知道需要操作时成功操作的概率。这可称之为需求概率,即没有关联工作时间的概率。这样,失效概率而不是失效率就是一次性使用系统的重要基本量度。但是,应注意,现在有许多能用于一次性使用系统和持续工作系统的可靠性建模方法。失效模式、故障树和可靠性框图都适用于这两种系统。
2.2 失效特性
失效特性方面有几个差别。首先,一次性使用系统一般是不可修理的—它们必须在接受请求时在规定时间执行功能。这种系统没有第二次修理或更换的机会。发射到目标时不执行功能的核武器被看作是故障,即使可修复也是如此。许多持续工作系统是可修理的,故障使被人们所预期并纳入计划中的。
许多一次性使用系统的可靠性是受休眠贮存失效机理和生产过程变量引起的失效机理支配的,这些机理还没有被人们识别,因为系统还没有工作。持续工作系统的可靠性一般是受工作引起的失效支配的。由于一次性使用系统的潜在长期休眠贮存时间,预计失效机理和失效概率是困难的。多数制造商的数据都与工作而不是休眠贮存相关。
2.3试验
分析持续工作系统的一个显著好处是,许多失效机理(或其前兆)在开始出现或显著影响到功能时都可以被检测出来。这一般不是一次性使用系统的案例,它直到系统被操作时才有能力来揭示失效。应注意,当1个失效出现同时无法从一次性使用系统的许多元件中估计出失效率时,这就没有能力来测定了。
持续工作系统也能有效地持续收集性能数据。持续工作系统的试验一般是非破坏性的。这未必是一次性使用系统的案例,在该系统中,工作对于一些或所有元件来说是破坏性的。一次性使用系统的数据只能通过抽取元件族的样品来获得。有两个附加因素使核武器的可靠性分析更为复杂化。首先,由于条约的限制,武器永远不作为满负荷系统来操作。其次,由于安全上的担心,最低限度的使用前自我检查是允许的。
#p#副标题#e#
3.核武器解决方法的重要特性
在桑迪亚(Sandia),评估一次性使用系统可靠性的过程已开展了多年。
除了针对最后一节所述的一次性使用系统面临的挑战之外,还有下列影响解
决方法的额外特性:
1) 产品可靠性需要在操作手册中下定义。可靠性不仅是通过给定的在温
和条件下实施的试验的概率。
2)评估可靠性的保守方法是必需的—即低估可靠性比高估可靠性更能接受。因此,在强调保守主义的分析过程中,有许多要作的选择。对于许多一次性使用系统来说,保守主义至关重要,因为会带来严重的失效后果。当核武器瞄准目标和资源配置方面要作出决策时,人们理应知道它们不是基于过于乐观的可靠性估计。同时还要认识到解决方法中有许多不能验证的假定,保守的解决方法可权衡错误假定的可能效应。
3)可靠性评估基于有代表性的硬件的实际试验,目的是收集合适的试验数据来核实可靠性估计。实际上这是很困难的,因为子系统一般是高可靠的,需要许多试验。
4) 由于不可能预计一次性使用系统何时使用,因此必须对系统寿命期中的可靠性进行量化。应实行定期和特定的可靠性改进,以评价最后一次评估以来采集的数据。
由于上述的几个特性,健全和多样化的试验程序是必不可少的。试验程序的特性包括下列3个:
1) 试验程序设计用来包括工作与环境条件范围。
2) 试验期间观测到的异常现象应加以调查,以确定原因和对可靠性的影响。
3) 应保质保量地实施试验,以便适当查出问题。
4.核武器的可靠性评估方法
4.1 可靠性定义
首先,必须对一次性使用系统的可靠性下一个有意义的定义。系统要求使
用时会不会在规定条件下成功执行其规定功能呢?对于桑迪亚(Sandia)的一次性使用系统来说,可靠性被定义为:
实现下列目标的概率:
• 规定爆炸输出(“当量”);
• 瞄准目标;
• 贮存到定序环境(STS);
• 在整个武器寿命周期中。
条件:
• 接口上有规定输出和条件。
• STS规定的正常环境没有超标。
• 规定的寿命时间没有超标。
STS确定了武器系统在其正常寿命时间内会暴露的各种环境,包括运输、搬运、贮存和操作使用环境。经历的环境种类涉及到从机械振动与冲击、温度、湿度到离子辐射的范围内。由于暴露在不同的环境下,系统可靠性会有差别。这个定义的意思是我们必须假定暴露在正常STS环境的最坏案例中的概率等于1。我们要提供应用于武器系统会经历的全范围条件中的较小可靠性极限。试验程序必须覆盖环境条件的范围以及武器系统的各种工作能力。由于武器系统有几十年的寿命时间,老化引起的劣化是令人担心的主要问题。由于休眠贮存的产品的劣化前兆未显示出来,因此必须尽力去识别这样的劣化。
4.2 可靠性建模
可靠性建模提供了系统可靠性计算所用的框架,它是研制、生产和现场阶段中实施的一系列分析的组成部分,直到武器系统退役为止。建模的第一步是熟悉系统要求和设计结构,以便按预期和需要的子系统与元件特性表现设计的主要功能。这个过程的通常结果是使元件特性相互联系的图形表示。对于核武器来说,可靠性框图用作主要建模结构,因为功能度和可靠性能以有意义的方式来描绘。
根据方框图,人们可用几种方法来推论系统可靠性的数学公式。这些公式是用元件和子系统特性概率来表达所需武器系统可靠性逻辑的工具。 方框图的扩展数学表达式的个别术语表示所考虑的特性,被看作是基本事件。 用失效特性表达基本事件可以是下列分级种类之一:
1)“故障”描述一般不良特性。某故障的实例是“继电器不能给下一个组件提供合适的信号”。
2)“失效模式”系指故障表现自己的一种特殊方式,它也许是促使一般故障的若干方式之一。例如,“继电器不能闭合正常断开的触点组,给出合适的起动信号”描述导致上述一般故障实例的一个失效模式。同样,如果触点组的失效造成不能传导所需的信号,就会出现故障,这是不同的失效模式。
3)“失效机理”也许是失效模式的若干原因之一。可导致上述失效模式实例的失效机理是继电器线圈开路或可移动触点樞轴上的过分摩擦。
这3个分级水平中的任一个都可用来确定方框图中的事件。但是,方框图模型中基本事件的选择取决于对系统的影响和指分配概率的能力。方框图模型的最终使用是武器的数据驱动的评估成为可能。许多核武器子系统的复杂度和费用是如此之大,以致于大量武器试验不可行。这样,子系统级试验结果必须与系统级的相结合。子系统中的受试元件应与模型中的事件相对应,以为这些不同数据的结合提供框架。这些基本事件必须是可评估的,意即试验数据能被收集起来,使事件能分类为成功或失效。事件的合适定义需要了解关于所需系统功能和子系统或元件特性与可测试性的可靠性工程。定义基本事件的组成部分还是提供简要说明,但所考虑的失效特性要有准确的词汇说明, 称为事件定义。基本事件说明要清楚地识别元件、所考虑的特性和独特条件。最好是有详细或专门的说明而不是太含糊的说明,以便让分析人员测定哪个元件的特性是人们所关心的。基本事件一般是根据失效来定义的,并且与失效出现的事件概率相关联。
在武器设计、研制、生产和现场使用中,有许多方法可为模型和分析评价提供手段。当要实行设计改变或揭示额外失效模式时,模型必须按需要加以修改。当研制期间武器设计开展时或作为生产与现场使用阶段的改善和翻新的结果时,就会出现这些情况。另一个更新的激励因素是根据试验观测到的异常现象去揭示、调查和测定失效,并且对每个观测的失效的潜在可靠性影响进行评价。调查可揭示新失效模式,新失效模式必须定义为事件,而且被包括在模型之内。这个措施的结果是带来模型的改善和分析的更新。
#p#副标题#e#
4.3 失效事件量化
本方法的目的是提供可靠性估计值,这些估计值基于直接应用于武器使用条件和统计上有效定量的试验源的数据。这样的估计值称为评估结果。但是,有时很少的适用数据在评估周期的早期就能获得。在这种情况下,应实行称为可靠性预计的估计。预计涉及到陈述,这种陈述主要依赖于影响或无直接适用的数据时从类似数据中的外推。另一方面,评估应基于实际数据或适合用来评估事件或支持预计的确凿证据。报告非零失效概率也是桑迪亚的惯例。如果评估数据包括非实用失效,异常的50%置信上限将用来估计失效概率。这一点将在本节后面作更详细的说明。由于试验数量小,使用置信上限将会产生一个太高的失效概率。因此,桑迪亚方法必须把事件预计用作可靠性估计,一直用到驳倒预计为止。现有2个驳倒预计的常用方法。第一,试验失效数可表明预计过于乐观。另一方面,成功的试验会产生超时,以致于它们会指示预计过于乐观。在所有情况下,试验数据都用来估计可靠性。否则,试验数据就用来证实预计,直到基于试验数据的估计与预计不一致为止。
4.3.1 事件预计
预计是事件概率的初始估计,而事件概率是从历史数据和类似元件和子系统的经验推论出来的。这些预计表示适用的最佳事件概率估计值,一直到普通的研制与试验程序产生了足够的实用数据为止。这样,这些预计就是评估的底线,它们提供了评估过程中历史数据驱动的基准点。
评估过程的第一步是熟悉推荐的子系统和它在武器中的指定使用。可靠性工程师和设计师在推荐的子系统种类的失效经验方面的知识对于确定可靠性数学公式用合适事件来说是有用的。一旦失效事件被确定,可靠性工程师就必须为这些事件提供预计。所用的预计方法取决于子系统以及子系统相关的过去经验。从被预期的开始以便合适地提供可达到和支持的预计方法的分级在下面段落中进行介绍。
与现有组件相同 在这种情况下,推荐的子系统与现有组件相同或很相似,以致于与预计为基的组件有相关的历史。一些令人担心的问题可能是先前的使用环境与新环境有类似性和实用性,以及两种应用条件下武器相互作用与接口的类似性。假定这些问题不足以否定先前经验的使用,先前应用的现有评估就可用作新应用的预计。这种方法的本来假定是,未来制造的设计与生产过程与过去的相同。
与现有子系统类似 在这种情况下,没有与推荐的进行精确比较的相同子系统或应用。但是,新子系统不包括重大技术风险,现有子系统应用被判为一样足于提供能支持预计的基础。两个子系统之间的明显差异应接受分析,以便弄清它们是否被预期对预计的事件概率产生影响。有时候,可按照推荐的使用对先前的历史进行再分析,使先前的评估能反映新的应用。
没有类似的现有器件 在这种情况下,预计过程包括较低等级的子系统的分析,比如在基本部件或功能级。这种分析需要较深的了解推荐的设计及其潜在的失效机理。可惜,当初始预计需要时,设计细节和预期的失效机理一般在设计阶段早期还不是人所共知的。为此,关联的风险和错误的可能性最大。新的高技术组件的可靠性预计有不可定量的风险。风险与目标之间的权衡是一个互动的过程,因为可靠性工程师应协助评估这些目标是否实际上与风险有关。可通过合适模型和数据的使用来帮助作出这种判断。两个建议的方法如下:
1)基本部件 最简单和最保守的方法是计算每个基本部件和假定单一元件失效将产生完全的子系统失效。一般部件的失效概率可简单地加以补充。这基本上是失效模式与效应分析(FMEA)的形式,这一点下面会作更详细大说明。
2)复杂度 对于一些新的子系统来说,经验基础不可能存在。试图把新部件或设计与具有可比较的复杂度或加工阶段的现有部件或设计联系起来,有时是有帮助的。现有的历史可用作未知部件的预计基础。
FMEA的原理是考虑组件的每个基本部件的每个失效模式,查明每个失效模式对组件运行的影响。只有熟悉组件设计和应用的人员才能实施有效的FMEA。FMEA是识别设计的弱点和临界区域的有用工具。
一般和特定的部件失效信息可从许多源点中获得。但是,对于预计核武器元件的事件概率来说,每种信息都有一定的局限性。桑迪亚保持其自身的电子部件数据库。这些数据是从现场用部件的试验中获取的。这样就反映了已经历休眠贮存的部件的观测失效概率。但是,与这些数据相关联的休眠贮存时间较短(几个月或几年)。本数据库的数据代表部件的有限数量和种类,观测的失效很少(一些部件组为0)。尽管如此,本数据库还是提供所关心的条件下最理想的部件性能数据,成为这些预计用的通用数据源。
过去,MIL-STD-217广泛用于电子系统可靠性预计分析。但是,这些数据只与连续工作相关,对核武器无用。可靠性分析中心(RAC)也是可靠性信息源。下列文件或软件对一次性使用系统应用可能有用:
• 非工作期对设备可靠性的影响(RADC-TR-85-91)
• 非电子部件可靠性数据1991(NPRD-91)
• 休眠的可靠性/维修性/可测试性设计(RADC-TR-88-110)
• RAC PRISM®系统可靠性评估软件
4.3.2事件评估
可靠性评估是为单独失效事件而推论的。这些事件必须作精确的描述,当
然还必须确定,以便实施适用的试验来检测事件的发生,这样使每个试验的的合适输出能得到识别。这样的试样结果产生了成为统计数字的数据。可靠性统计大致分为两类,即连续和不连续统计。 可用无穷数值表征的试验输出成为连续变量。导致只有两个不连续状态(例如,通过/不通过)的输出的试验伯努利(Bernoulli)试验。这样试验中的数据有时称为属性数据。核武器功能一般作为不连续事件来处理。
如果假定任一状态的出现概率与所有试验的相同,伯努利分布的特性可用来评估参数、失效出现概率(P),如下式所示:
P=(失效数/试验数)
P上面的“^”指出这是该伯努利参数的估计值。这个估计值是最大似然估计(MLE),它证明是所需的统计特性。
对于出现概率低的事件来说,实行大量的试验也未观测到失效。P的MLE估计值显然是0。尽管这是的确有效的估计,但在0失效的情况下,桑迪亚的标准惯例是用较保守的估计。在这种情况下,估计值应作为二项参数P的数值来计算,二项参数P在相关数量的试验中可能会产生50%的0失效概率。由于二项分布的不连续性质,这就称为P的50%置信上限,它按下列公式计算:
P(50%UCL)=1-(0.5)1/试验数
尽管二项分布只有当样品从无穷总数中随机抽取时才完全正确,但它在多数情况下提供了有用的近似值。但是,如果样品数与总数相对较大,较精确的超几何就应假定为基础分布,并用来计算50%置信上限。
如前所述,可靠性是在系统使用中各种环境和工作条件下估计的。没有单一试验源能检查所有这些特征。只有把所有这些试验源中的数据结合起来才能实施全面的可靠性评估。可靠性评估面临的主要挑战是以有效和一致的方式使用所有适用的数据(确认和剔除所有不适用的数据),以满足可靠性定义。这样,许多源点的数据就得到评价、结合并用作数据驱动的评估的基础。这些试验源中任何一个缺少数据都会危害和劣化评估方法。不同试验源的数据适用程度是不同的,正如数据使用的方式不同那样。测定数据适用性的方法包括统计法和工程判定法。测定适用性的专门考虑包括下列3个项目:
1)数据从属的失效事件 试验只能检测某些失效机理,这样就不适用于所有确定的失效事件。
2)代表贮存的试样配置 试样应具有代表现场用产品的质量。但是,硬件或配置的改变会使某些试验结果不适合用来评估所有事件。同样,专用元件种类中识别的老化现象也会导致无法结合这些数据。
3)代表临界使用条件和环境的试验条件 试验条件应符合STS中武器规定的正常条件。对于一些应检测的关键事件特性来说,必须具有专用环境。
方法的基本前提是,推论评估的保守方法必须在判定数据适用性时存在不定性的情况下加以实践。导致评估失效概率增加的数据的排除必须彻底证明是正确的。同样,显著降低评估失效概率的数据的排除也必须彻底证明是正确的。后者的实例是试验中的数据排除,在该试验中,所有失效出现都被判为不适用(例如,过分试验或缺乏失效所需条件的试验)。
在某些情况下,不同源点的数据可通过简单的组合来使用。进行简单组合的基础是,现有储存产品的制造和设计与试样的相同,试验结果未受到不同源点的试验差异的影响,试验条件适当模拟了使用环境。可数的失效总数与相应的试验总数可用来评估上述事件概率。由于单一事件失效取决于许多机理与物理现象的存在,因此复杂度会加大。由于会出现许多情况,结合数据的通用规则是不可行的。测定数据适用性的过程经常取决于失效机理的工程知识以及与不同模拟对应的方式。
4.4 试验程序定义
通过以定期间隔和许多前述工作模式引爆足够数量的核武器来试验以估计武器族的真实可靠性,这是不可能的。因此,补充的试验程序应该用来为评估事件概率提供数据。主要元素如下:
•用仪器装备的武器的作战导弹引爆和炸弹空投,它们已无核化并已装入模拟实际产品至可能程度的试验台上。
•无核化武器的实验室试验,这些武器是在最高装配等级上受试的,而工作条件是模拟的。
•独立子系统或元件的环境、功能和破坏性试验。
现有的可靠性评估方法使用来自各种试验的数据,这些试验是在不同组件级、在各种环境条件下和以不同工作目标实施的。这种试验多样性要求在许多条件下实施缺陷检测,但是,它也意味着不是每个试验都能检测出武器系统的每个缺陷。当进行评估时,可靠性分析人员必须测定哪些试验数据是相关的。这就需要对每个缺陷依次进行深入的根本原因分析,以帮助确定每个缺陷是否能在每个试验程序中都被检测到。根本原因分析是在帮助测定数据与可靠性估计的相关性时试验程序的关键属性。
为了给未来分析和审查打下基础,评估理性、数据相关性和失效历史的文件记载和同等评审是可靠性评估过程的关键最后步骤。现有几个正规的方法用于评估过程,以保证完成这些步骤。现在还没有完整的方法来测定这个解决方法的有效性。但是,工作试验(最佳模拟实际武器使用条件)的总计成功与失效应定期与模型为基的可靠性估计进行比较。这就为该方法正确评估可靠性提供了某种保证。目前已经进行了一些研究,以致于把可靠性评估的时间与试验程序的总的结合观测作了比较。不能解释试验程序后期识别的主要缺陷的早期可靠性预计的例子很有限。但是,一般来说,该方法一旦被现有试验程序证实就获得成功。