• 注册
  • 查看作者
    • 应用网络可靠性模型,预测灾难事件导致的停机

      应用网络可靠性模型,预测灾难事件导致的停机

      Ahmad M. Jrad, 美国朗讯
      Jean Meng LWS

      摘要: 朗讯网络可靠性和安全性咨询服务能够为网络服务提供商分析网络上存在的各类风险, 量化网络的可靠性和安全性, 设计网络业务的抗损能力, 从而全方位地提高网络的可靠性, 安全性. 在本文中我们介绍了一种保证网络业务连续性计划(Business Continuity Process)模型,用于确定由于灾难事件、常见软硬件故障导致的预期停机时间。我们还将展示,在常见故障条件下能够行之有效的某些技术,在灾难事件中却显得无能为力。我们还将提出弥补这些不足、确保网络即使在恶劣条件下(恰好也是最需要网络的时候)仍能保持高可用性的补救方法。最后,我们还将说明,由于灾难事件的可预见性, 以及按照一定规律发生的事实,我们在预期网络可靠性时,迫切需要制定就绪的业务连续性计划(BCP).
      1. 导言
      对大多数公司而言,网络的可靠性和可用性都极为重要,对电信供应商尤其如此。实际上,电信客户经常会请求服务提供商维持业务可用性,在某些情况下,如果达不到这些要求,则可能导致严厉的经济惩罚。鉴于这一点以及当前电信市场的激烈竞争,服务提供商必须根本、透彻地了解他们的网络,以及他们能够提供和保证的预期业务可用性和可靠性。
      目前,在传统的可靠性建模中,通常主要依据硬软件故障率来计算电信网络的预期可用性。其实,这种方法忽略了一个事实:在很多情况下,网络故障很可能由通常未被视为可用性影响因素的外部事件导致。特别是,恶劣的天气环境和自然灾难等事件在决定实际的网络可用性过程中起着重要作用。这些事件通常受服务提供商设施所在位置的影响。
      在通常情况下,服务提供商会为备份设备提供备选路径以保持运行,并将原有设备和备用设备放置在同一位置,造成对安全性的错觉。在计算网络可靠性时,备份设备的实施位置通常会被忽略。但是人们仍然很容易明白,导致原有设备故障的灾难事件,很有可能导致处于同一位置的备用设备也会出现故障,进而导致长时间的业务中断。
      在本文中,我们介绍了一种新模型,可以预测由于灾难、外部事件导致的网络故障,与传统网络体系结构软硬件设备的可靠性予以全盘考虑。我们通过BCP 分类法,量化了灾难和外部事件对网络的预期影响。
      2. 背景
      传统网络的可靠性模型是从设备制造商的角度构建的,重点强调硬软件故障。人们最熟知的度量标准是网络可用性或网络停机时间。网络可靠性模型使用的输入数据包括:网元的故障率、修理/恢复率。故障时间分布呈现Poisson Arrival 模型。
      该模型对两种类型的故障进行建模:软件和硬件故障。对于硬件故障,Poisson Arrival(泊松到达)曲线从理论上讲, 是在软硬件稳定运行状态下对软硬件故障率的观察. 。对于软件故障,故障事件的Poisson Arrival 分布(泊松到达)也是在这一假设前提分布曲线。进行这种假设的合理依据是:在清除了Bug 后,每个软件版本都到达一个稳定的故障率,这个过程通常称为可靠性增长阶段。一旦估计得出单个网元的软硬件故障率,就可以简单计算出网络的可用性或停机时间。常见方法是采用参考连接数据计算网络的可用性。使用这种方法,通过网络的参考连接数据(网络结构中的呼叫路径)的端到端可用性,是通过对呼叫路径中经过网络的各个网元或各个网段的可用性进行计算后得出的。如果人们希望通过停机时间计算,则端到端的停机时间就是呼叫路径中网元的停机时间总和。
      粗略浏览实际的网络可用性数据,我们便可以发现:导致网络故障的原因多种多样,不仅是硬件和软件故障。图1 显示了导致光网中断的各种根本原因,它是依据我们对2001 FCC 停机报告的分析得出的[5]。显而易见,大多数光网停机时间由于光纤截断所致。本文重点论述了网络运行人员无法控制的类似的意外事件的建模。

      3 定义
      可用性:系统或网络的可用性指它们在指定时间内及时执行规定的功能的概率。停机时间:停机时间是以分钟/年为单位计算的,公式如下:(1-可用性)X(每年累计的分钟数)。
      MTTF:即平均故障时间。它是稳定状态故障率的倒数,它是假设网络稳定运行条件下的故障时间分布。
      MTTR:平均修复时间,也称为平均恢复时间。它是发生故障后,恢复业务所需的平均时间。

      4 计算传统的可用性

      5 预测灾难发生
      5.1 灾难类型
      我们根据灾难发生的方式及其产生的整体影响进行分类,大致将这些灾难分为三大类:
        自然灾难
        技术故障
        人为威胁

      6 网元遭受灾难

      7. 结论灾难随时可能发生,发生时会导致电信业务和其他服务行业的严重业务中断。在本文中,我们对网络和潜在的灾难类型模型进行了说明,同时提供使用这些模型的方法,以帮助电信服务提供商更有效地预测网络的停机时间。我们说明了如何利用该模型,量化灾难袭击网络任何位置的概率,以及灾难可能导致的业务停机时间。

      文件名.rar
      下载次数:0[记录]
      暂无描述
      应用网络可靠性模型,预测灾难事件导致的停机
    • 0
    • 0
    • 0
    • 913
    • 请登录之后再进行评论

      登录
    • 江苏拓米洛环境试验设备有限公司
    • 可靠性工程软件ReliaSoft中国总代理上海山外山机电
    • 上海红禾信息科技有限公司
    • 发布内容
    • 做任务
    • 动态
    • 风格
    • 到底部
    • 单栏布局 侧栏位置: