本文围绕弹性工程展开,先阐述弹性在工程系统中的定义,以及在政府层面基础设施系统韧性的重要性。接着描述韧性涉及对多种威胁的应对,强调弹性是系统新兴和非确定性属性。还介绍弹性系统设计原则、关键输入、产出及过程活动。

系统工程手册(Systems Engineering Handbook)是国际系统工程协会(INCOSE)编著的一本权威性指导书籍,旨在为系统工程的全生命周期过程和活动提供详细的指南,其内容基本涵盖ISO/IEC/IEEE 15288(系统生命周期过程)和ISO/IEC/IEEE 26771(系统工程管理计划)。这些标准为系统工程的全生命周期提供了清晰的指导,涵盖了需求分析、设计、开发、测试和维护等环节,帮助工程师高效管理复杂项目,确保系统从概念到退役的全过程都能科学运作。

为了方便感兴趣的人士参考,reddish(@srs.pub)基于系统工程手册第四版(2015),借助通义完成翻译,并做校稿,个别地方有做必要的修正和裁剪。

本文是的中文译本的第十章专业工程活动(Specialty Enginerring Activities)的第九小节:弹性工程(System Safety Engineering)。


1 引言

弹性的普遍定义是“…反弹或回弹的行为”(Little等人,1973年)。对于本手册中定义的工程系统,弹性已经具有以下含义(Haimes,2012年):弹性是准备和计划、吸收或减轻、从实际或潜在的不利事件中恢复过来,或者更成功地适应这些事件的能力。

尽管这个定义可以适用于任何工程系统的弹性,包括物理资产和人类,早期的工作(Hollnagel等人,2006年)主要关注组织系统的弹性。尽管这个定义被广泛使用,但一些领域,例如军事(Richards,2009年),将弹性定义为仅包括中断的恢复阶段。

在政府层面,韧性已经变得尤为重要(NRC,2012;白宫,2010),其中基础设施系统的韧性是最高优先级。基础设施系统包括消防保护、执法、电力、水、医疗保健、交通、电信和其他系统。这里概述的原则和实践可以应用于任何工程系统。根据第2.4节的定义,基础设施系统通常属于SoS,并且由于SoS的独特特征,实现韧性带来了特殊的挑战。SOI并不局限于安全关键系统。所讨论的韧性可能适用于恢复服务,如水、电力、医疗保健等。水、电力和医疗保健最有可能是安全关键系统,对安全功能做出贡献,例如洒水系统(水)、生命保障(健康)和电力(支持安全关键系统,如电网和关键基础设施)。

2 描述

韧性涉及对各种由人为和自然威胁引起的破坏的预期、生存和恢复。外部人为威胁包括恐怖袭击。内部人为威胁包括操作员和设计错误。自然威胁包括极端天气、地质事件、野火等。威胁可能是单一的或多重的。在多重威胁情景中,面对第一次威胁后的威胁可能是试图纠正初始威胁的结果。多重威胁也可能由基础设施系统中常见的连锁故障引起。

弹性是一个系统的新兴和非确定性属性(Haimes,2012)。它之所以是新兴的,是因为无法通过检查个体系统元素来确定。必须检查整个系统和元素之间的相互作用。它是非确定性的,因为中断时可能出现的大量系统状态无法以确定性或概率性的方式进行描述。统计数据分析(极端数量)可能允许进行概率评估。例如,关于福岛,存在地震和海啸的数据,可以进行定量预测。此外,还有冷却系统配置和在地震和海啸条件下故障概率的数据,使得可以对这些事件进行概率评估。由于这些新兴和非确定性属性,弹性无法测量,也无法准确预测特定威胁的结果,除非通过迭代分析试验威胁和系统配置。

设计一个有弹性的系统的目的是确定能够预测、生存并从一次或多次中断中恢复的架构和其他系统特征。图10.9是一个中断的模型。图10.9显示了在三个状态中发生的中断:事件前的初始状态、由于事件导致的中间状态以及事件后的最终状态。该图还显示了一个反馈循环,代表了多重威胁场景。系统实现这些理想结果的能力取决于一个或多个原则的应用(Jackson和Ferris,2013)。这些原则是抽象的,允许系统开发者设计特定的实现,进而产生特定的弹性特征。原则可以是科学验证的规则或启发式方法。

在抽象层面上对这些原则进行描述,使它们可以应用于任何领域。这些原则必须在图10.9中的一个或多个阶段中被调用。系统开发人员只能通过提出设计解决方案并模拟其效果来确定在特定情况下哪些原则是首选的。此外,已经确定(Jackson和Ferris,2013)当原则以适当组合实施时,才能实现弹性。因此,以下原则在以适当组合实施时,可以被视为弹性的综合模型。系统开发人员可以通过遵循“抽象是具体的简化复制品”(Lonergan,1992)的推理来制定具体的设计提案。顶级抽象原则及其相关的主导特征将在以下文本中描述。这些原则的子原则可以在主要来源(Jackson和Ferris,2013)中找到。

弹性系统的工程设计并不是一个独立的学科。其原则,如下文所列,在其他学科中也被认可,例如建筑设计、可靠性和安全性。可靠性是安全性的关键考虑因素。它们有一个共同点:提高工程系统弹性的能力。每个原则的目标都是支持系统的一个特定属性或特征,以增强弹性。以下原则根据它们所支持的属性列出:

  • 属性:容量——承受威胁的能力
    • 吸收:能够吸收设计威胁级别的系统启动事件
    • 物理冗余:系统由两个或更多个相同且独立的分支组成。
    • 功能冗余:也称为分层多样性,系统由两个或更多不同且独立的分支组成,不易受到共同原因故障的影响。
  • 属性:缓冲——保持与不安全操作或崩溃边界距离的能力
    • 分层防御:系统没有单点故障。
    • 降低复杂性:系统能够减少其元素、接口和/或元素之间的可变性的数量。
    • 减少隐藏的交互:系统能够检测到其元素之间的不良交互。
  • 属性:灵活性——能够弯曲或重组
    • 重组:在面临威胁时能够自我重组的系统
    • 可修复性:系统能够在中断后自行修复
  • 属性:适应性——防止系统偏离安全行为的能力
    • 漂移修正:能够检测到接近威胁并执行纠正措施的系统。
    • 中立状态:系统能够进入中立状态,以便做出决策。
    • 人工参与:系统在需要的地方有人工元素。
    • 松散耦合:系统通过节点的松弛和延迟来抵抗级联故障。
  • 属性:容错性——优雅降级的能力
    • 本地化容量:系统中的单个元素在其他元素发生故障后能够独立运行。
  • 属性:内聚力——系统元素作为一个整体协同工作的能力
    • 节点间交互:系统中所有节点之间都有连接。

弹性工程的关键输入如下:

  • 威胁:数量、类型、特征
  • 目标和优先事项
  • SOI:类型和目的
  • 候选原则:可能适用于SOI
  • 解决方案建议

弹性工程的关键产出如下:

  • 优选系统特性
  • 系统对选定威胁的预测响应
  • 功能、服务的损失与恢复,以及财务影响
  • 恢复时间

弹性工程过程的关键活动如下:

  • 创建模型,包括系统特征和威胁。
  • 选择适用于相关场景的候选弹性原则和原则组合。
  • 选择一个或多个有效性指标。
  • 提出每个原则的候选解决方案,包括每个系统元素的输入和输出。
  • 为与情景相关的选定范围的类型和规模建模威胁:
    • 识别不可预见威胁的潜在影响。
  • 对于各种威胁和相关系统状态执行模型。
  • 进行影响分析,以确定评估系统的功能、服务或财务影响的损失和恢复。