系统的可靠性分析与设计方法(系统可靠性设计分析教程)
在生活中,很多人可能想了解和弄清楚系统的可靠性分析与设计的相关问题?那么关于系统的可靠性分析与设计方法的答案我来给大家详细解答下。
内容主要为可靠性设计、系统的故障模型、系统的可靠性模型、组合模型可靠性计算、马尔柯夫模型可靠性计算,以及硬件冗余、信息校验码等方面;另外也涉及系统可靠性分析与计算、系统可靠性评估和系统配置方法等概念与理论的实际工程运用等内容
可靠性概述与可靠性相关的概念主要有:可靠度、可用度、可维度、平均无故障时间、平均故障修
复时间及平均故障间隔时间等。
故障的来源以及表现失效、故障、错误
几种常用的故障模型1.逻辑级的故障模型
2.数据结构级的故障
3.软件故障和软件差错
单机容错技术系统的故障可分为两类:一类是“致命的”,不可能自行修复,例如系统的主要部件全部损坏;另一类是局部的,可能被修复,例如部分元件失效、线路故障、偶然干扰引起的差错等
容错又有多种形式,如硬件容错、软件容错、整机容错等。
1.自检技术
自检指系统在发生非致命性故障时能自动发现故障和确定故障的性质、部位,并自动采取措施更换和隔离产生故障的部件。
2.冗余技术
冗余可分为硬件冗余(增加硬件)、软件冗余(增加程序,如同时采用不同算法或不同人编制的程序)、时间冗余(如指令重复执行、程序重复执行)、信息冗余(如增加数据位)等。
双机热备份技术双机热备份技术是一种软硬件结合的较高容错应用方案。该方案是由两台服务器系统和一个外接共享磁盘阵列柜和相应的双机热备份软件组成。其中的外接共享磁盘阵列柜也可以没有,而是在各自的服务器中采取 RAID(Redundant Array of Independent Disk,独立冗余磁盘阵列)卡
整个网络系统的数据是通过磁盘阵列集中管理和数据备份的
双机热备份系统采用“心跳”方法保证主系统与备用系统的联系。所谓“心跳”,指的是主、从系统之间相互按照一定的时间间隔发送通信信号,表明各自系统当前的运行状态。一旦“心跳”信号表明主机系统发生故障,或者备用系统无法收到主机系统的“心跳” 信号,则系统的高可用性管理软件认为主机系统发生故障,立即将系统资源转移到备用系统上,备用系统替代主机工作,以保证系统正常运行和网络服务不间断。
双机热备份方案中,根据两台服务器的工作方式可以有三种不同的工作模式,即:双机热备模式、双机互备模式和双机双工模式
双机热备模式即目前通常所说的 active/standby 方式,active 服务器处于工作状态;而standby 服务器处于监控准备状态
对于承担企业关键业务应用的服务器需要极高的稳定性和可用性,并需要提供每周 7(天)×24(小时)不间断服务的应用,推荐使用双机热备份
双机互备模式,是两个相对独立的应用在两台机器同时运行,但彼此均设为备机,当某一台服务器出现故障时,另一台服务器可以在短时间内将故障服务器的应用接管过来,从而保证了应用的持续性,但对服务器的性能要求比较高。
双机双工模式是集群的一种形式,两台服务器均处于活动状态,同时运行相同的应用,以保证整体系统的性能,也实现了负载均衡和互为备份,通常使用磁盘柜存储技术。Web 服务器或 FTP 服务器等用此种方式比较多。
系统可靠性模型:时间模型,在 Shooman 的模型中,需要确定在调试前软件中的故障数目,这
往往是一件很困难的任务
故障植入模型
数据模型
系统的可靠性分析和可靠度计算组合模型:组合模型是计算机容错系统可靠性最常用的方法
马尔柯夫模型:马尔柯夫模型的两个核心概念是状态和状态转移
提高系统可靠性的措施硬件冗余
信息冗余
温馨提示:通过以上关于系统的可靠性分析与设计内容介绍后,相信大家有新的了解,更希望可以对你有所帮助。