MTBF是Mean Time Between Failure的缩写,就是设备2次故障之间的平均时间间隔,称之为平均故障间隔时间。
MTBF反映的是设备的发生故障的频率,是生产部门和维修部门共同的指标,MTBF越大越好,MTBF单位通常是小时(h)。
MTBF是Mean Time Between Failure的缩写,就是设备2次故障之间的平均时间间隔,称之为平均故障间隔时间。
MTBF反映的是设备的发生故障的频率,是生产部门和维修部门共同的指标,MTBF越大越好,MTBF单位通常是小时(h)。
MTTR是Mean Time To Repair的缩写,就是平均故障修复时间。
MTTR反映的是设备故障后修复的快慢,考察设备维修部门的维修能力。MTTR越小越好,MTTR单位通常用分钟(min)。
通过一个通用通信系统,来讲解可靠性设计方法。假设可靠性指标MTBF≥100小时。
根据总体设计,对系统进行分解,系统主要由通信发射终端、设备功放、设备发射天线、设备接收天线、接收放大设备、通信接收终端组成。
由系统框图可知,系统主要由六部分组成,上述每一设备均作为相对独立的部分,一旦发生故障,整个系统将不能正常工作,因此可按照串联模型进行设计。
图1 通信系统串联模型
由于各个单元对系统可靠性的影响不同,所以,一般都采取加权分配的原则,对可靠性指标进行合理地分配。加权分配法考虑各设备单元的重要性、复杂性、环境条件、维修性、技术成熟性和元器件质量等因素的差别,一般以某一单元为参考基准相对取值,通过分解计算,将系统可靠性指标分配到各个单元。
1)重要因素
根据各设备单元发生故障对全系统可靠性影响的大小,以相对重要性取值。
2)复杂因素
根据各设备单元发生故障对全系统可靠性影响的大小,以相对复杂性取值。
3)环境因素
根据各单元所处的环境条件(温度、湿度等)相对取值。
4)维修因素
根据各设备单元的维修难度相对取值。
5)技术成熟因素
根据各设备单元的技术继承性和采用高新技术的多少,以相对技术成熟程度取值。
6)元器件质量因素
根据各设备单元采用的元器件质量相对好坏取值。
根据前述章节建立的可靠性模型,系统为串联模型。在串联系统中,组成系统的所有单元中任一单元的失效(故障)就会导致整个系统失效(故障),串联系统的数学模型表达式为:
式中,λs为整机失效率,λi为第i模块的失效率,N为参加可靠性指标分配的模块数。
串联系统的平均故障间隔时间(MTBFs)计算公式为:
模型中各模块对可靠性的贡献不同,可以采用工程加权分配法对整机可靠性指标进行分配。设备加权系数的确定主要考虑各部分的重要性、复杂性、技术成熟性、环境条件、元器件质量等因素。在分配过程中还要通过相似类比的方法,参考类似系统的工程经验。影响可靠性指标的主要因素如表1所示。
表1 可靠性指标的主要影响因素
序号 | 因素名称 | 符号 | 说明 |
---|---|---|---|
1 | 重要因素 | Ki1 | 指第i模块发生故障时对全系统可靠性影响程度,取相对值。重要性越高,取值越大。 |
2 | 复杂因素 | Ki2 | 以第i模块元器件数量多少、技术难易等相对复杂性取值。元器件数越多、设备越复杂则取值越大。 |
3 | 维修因子 | Ki3 | 指第i模块维修难易程度的相对值。故障越难剥离、维修时间越长,则取值越大。 |
4 | 技术成熟因素 | Ki4 | 指第i模块技术成熟程度的相对值。技术上不成熟的部分,取值相对大些。 |
5 | 环境因素 | Ki5 | 指第i模块所处环境(室内、室外)的相对取值。环境越恶劣,取值越大。 |
6 | 元器件质量因子 | Ki6 | 指第i模块所用元器件质量相对好坏的取值。 |
由以上六个主要因素可得到每个因素的评定系数Kij,于是第i模块的综合评定系数为:
整机设备的综合系数评定值为:
各模块的MTBF分配值为:
根据系统需求,系统的MTBF为100小时,在设计时留有余量,分配目标按115小时。按照系统级可靠性模型,则各子系统的MTBF分配如表2所示,设计中选择通信接收终端作为参考(权值为1)进行影响加权因子分配。
表2 系统MTBF组合因子评定分配表
项目 | 发射终端 | 设备功放 | 设备发射天线 | 设备接收天线 | 接收放大设备 | 通信接收终端 |
重要性Ki1 | 1.3 | 1.3 | 1.1 | 1.1 | 1.2 | 1 |
复杂性Ki2 | 0.9 | 0.9 | 1 | 1 | 0.9 | 1 |
维修性Ki3 | 1 | 1 | 1 | 1 | 1 | 1 |
技术成熟Ki4 | 0.9 | 0.8 | 1 | 1 | 0.9 | 1 |
环境条件Ki5 | 1.2 | 1.2 | 1.1 | 1.1 | 1.2 | 1 |
器件质量Ki6 | 1 | 1 | 1 | 1 | 1 | 1 |
Wi | 1.26 | 1.12 | 1.21 | 1.21 | 1.17 | 1 |
W | 6.97 | |||||
MTBF分配目标 | 115 | |||||
MTBFi计算值 | 634.63 | 713.96 | 662.74 | 662.74 | 687.52 | 801.92 |
MTBFi分配值 | 700 | 800 | 800 | 800 | 700 | 800 |
λi(1×10-5) | 142.86 | 125.00 | 125.00 | 125.00 | 142.86 | 125.00 |
按表中分配值λi累加计算λs为785.71×10-5,并据此反算的失效率对系统的MTBF检核计算结果:
分配反算值满足100小时的目标值,并留有一定系统余量,说明上述分配取值合理,可以按照该分配结果对下属子系统进行分配和预计评估。
设备发射天线、接收天线具有成熟的技术积累,相关设计科学合理,设备使用状态稳定,将MTBF定为800小时,是可以实现的。
发射终端、设备功放、接收放大设备和通信接收终端也是业内成熟产品,根据使用经验,可以满足MTBF分配要求。
系统的可靠性的实现需要在全面、细致的设计基础上,按照相关管理规定开展研制过程,并遵循有关的过程控制措施和采取设计措施来保证可靠性的实现。相关的可靠性管理原则和针对性措施如表3所示。
表3 可靠性管理控制措施
措施范围 | 基本原则 | 针对性措施 |
方案设计管理 | 严格贯彻国标、部标及有关规范。 | 具体包括:1)制定可靠性计划与可靠性工作计划;2)对供应方切实监督和控制;3)进行可靠性评审;4)建立故障报告、分析和纠正措施系统,建立审查组织;5)进行可靠性增长管理,关注系统的研制、试验及试运行各阶段可靠性记录和持续改进。 |
质量管理 | 严格按照《质量保证大纲》进行各研制阶段的可靠性工作。 | 1)编制并执行《质量保证大纲》,并进行可靠性验证与监督工作;2)对主业务设备的全部模块开展老练筛选工作。 |
器件质量管理 | 严把元器件质量关 | 不经老化筛选的器件不上机;尤其对于核心处理器件的元器件质量进行重点把控;开展并留好老化筛选记录。 |
三化设计管理 | 贯彻设计三化思想。设计的结构、线路、组装方式尽量简化,模块实现遵循标准化、通用化、模块化(组合化)。 | 1)实现结构统一化设计,采用通用机柜、机箱以及内部总线式模块设计;2)开展三化设计评审和三化总结评审,保障产品的标准化、通用化与模块化,为后续运行提供备件保障。 |
质量过程管理 | 严控研制过程环节。在设备研制的全过程,抓好每一个环节,实现设备的高质量、高可靠性的研制目标 | 1)对研制过程、实验过程以及使用过程出现的故障核问题严格归零;2)严格把控每个研制阶段的质量工作,切实落实相关管理措施。 |
与其他复杂电子系统类似,系统设计可靠性的提升措施主要包括继承设计、简化设计、降额设计、裕度及使用性设计等。如图所示为系统可靠性设计的相关技术措施。其中需要说明的是,零故障设计与耐久性设计为综合性设计,主要结合分机散热、机械结构、连接其选型等开展。其余设计技术措施具有更大的适用性。
图2 可靠性设计技术措施示意图
电子设备的故障率函数具有典型的“浴盆”特征,即存在早期失效和耗损期失效率较高的特性,需要在前期加强原材料筛选和设计改进,后期需要综合考虑从预防性维修设计。
图3 电子产品故障率函数
系统设计可靠性提升的针对性措施如表4所示。
表4 系统可靠性设计措施
措施范围 | 基本原则 | 针对性措施 |
继承性设计 | 在设计中充分利用成熟技术和成熟经验。 | 1)继承既有技术基础;2)继承已有成熟三化产品,实现复用; |
简化设计 | 注意简化电路设计,减少使用元器件的种类和数量。 | 1)认真细致地进行电路、结构和关键工艺的可靠性设计;2)去除多余设计;3)全部模块尽量采用相同的电源设计、接口设计。 |
降额设计 | 在综合考虑元器件体积、数量的前提下,适当进行降额设计。不同的元器件应当选取不同的降额系数。 | 1)电阻的工作功率与额定功率之比应小于60%;2)电容的外加电压与额定电压之比应小于60%;3)半导体器件实际功耗与额定耗散之比应小于60%;4)集成电路输出负荷不应超过额定值的70%。 |
裕度设计 | 大电流、大功率器件必须采取过流、过压或超额保护措施。 | 1)机柜电源、机箱电源预计关键模块的工作电源电路,采取过流、过压或超额保护措施;2)功放具有功率超额保护、电压保护设计。 |
可用性设计 | 充分考虑使用操作的方便性、简单性。通过可用性设计降低人为故障。 | 1)采用自动化运行设计,最大限度地减少人为操作;2)减少界面复杂度。 |
其中,简化设计、降额设计和裕度设计是系统设计、研制中需要重点关注的内容。简化设计的目标是力争以最简单的电路和最少的元器件数量达到最佳的技术指标。对于降额设计,不同芯片、部件的降额系数应有一定的限制,并不是降得越多越好,降额负荷过多,会增加元器件的体积和数量,对可靠性不利。在裕度设计方面,需要重点关注高功率器件、电源的散热等设计,采取过流、过压或超额保护措施,以保护设备长期稳定工作且不被破坏。
平均维修时间按通常指标设计:MTTR≤0.5小时。
系统仍以上面通用通信系统为例,根据系统特点,采用串行模型。
MTTR(Mean Time to Repair)是产品维修性的一种基本设计参数,其度量方法为:在规定的条件下和规定的时间内,产品在规定的维修级别上,修复性维修总时间与该级别上被修复产品的故障总数之比,因此该参数与可靠性设计中的无故障连续工作时间(MTBF)具有密切的关系。系统的现场基本维修均采用模块可更换单元的维修方式,MTTR的分配和预计可据此开展。
维修性分配根据GJB/Z57-1994《维修性分配与预计手册》开展,依据该标准,可用的维修性分配方法包括等值分配法、故障率分配法、按故障率和设计特性的综合加权分配法、利用相似产品维修性数据分配法、保证可用度和考虑各单元复杂性差异的加权分配法等5种方法。综合考虑系统的组成架构、设备复杂度以及三化设计特性,宜采用综合加权因子分配法进行分配设计。
系统中的不同组成设备对系统维修性的影响不同,综合加权因子分配法以某设备单元为参考基准相对取值,通过计算,将系统可靠性指标分配到设备单元。分配主要考虑以下因素:
标准化、模块化程度。指该设备单元采用器件的标准化、模块化程度的高低。
故障定位、检测。单元故障定位指示、自动化检测程度的高低。
故障部位的可更换性。该设备单元故障部位更换的难易。
故障部位的可接近性。该设备单元故障部位可接近性的难易。
系统平均修复时间的分配,是根据各设备单元的MTBF分配值,适当选取分配加权因子,采用下式计算每个设备单元的平均修复时间:
式中:MTTRS—系统平均修复时间;
MTTRi— 第i个设备单元平均修复时间;
—系统总的分配加权系数;
— 第i个设备单元的分配加权系数;
Kij(j=1~4) 分别表示第i个设备单元的权值因素;
为第λi模块的失效率(参考可靠性计算章节)。
根据系统可用度及可靠性指标可以计算得出系统的MTTR目标为30分钟,分配结果可以作为有维修的相关设备可靠性分配和预计依据。将通信接收终端作为参考(各项权值为1),其余设备加权因子、系统可维修性分配如表5所示。
表5 系统维修性分配
项目 | 通信发射终端 | 设备功放 | 设备发射天线 | 设备接收天线 | 接收放大设备 | 通信接收终端 |
模块化Ki1 | 1.1 | 1.1 | 1.1 | 1 | 1.1 | 1 |
故障定位Ki2 | 1.3 | 1.3 | 1.4 | 1.2 | 1.3 | 1 |
可更换性Ki3 | 1.2 | 1.2 | 1.2 | 1.1 | 1.1 | 1 |
可接近性Ki4 | 1.2 | 1.2 | 1.2 | 1.1 | 1.2 | 1 |
Ki | 4.8 | 4.8 | 4.9 | 4.4 | 4.7 | 4 |
λi(1×10-5) | 142.86 | 125 | 125 | 125 | 142.86 | 125 |
λiKi(1×10-5) | 685.71 | 600 | 612.5 | 550 | 671.43 | 500 |
K | 4.61 | |||||
MTTR分配目标 | 30 | |||||
MTTRi计算值 | 31.26 | 31.26 | 31.91 | 28.65 | 30.61 | 26.05 |
MTTRi分配值 | 30 | 30 | 30 | 28 | 30 | 25 |
整体MTTR反算 | 26.10 |
按分配值计算出整体的平均修复时间为26.10分钟,从分配的修复时间看,尽管满足预期指标要求,但系统维修时间是很紧张的,因此,必须加强维修性设计,才能满足系统MTTR指标要求。
维修性预计根据GJB/Z57-1994《维修性分配与预计手册》开展,依据该标准,可用的维修性预计方法包括概率模拟分配法、功能层次预计法、抽样评分预计法、运行功能预计法、时间累计预计法、单元比对预计法等6种方法。结合系统的详细设计,各单机内部模块的拆装方便、简单,且具有长期的积累数据予以支撑。因此,系统的维修行预计宜选用时间累计预计法进行。
在该方法中,需要首先确定更换单元特性、种类及数量,并具有维修准备时间、分解时间、更换时间、调整时间、检验时间的数据支撑,则单机设备的维修时间是上述时间的累计,即:
结合维修性分配权值,维修性的提高通常主要考虑产品的标准化模块化程度、故障定位检测自动化程度、故障部位的可更换性和故障部位的可接近性等。系统的设计基于三化设计思想,以模块化设备为主实现系统的集成,模块化设备加载不同的嵌入式程序实现不同的功能。为保障系统的连续稳定运行,采用现场s可更换模块的替换模式对故障设备先行维修,故障模块再另行处理或返厂维修,以此保证维修性。
良好的维修性设计,也是提高整机可靠性的重要措施。缩短维修时间是维修设计的重点,维修时间由下列三项决定:故障定位时间、故障排除时间、恢复验证时间。
1)缩短故障定位时间:尽可能采用微机自动检测技术,自动定位到部件。在单元面板上设置必要的状态显示,作为又一种定位手段,从而可大大缩短故障定位时间;
2)缩短故障排除时间:在结构设计上,整部件、关键器件必须便于拆装,最大限度缩短更换备件的时间;
3)缩短恢复验证时间:关键指标测试有测试孔,状态有显示,可调部位必须调整方便,以缩短恢复验证时间。
系统设备的硬件维修设计准则如下:
Ø 简化设计
在满足使用需求的前提下,尽可能简化产品不必要的功能,避免因效益不大的自动化,导致系统或设备结构和维修的复杂化;对于某些功能可合并的分机,尽量使其合并;尽量减少零部件的品种和数量。
Ø 可达性设计
一定要考虑维修的视觉可达,实物可达和足够的空间;把故障率高、维修空间需求大的部件安排在系统的外部或容易接近的地方,以方便维修;尽量做到,在维修某一部分时,不影响其它部分的工作,做到不需要拆卸其它部分或少拆卸其它部分。
Ø 可更换性设计
优先选用标准件;最大限度的采用通用元器件。尽量减少零部件,附件,工具的品种和规格;产品按功能设计成能够完全互换的模块,即增加备份的数量,以提高可换性。
Ø 故障诊断与控制设计
采用故障报警方法,系统采用的是远程实时监控来完成故障报警显示。并配备相应的使用说明书,使用户在发生故障时可自行维修。在监控软件中集成了故障信息提示能力,并结合测试性设计实现内部故障代码表,可结合保障检测设备实现快速故障定位。
Ø 防插错措施和识别标记
单机设备或模块设计时,需进行防错差设计,并在结构体上印有接头标志,防止维修、安装时误插误接而引起的错误。
word资料附上,可下载:
https://admin.designchn.com/case/系统可靠性、维修性设计方法.docx