器件可靠性与温度的关系

本文转载自: 硬件十万个为什么微信公众号

1、器件失效与温度的关系

器件极限温度承受能力是高压线,超过后失效率剧增,使用中不允许超过。在极限温度以内,器件失效率与温度仍然强相关,失效率随着温度升高而增加。

问题:是否存在一个安全温度点,只要不超过这个温度点,失效率与温度关系就不密切?

答案:理论与实际表明,多数情况下不存在这样的温度点。器件的失效率始终与温度相关,只是高于某个温度点之后,失效率会急剧上升,出现拐点。

降额设计就是使元器件或产品工作时承受的工作应力适当低于元器件或产品规定的额定值,从而达到降低基本失效率(故障率),提高使用可靠性的目的。20世纪50年代,日本人发现,温度降低10℃,元器件的失效率可降低一半以上。实践证明,对元器件的某些参数适当降额使用,就可以大幅度提高元器件的可靠性。因电子产品的可靠性对其电应力和温度应力比较敏感,故而降额设计技术和热设计技术对电子产品则显得尤为重要。

一款流量计的电源前期设计,未采用降额设计,其调整管仅按计算其功耗为0.8W(在常温20℃~25℃),选用额定功率为1W的晶体管。结果在调试时和在用户使用中发生故障频繁。分析其原因主要是该管额定功耗1W时的环境温度为25℃,而实际工作时该管处于的环境温度为60℃,此管此时实际最大功耗已达1W。经可靠性工程师分析和建议,选用同参数2W的晶体管,这时降额系数S≈0.5。因而产品的故障很快得到解决。

2、温度循环是最恶毒的环境应力

筛选试验(剔除方法):为剔除有早期失效的产品进行的试验。对电子设备,最有效的是温度循环,效率:温度循环/振动=3.5/1。

更具上面统计,我们可以看出温度循环是最有效暴露缺陷的环境应力。

以上为统计结论。同时,我们的经验,机械应力叠加温度应力,可以触发一些不容易复现的故障。

3、元器件特性随着温度漂移,导致系统故障

一类是可恢复的软失效

一类是不可恢复的硬失效

软失效一般是指温度容限不够,可以恢复,是引起单板故障很难重现的一个重要原因。虽然问题经常触发软失效,但要减少软失效,不能仅靠降低温度,必须在分析清楚具体原因的情况下制定有针对性的改进措施。

温度引起软失效多由器件参数的漂移导致。

案例1:参数温度漂移,导致三极管不导通

1、halt试验温度降到-15度时单板串口挂死,此问题必现,判断时钟或者电源有问题。

2、通过管理芯片MCU查看单板的电压检测结果和时钟检测结果,接入到MCU的电压检测结果都正常,检测到单板的工作时钟丢失

3、针对时钟丢失进行分析

CPU工作电源模块在电压正常工作之后同步输出EN信号打开时钟电路,而这个CPU工作电压输出没有接入到MCU检测(此电压是0V~1.2V变化,没有接入MCU检测),时钟电路得到EN信号才能正常工作;

逻辑检测到电源A与电源B正常工作之后打开CPU工作电源模块;

电源A与电源B正常工作的信号是通过的两个mos管送给CPLD检测。

4、通过理论分析三极管的输入电压为1V05,通过分压电阻分到0.7V打开三极管,在常温时对导通电压的要求为0.58V~0.7V

所以0.7V导通没问题

在低温时由于特性漂移,导通电压需求已经高于0.7V,分压值不能满足三极管导通要求。

三极管低温时参数漂移验证:

在常温下用一块没有去掉分压电阻的单板正常运行,用示波器测试/1V05_detect管脚,/1V05_detect信号为低电平,把示波器设置为上升沿触发模式,然后用液氮开始对着三极管喷,只有几秒的时间,/1V05_detect信号由低变为高电平了,验证了三极管在低温时,参数发生漂移,Vbe导通门槛变高。

4、温度导致器件损坏

对于后一种硬失效,失效的原因很离散,器件制造过程中多多少少存在难以完全避免的杂质和缺陷,这些各种各样的微小缺陷在器件运行期间逐渐生长扩展,当影响到器件外部功能时就导致了器件失效,温度在缺陷的生长扩展中通常会起到加速的作用,经常需要电应力的协同。

器件极限温度承受能力是高压线,超过后失效率剧增,使用中不允许超过。在极限温度以内,器件失效率与温度仍然强相关,失效率随着温度升高而增加。

焊接和使用过程中温度过高,导致BGA焊球开裂

5、对系统的温度进行测量、监控、保护

有些处理器内部有温度传感器,处理器内部通过温度传感器来感测核心温度,当前处理器的温度传感器采用数字温度传感器(Digital thermal sensor)。

在多核处理器中,intel集成多个DTS,用于监控不同区域的温度,每个区域的温度数据可以通过MSR寄存器读取。

数字温度传感器只在C0(normal operating)状态时有效。

过温也是通过数字温度传感器测试出来的,并且也在MSR寄存器中的一个比特位表现出来。

温度传感器的数值是单板进入TM1,TM2状态的信息源。

我们还可以在关键点位增加温度传感器,来改善热环境。当发现过温了,进行告警、降频、重启等自动操作。