天天看点

「故障案例」高温拷机CPU无法正常启动问题定位与分析

作者:硬件电子工程师0

(搜索WX公众号:硬件电子工程师)

【摘要】

本文针对某产品生产拷机中不能正常开机问题,进行故障复现,定位到给单板上的CPU提供时钟信号的晶体频偏超标导致CPU无法启动,最终定位是晶体性能问题需更换器件方案。

一、现象描述

某产品批量发货生产中,出现偶发性不能正常开机,经排查和单板CPU所用的晶体相关,晶体温度稳定性较差频偏超标导致部分单板晶体无法起振导致。

表1 失效器件关键信息

物料名称 普通晶体谐振器(带绝缘垫片)
器件型号 xxxxx
品牌 xxxxx
调整频差@25±3℃ ±10PPM
工作温度条件下允许的频偏 ±30PPM
故障模式 部分失效品常温时频偏超标,部分失效品温度升高至40多℃时,频偏超标。

二、故障分析

本案例中我们按照三部曲来对该故障进行定位分析:

  1. 单板级故障分析:以故障单板作为整系统,对失效晶体系统级参数进行测试分析;
  2. 芯片级故障分析:脱离单板硬件系统,对失效晶体单体参数进行芯片级测试分析;
  3. 材料分析:对器件进行拆解,深入器件内部结构、性能,准确定位器件失效原因。

1、单板级分析

如下为现场返回拷机时偶发故障的1#晶体样品的排查测试过程:在室温下能在单板上正常工作,测试结果如下:

(1)常温下,该晶体的振幅为1.2V(峰峰值),如图1所示,符合手册标称typical幅值1.26V要求;

「故障案例」高温拷机CPU无法正常启动问题定位与分析

图1 常温下1#晶体的波形图

(2)为了快速复现现象,先使用吹风机辅助完成:使用电吹风缓慢加热后,失效晶体的幅值先减小(如图2),至停振(如图3),再增大至860mV(如图4所示);

「故障案例」高温拷机CPU无法正常启动问题定位与分析

图2 受热后,1#晶体的波形图(幅值变小)

「故障案例」高温拷机CPU无法正常启动问题定位与分析

图3 受热后,1#晶体的波形图(停振)

「故障案例」高温拷机CPU无法正常启动问题定位与分析

图4 停止吹风后,1#晶体的波形图

  • (3)使用电吹风对正常的晶体加热后,振幅无明显变化。
  • 2、芯片级分析

    (1)晶体参数测试

    按照规格书给定参数测试1#样品常温及吹风机加热条件下样品的晶体参数, 发现1#样品常温下测试各参数结果满足代码级规格书要求,但吹风机40℃加热时,样品出现跳频,跳频幅度近120ppm,其他参数未出现异常。

    该产品中要求该晶体参数为负载谐振频率(FL)±20ppm、谐振阻抗(RR)40Ω Max、DLD2<8Ω 。具体测试数据如表2所示:

    表2 晶体的参数测试表

    「故障案例」高温拷机CPU无法正常启动问题定位与分析

    对1#样品进行频谱扫描,结果如1#样品有明显寄生振荡频率(如图5所示),在约40℃ 时出现主振双峰情况(如图6所示),导致样品跳频:

    「故障案例」高温拷机CPU无法正常启动问题定位与分析

    图5 1#样品常温频谱扫描图

    「故障案例」高温拷机CPU无法正常启动问题定位与分析

    图6 1#样品约40℃加热时频谱扫描图

    3、材料分析

    对正常样品和1#样品进行开封、内部目检,发现1#样品内部微调电极有明显氧化,并有明显污染,开封后的图片,如图7未正常晶体样品内部图,图8为故障1#样品内部图:

    「故障案例」高温拷机CPU无法正常启动问题定位与分析

    图7 正常样品开封后图片

    「故障案例」高温拷机CPU无法正常启动问题定位与分析

    图8 1#样品开封后图片

    对故障样品进行多样品拆解分析,材料实验室的分析结论如下:经测试分析,故障样品由于内部晶片电极污染,该样品设计或制造工艺不足引起频谱寄生振荡,最终导致谐振频率跳频。

    三、总结

    晶体或者晶振几乎是我们每一块单板必需的器件,它的稳定与否直接关系到我们系统的稳定性,希望通过本文能给大家在以后类似的故障排查中提供一点思路。案例本身是次要的,技术文档分析重在问题排查思路的分享,希望对大家有所帮助。

    继续阅读