qingsewuyuet硬盘驱动器(HDD)在5至60°C的温度范围内工作,虽然这个范围内的上端运行并不建议,因为这可能导致驱动器寿命缩短,故障率上升。
如同服务器和存储系统中的大多数组件一样,HDD在运行过程中会产生热量,尤其是在高负荷的情况下。为了方便管理员监测驱动器的温度,现代单元都配备了一个内部温度传感器,可通过SMART(自我监控分析和报告技术)提供读数。这些读数可以通过各种工具进行访问,包括操作系统资源、系统管理工具或用于管理RAID控制器和主机总线适配器的工具。
如果HDD过热,其将无法正常工作,因为电子和机械部件只能在特定的温度范围内有效运作。此外,过高的温度也会加速机械部件的磨损,从而降低可靠性并减少使用寿命。特别是硬盘驱动器中的主轴轴承,因其使用的机油在高温下会变稀,存在漏出的风险。因此,有必要对硬盘驱动器的温度进行监控,以防止过热,并确保其能长期稳定地服务。
制造商通常会在产品规格中明确其驱动器正常工作的温度范围。对于企业级的HDD,考虑到其通常应用于装有空调的服务器室或数据中心,因此它们设计的工作温度范围为5至60°C。而对于网络附加存储(NAS)的HDD,其规格则设定为5至65°C,而监控用的HDD规格为0至70°C,这是因为视频监控系统并非总是在环境条件稳定的房间内设置。
然而,这些规格仅仅涉及设备的操作能力。当驱动器长时间在较高的温度范围内运行时,其耐用性必将受到影响。短暂的温度升高(例如,系统风扇故障并需要更换时)通常是可接受的,但在45°C下长时间运行的硬盘可能会使其寿命减少几个月。毕竟,制造商数据表中的平均无故障时间(MTTF)规范始终基于40°C的平均工作温度。
在此方面,值得一提的是,平均值意味着在40°C以上的运行时间可以通过相应低于此温度的运行时间进行抵消。然而,实际情况往往是硬盘驱动器不太可能首先在高温下运行数月或数年,然后再在同一时间内在低温下运行。
典型的企业的HDD的MTTF为250万小时。也就是说,在有250万个驱动器的情况下,预计每小时会出现一次故障;而在有1000个驱动器的情况下,每2500小时会出现一次故障。然而,这种信息对于估计自己基础设施中硬盘的故障概率并不是非常直观,所以通常使用年度故障率(AFR)。AFR可以通过MTTF计算得出,其公式如下:AFR = 1 - e(-8760/MTTF) * 100,其中8760代表企业级HDD标准的24/7操作年运行小时数。
在该公式中,计算剩余驱动器的AFR时,已经发生故障的驱动器会被考虑进去。然而,对于低故障率(如硬盘),这种情况并不必要,这意味着可以简化公式:AFR = 8760/MTTF * 100。因此,MTTF为250万小时的企业级HDD的最终AFR为0.35%。在一个有1000个驱动器的环境中,预计每年会有3到4个驱动器出现故障。
如果硬盘驱动器的平均工作温度高于40°C,那么故障率将会增加。根据经验,在40°C以上每提高5°C,故障率就会上升约30%。在恒定的55°C下运行HDD,AFR应该会翻倍,这意味着一个拥有1000个驱动器的基础架构每年可能出现6到8次故障。
除了温度之外,其他因素也可能会影响其耐久性,包括年度工作负载(额定工作负载)、保修期限以及驱动器在非设计为全天候使用情况下的工作时间。这并不意味着如果不遵循规定的值,或者如果HDD在保修期结束后仍继续运行,就会立刻出现故障的风险,但是AFR会增加,使得超过预期每年发生的硬盘转移故障时间的数量。
在热设计良好的系统中,应该不需要担心将硬盘驱动器的温度维持在40°C或更低的问题。如果没有空调,这可能会很困难,因为在夏季,房间的温度通常会超过30°C。这就意味着在服务器和存储系统内部,温度很快就会升到40°C以上。另外,如果没有适当的通风,就很难去除系统排出的热气,导致室温不可避免地上升,从而使系统变得更热。
因此,最好在空调环境中操作服务器和存储系统,特别是在使用数十个HDD的情况下。由于设计原因,后置驱动器通常比前置驱动器热,因为它位于气流路径的末端。为了避免这种情况,需要在20°C以下的进气温度,以使所有硬盘驱动器保持在其指定的最高工作温度之下。
|