迅维网

标题: 一眼看透机械硬盘可靠性 [打印本页]

作者: qinger0912    时间: 2018-5-14 13:08
标题: 一眼看透机械硬盘可靠性
在企业级存储市场中,结构化数据的存储很快就会是SSD的天下,机械硬盘(HDD)会逐步退出;非结构化数据因为其巨大的容量,从成本的角度来看,会长时间存在。但不论怎么说,SSD代替HDD是趋势。生产HDD的厂家很少,就WD、希捷、HGST等,其中,HGST也是WD的子公司。看似他们垄断了市场,但他们的日子却不好过。因为HDD大势已去,在SSD领域,领先的却是Intel、三星等玩家。HDD越做越大,价格也越来越低。
但IPFS等存储挖矿项目却让HDD市场又看到了一点希望。今年,10TB以及以上的硬盘大幅度缺货,价格比去年的最低点已经上涨了30%。疯狂的玩家囤矿机(存储服务器)、囤硬盘。我从好几个地方,都听到了有人批量买几万块硬盘的事情。【注:只是听说,不一定代表事实】也冒出来了各种各样的IPFS矿机,大多数都像最低端的群晖NAS一样,插了一块硬盘,扩展性不是特别好,放在家里,等待文件币发布就挖矿。如果这个矿机能做一个家用NAS,也挺好的。许多人也在对比各种矿机。但大家容易忽视的是,同是机械硬盘,其可靠性也千差万别。我们不能光看硬盘容量,而要看洞察更多的硬盘参数。好在这些参数不多,非常容易理解。
我们就以希捷的硬盘为例来进行讲解。型号太多,就说说几种典型的。


1. 桌面级硬盘。这是消费级电脑中最常用的硬盘,基本都是采用SATA接口。比如希捷BarraCuda系列的8TB硬盘ST8000DM004。官方的参数请见:https://www.seagate.com/www-content/datasheets/pdfs/3-5-barracudaDS1900-10-1802CN-zh_CN.pdf。其中里面有几点大家比较感兴趣。


2. 监控级硬盘。这是在安防系统中最常用的硬盘。基本都是采用SATA接口。SkyHawk监控盘系列其官方参数请见:https://www.seagate.com/www-content/datasheets/pdfs/skyhawk-3-5-hdd-DS1902-8-1803CN-zh_CN.pdf
(注:希捷还有充氦气的监控硬盘,但从型号和参数来看,完全是企业级硬盘的范畴了。)


3. 企业级硬盘。这是企业级存储系统和数据中心最常用的硬盘。可靠性自然比前面两种硬盘要高很多。接口有SATA和SATA,其中SAS又分NL-SAS(近线SAS)和高转速SAS(1万转或1.5万转)。NL-SAS盘和企业级SATA盘的主要差别在于接口采用SAS,可以支持双端口(用于双控存储系统,可以两个主机同时连接),其他参数基本一致。高转速SAS盘的转速高于我们常用7200转,性能更好,可靠性也更高,但容量相对较小,价格也比较昂贵。大容量企业级SATA硬盘(8TB及以上)一般在内部充氦气,利用氦气的惰性,可以全面提升硬盘容量,从数据中心的坏盘率统计来看,其可靠性也更高。这里我们讨论希捷的企业级SATA硬盘,以常用的10TB充氦气硬盘ST10000NM0016为例。,其官方参数见: https://www.seagate.com/files/www-content/datasheets/pdfs/exos-x-10DS1948-1-1709CN-zh_CN.pdf
(注:没有看到额定工作负载限制或类似的参数。看来企业级硬盘直接取消了这个读写数据量的限制。)


回过头再来看看“不可恢复错误/被读数据(位)”这个参数。企业级SATA盘和较新的监控级硬盘,比较老的监控级硬盘和桌面级硬盘要高一个数量级,自然要稳定许多。桌面级硬盘和监控级硬盘的对应参数名字前加了一个“最大”,企业级硬盘没有写“最大”,不知道是否希捷有意为之。如果是,证明企业级硬盘的读写错误更低。以前问过硬盘厂商的工程师,他们回复说,桌面级硬盘和监控级硬盘没有防震芯片,所以错误率高;企业级硬盘,和较新的监控级硬盘,都加了这个芯片,通过避震的方式来提高可靠性。
我们也接触过大量的存储项目,有上万片硬盘实际运行的稳定性统计数据。某项目用了80%的监控级硬盘(不可恢复错误/被读数据(位)这个值为1/10E14)和20%的企业级SATA硬盘,运行了三年,监控级硬盘的坏盘率超过10%,但企业级硬盘的坏盘率低于1%。桌面级硬盘因为都不能全天候运行,所以完全不适合这种大型的项目。另外,如果大容量硬盘做RAID5或者RAID6,坏了一块盘,会导致硬盘重建。如果该参数为1/10E14,基本上硬盘从头到尾读一遍,就有很大的概率产生新的不可恢复错误,直接导致第二块坏盘的产生。这个也是为什么RAID5/6在重建的时候,很容易产生第二块盘,导致RAID出现更严重问题的原因。实际上,重建的时候,所有硬盘都在高速读写,其震动本身就会导致更多的问题。不用RAID容易坏盘导致数据丢失,使用RAID也容易坏盘,那怎么办?选择更高可靠性的硬盘,才是正确的办法。如果是高转速的SAS硬盘和企业级SSD,不可恢复错误/被读数据(位)往往都是1/10E16甚至更高,其出错的概率就会更低了。


除了上面的HDD,希捷还有NAS系列的硬盘,可以满足全天候的运行需求,价格比企业级硬盘低。但因为我没有用过,所以暂时不评述。


如果存储挖矿,选择什么硬盘比较好呢?虽然性价比是首要因素,但因为其不间断运行的机制,对硬盘的选择我们不能不漠视。不是价格便宜容量越大越好。SAS硬盘不是考虑的范围,企业级SATA硬盘应该是主力,不过价格可能会偏贵。至于新一代的监控级硬盘和NAS硬盘,是否可以满足长时间稳定运行的要求,还需要更多的运营数据来分析。


再好的硬盘,也可能会很快坏掉。以上所有的参数,都是针对大批量硬盘而言的平均值。所以,通过软件进行合理的硬盘管理(RAID、CACHE、硬盘全程监控),是必要的手段,且需要一个易用的存储管理系统,在硬盘真的出现问题时,能够及时发现,及时排除故障,保证系统的稳定运行。算了,说再多了就是广告了。想了解更多存储方案(包括HPC/AI存储和存储挖矿)请访问 http://www.storswift.com。
更多技术问题,可以通过QQ群进行交流:
IPFS讨论:738880773
高性能分布式存储讨论:183098754




欢迎光临 迅维网 (https://www.chinafix.com/) Powered by Discuz! X3.4