服务器通常会有两个电源插槽,两个电源意味着更高的可靠性,UPS的介入使得服务器供电的可靠性又上了一个台阶。随着电源可靠性的不断提高,也有越来越多用户开始使用单电源方案以节省成本。那到底用双电源还是单电源呢?
电源故障引发的业务风险有哪些?
单点类业务(开发、测试和办公平台等):
1、业务中断:业务无法继续向用户提供服务,影响用户体验;
2、数据恢复:掉电引发数据丢失,需要数据恢复,产生运维成本;
集群类业务(WEB前端、缓存、数据库等):
掉电引发数据丢失,根据业务的不同分类可能需要数据恢复(比如缓存型业务就不需要数据恢复),有一定的运维成本发生;
分布式存储(hadoop、分布式文件系统等):
存储类业务遇到单机断电掉线都将被作为一个节点的故障处理,因此数据恢复可能会占去大量的时间(自动化数据恢复除外);
通过数据评估两种方案的价值:
假设服务器总数为W万台,单电源服务器年故障率为x%,电源仅占到所有故障总数的y%,那么电源的年故障率应该在xy/10000,一年内电源故障次数为:Wxy。可以根据这个公式去评估一个集群一年内的断电次数:假设一年内允许的断电次数为Z,那么只要让Wxy < Z就可以达到期望目标。
当Wxy值远大于Z时,在x、y不变的情况下,通常是因为W基数较大引起的。这个时候要满足Wxy < Z就只能通过双电去实现:
双电方案下服务器年断电概率为:xxyy/10^8,断电次数为:Wxxyy/10000,它是单电方案故障次数的xy/10000,足够满足小于Z的条件了。
总结:在使用单电方案的前提下,如果要满足Z>Wxy,就要尽量控制整个集群的服务器规模;服务器基数较大时,为了避免基数问题带来过多的服务器断电,建议使用双电方案。
如何强化单电方案的可用性:
1、插头绑线规范化提高电源插头稳固性,防止服务器电源因误碰而掉线。
2、保持良好的机房散热条件,防止电源因为过热而导致故障;
3、尽量选用标号更高的电源(比如白金电源、黄金电源),提高转换效率减少谐波干扰;