
数据中心是全球协作的特定设备网络,用来在internet网络基础设施上传递、加速、展示、计算、存储数据信息。
因此在如此重要的位置上,数据中心如果出现故障该如何处理?这是一个非常重要的问题,筑数科在机房数据中心建设中沉浸多年,为此整理了针对数据中心故障而总结出的一套标准流程:
(1)分析故障现象:
一般来说由于构成组件比较复杂,故障也呈现出不同的表现方式。因此想要对于故障进行分析,就要先了解故障的现象。例如,应用方面出现了支付系统支付不了,网页难以打开等问题,那么就要逐一检查相关的故障点,有哪几个故障是上述表现,如,线路故障,端口故障等,就要更换线路、端口等设备。因此,需要针对数据中心网络的几种常见的故障进行收集与整理,根据现象,进行检索、查找。
(2)测试并确认故障范围,进行故障点定位。
所有的应用业务是在这些物理硬件正常运行的基础上开展的,其中某些硬件出现问题就会导致故障。根据故障的表现,需要针对各个部分进行筛选检查,例如,对于服务器进行测试,检查网络设备等。针对问题表现,进行逐一排除,最终敲定故障点所在位置。
(3)如果以上硬件故障都已经排除,那么就是计算机系统的故障,这一故障需要建立故障模型进行诊断,根据PMC模型进行定义。通过分层测试的方法,查找问题单元,即正常单元测试正常单元、正常单元测试故障单元、故障单元测试故障单元、故障单元测试正常单元等四种。其中后三种的检测结果都是故障,因此就可以通过分层测量的方式,建立有限个单元,通过矩阵以及萤火虫算法重点FAFD算法对于其他单元进行诊断,最终确定故障的系统是哪个或者哪几个单元的。当然也可以通过镜像、流量统计、抓包等其他手段确定故障所在的设备范围,进而缩小范围,集中处理某一个或者几个设备。
(4)收集重要的数据信息。
在进行故障处理时,通过收集设备的日志、诊断、操作记录等信息资料,将这些数据资料进行汇总,条件允许的情况下,建立故障数据库,对于常见问题可以做到“出现即处理”,对于没有出现过的故障,可以继续收集进数据库。总之,必要的信息收集,有利于日后更好的查找故障原因,确保数据中心网络健康、平稳运行。
深圳市共筑数科信息技术有限公司(简称: 共筑数科)是一家专门从事建筑智能化设计、施工、维护的系统集成公司,公司经营范围包括:综合布线系统、计算机网络系统、视频监控系统、防盗报警系统、电子巡更系统、电话通信系统、视频会议系统、公共广播系统、机房建设系统、多媒体系统、等各弱电子系统的集成服务。提供IT产品、网络产品、监控产品、多媒体产品等一系列产品销售服务。
共筑数科经营理念“客户至上、质量第一”。多年来,公司追求与客户之间展开长期合作的愿景,在与客户合作过程中,始终以最热情的态度和专业的技术水平为客户制定出不同的维护、解决方案。“一经选择,服务相伴”,为客户提供咨询、设计、实施、保修的一站式服务。并在经营过程中不断的完善激励自己,给客户提供更全面、更优质、更人性化的服务。
经过多年努力,共筑数科聚集了一批优秀的技术人才,能够快速响应客户需求,为客户提供最好更全面的服务。