数据中心

  |  手机版

收藏网站

投稿QQ:1745232315

IT专家网,汇聚专业声音 解析IT潮流 IT专家网,汇聚专业声音 解析IT潮流

网络

专家视点在现场环球瞭望
IT专家网 > 数据中心

浅谈虚拟化 平台的监控管理

作者:匿名出处:论坛2016-03-29 18:02

  传统的数据中心通常采用“一机一业务”的部署模式,但是随着数据中心规模不断扩大,这种部署模式会带来管理运营成本过高、业务上线缓慢等问题。通过引入虚拟化技术把数据中心物理设备进行资源池化可以解决上述问题,提高业务部署效率、降低业务迁移的难度。但是同时也带来了如何对虚拟化平台进行监控管理的新问题。

  传统的数据中心通常采用“一机一业务”的部署模式,但是随着数据中心规模不断扩大,这种部署模式会带来管理运营成本过高、业务上线缓慢等问题。通过引入虚拟化技术把数据中心物理设备进行资源池化可以解决上述问题,提高业务部署效率、降低业务迁移的难度。但是同时也带来了如何对虚拟化平台进行监控管理的新问题。

  虚拟化平台的监控管理能力对维持虚拟资源池可靠运行尤为重要。虚拟化后单台主机上运行着多台虚拟机,多个业务系统,而现有的虚拟化平台无法对这些业务系统的资源占有情况以及运行状况进行实时监控,对物理主机多个虚拟机之间的拓扑连接情况也是无法直观的显示出来。上述的问题都对虚拟化环境下的监控管理提出了新的要求与挑战。

  H3C CAS虚拟化管理平台(下文简称CAS)针对虚拟化平台的上述问题作了改进。在资源池运行状况和业务系统进行了监控,提高了资源池的监控粒度,并输出详细告警和报表。下面会对这些改进做详细分析。

  一、资源池运行情况展示与分析

  相比传统虚拟化平台关注单个物理主机或虚拟机监控的管理思路,CAS则强调对整个虚拟化系统统一进行监控,全面评估虚拟化系统的健康程度,通过数字或图表的方式展现出来。下面的这些监控指标可以很直观的展示资源池的整体运行情况,从而提高虚拟化平台的可用性。

  ·资源池健康度分析

  CAS通过内置的系统健康度评价模型,从主机、网络、存储等多个维度,对资源池中物理主机和虚拟机的CPU、内存、网络、存储等资源利用率及告警进行综合分析,得到系统健康度评分。当系统健康度得分低于80,就代表系统运行已经存在风险,需要管理员重点关注;当得分低于60,系统则处于高危环境,管理员可通过分析资源池中各物理主机的健康情况进行深入定位,及时找出问题。这种全新的虚拟化健康度管理方法覆盖了虚拟化环境所有层面,能够全面保障虚拟化环境的健康运行。

资源池监控概览界面

                                         图1 资源池监控概览界面

  ·集中的性能数据展现

  CAS全面收集各类性能数据,在单一界面展示虚拟化系统CPU、内存、存储等各类资源容量及其利用率等指标,通过资源超配比例数值判断瓶颈,为后续资源扩容提供数据支撑。同时利用主机监控概览界面展示资源池中物理主机和虚拟机数目、开关机状态;依据CPU、内存等资源利用率对各个虚拟机的运行状况进行排名,快速发现资源占用最多的主机、虚拟机,为管理员制定合理的资源池规划提供详尽的数据支持。

虚拟机监控概览界面

                                      图2 虚拟机监控概览界面

  ·资源池拓扑展示

  CAS还支持虚拟化后资源池的拓扑展示,分别以计算资源、网络资源、存储资源为中心,展示三种视角下的虚拟化拓扑,多层次的展示出物理主机、存储、虚拟交换机、虚拟机之间的内部逻辑关系,增加资源在虚拟化环境下的可视性。同时将各类资源的性能数据及告警非常直观的在拓扑中展示出来,包括物理主机、虚拟机的主机信息、运行状态、资源使用情况、告警等信息,帮助管理员快速了解资源池拓扑及告警情况。

资源池拓扑展示

                                             图3 资源池拓扑展示

  同时,虚拟机由于HA、DRS特性可以在物理主机间灵活迁移,使资源调度更加灵活,但是这样也导致虚拟机迁移的不确定性,使虚拟机的管理更加复杂。原来在某台主机上的虚拟机迁移的目的地是哪里?什么时候发生的迁移?迁移的原因是什么?这些疑问都可以在CAS管理平台界面中查看到。例如虚拟机在物理主机间的位置迁移路径,显示每一次迁移事件的所有相关信息,包含每一次迁移的操作员、操作时间、操作动作、迁移耗时等,这样便于管理员全面掌握虚拟机迁移信息,加强虚拟机管理。

虚拟机迁移历史记录

                                          图4 虚拟机迁移历史记录

  二、资源精细化监控

  在虚拟化环境中,会有很多虚拟机共享同一台物理主机的资源,物理主机故障会影响到该主机上运行的所有虚拟机,所以及时、准确的监控资源使用情况非常重要。CAS能在非常短的时间内收集到资源池所有的性能数据、并处理、归档到后台数据库。在虚拟机内部操作系统内安装CAS Tools监控模块,可以有效地保证这些性能数据的准确性,管理员通过观察CAS管理界面中的性能图表来获取这些性能统计信息,对性能进行实时监控。

  ·物理主机性能监控

  如图所示CAS通过仪表盘的形式来展示物理主机的CPU、内存、网络、存储等资源的使用情况,并提供详细的报表,管理员可利用监控数据决定物理主机的负载,来判断是否让更多虚拟机整合在这台物理主机上;同时也能检测主机的可用性问题并提前预知风险。

物理主机概要信息

                                      图5 物理主机概要信息

  ·虚拟机性能监控

  CAS可以对虚拟机CPU、内存、网络、磁盘I/O、IOPS、I/O延时和分区利用率等多项关键指标的监控,通过持续监控虚拟机负载,发现资源利用率较低的虚拟机,可以将此虚机的剩余资源回收到资源池供其他虚拟机使用,最大限度的提高资源利用率;同时利用基于时间轴曲线的图表预测资源性能瓶颈,发现资源不足的虚拟机,及时分配资源来保障虚拟机流畅地运行。

  ·资源使用情况统计

  CAS可对资源的使用情况进行细致的统计,包括主机、虚拟机、网络资源(IP地址)等信息。用户可以根据自身需求灵活定制报表显示的内容,并可将报表信息导出,帮助工程师了解当前资源的使用情况,为业务扩容优化提供量化数据。

虚拟机报表统计

                                          图6 虚拟机报表统计

  三、业务系统可用性监控

  传统虚拟化平台的监控往往只是对资源使用情况的监控,没法监控到虚拟机上运行的业务,而IT管理者更为关注的是业务的运行情况。因此 CAS在满足资源监控的基础上,增加了业务系统的可用性检测。

  利用CAS Tools的业务监控模块可实时监控业务系统进程的状态,通过Tools中的虚拟串口通道保持与CAS管理平台的实时通信,判定业务的存活状态。如果在连续3个时间周期(1个周期为30秒)内探测到被监测的服务状态为非运行或非活跃状态,则自动重启该服务,如果连续4个时间周期检测到应用服务故障,且重启服务失败,则根据系统管理员配置的业务监控策略,重新启动虚拟机或仅上报应用故障不可恢复的告警消息,最小化业务宕机时间。目前可监控的业务类型包括Apache Tomcat、JDK、Apache HTTP Server、MySQL、SQL Server、SharePoint等应用,并支持用户自定义脚本配置业务监控系统来增加所需要的监控项。

  四、完善的告警与审计

  对于虚拟化环境的监控管理而言,告警是一个最基础且最关键的需求。告警涉及的范围包括总体状况重大告警、集群资源利用率告警、主机资源利用率告警、虚拟机资源利用率告警、网络连通性告警、存储连通性告警等多项内容。系统管理员希望各类异常告警的统计信息及其产生的原因与故障恢复手段都在虚拟化平台直观地展示出来,作为决策依据。

  CAS针对集群、物理主机、虚拟机的资源使用情况进行监控,支持自定义CPU、内存、磁盘利用率的告警阈值。当设置的监控指标数值达到设定阈值时,系统会自动上报告警。平台根据设置阈值数值的不同,将告警信息划分为紧急告警、重要告警、次要告警、提示告警。第一时间以短信、邮件等多种方式将异常通知给管理员,以便管理员及时处理,快速解决这些问题,将风险与损失降到最低。同时CAS对系统告警及管理员处理进行日志详细记录,方便事后审计追踪。

  总结

  随着信息化的发展,虚拟化逐渐成为数据中心的标配,虚拟化后带来的监控问题成为最为突出的管理需求。H3C CAS虚拟化平台通过内置的健康度评价模型,从软硬件的各个层面全面评估虚拟化系统的健康程度,对资源池整体容量、运行情况进行直观展示和分析,辅以计算、网络和存储资源的精细化的性能状态、资源告警、环境拓扑、业务系统状态等关键信息的监控,从资源和业务两个维度实现虚拟化环境的监控,保证虚拟化平台的稳定运行。

相关文章

关键词:虚拟化平台, 监控管理 , CAS ,虚拟化

责任编辑:杨爽

网警备案