什么是可观测性?
可观测性是指理解 IT 系统或应用的状态并对其做出响应的能力。与监控类似,可观测性也依赖于输出、日志和性能指标。但与单纯的监控相比,可观测性能够帮助您主动运用这些指标来对系统和应用进行故障排除和优化。例如,通过观测系统事件,自动化工具可以在出现问题时迅速做出响应,从而确保系统高效稳定运行。
可观测性有哪些好处?
随着软件系统日趋复杂,处理不断增长的输出和指标也变得更加棘手。可观测性吸纳并拓展了传统监控系统的能力,可帮助团队识别问题的根本原因。它使利益相关者能够回答关于其应用和业务方面的问题,并做出预测。
随着微服务的广泛采用、对分布式架构依赖加深以及平台工程作为一门学科的兴起,可观测性在这些计算趋势中愈发受到重视。
在现代软件系统和云计算领域,可观测性为可靠性、性能和安全性提供了有力支撑。可观测性的好处包括:
更高的可靠性
在局面恶化之前检测并解决问题,最大限度减少停机时间,并确保系统依然可供用户使用。
高效的故障排除
深入洞察系统行为,从而快速确定问题的根本原因并高效地解决问题。
优化性能:
精准识别需要优化的领域,如系统中的瓶颈或未充分利用的资源,从而提高资源分配效率并改进性能。
数据驱动的决策
获取最新的系统性能和行为信息,实现数据驱动决策和持续改进。
在实施可观测性方面,并无统一的标准方法。鉴于使用的工具和技术多种多样,可观测性策略需要以特定方式整合您选择的工具,切实满足您的需求。
红帽资源
可观测性落地面临哪些挑战?
即使制定了契合您需求的可观测性策略,企业组织层面仍存在诸多挑战,可能会阻碍策略发挥应有效益。您可能会遇到的一些常见不利因素包括:
复杂性
随着 IT 环境持续扩展,组件数量不断增加,系统间的交互次数呈指数级增长。这导致难以预测系统中某部分的变化对其他部分有何影响,从而使维持可靠性的任务变得更加复杂。细节至关重要,在复杂环境中获取正确标记的数据和元数据可能颇具挑战性。
团队间缺乏协作
团队组织方式是另一项重大挑战。任一系统都可能不存在唯一、直接的责任人。要将可观测性见解转化为有效行动,跨团队协作至关重要。数据需易于访问并流向正确的系统,确保合适的团队能够利用这些数据进行分析。
迅速变化
可观测性与高效系统管理领域总在推陈出新。团队需要持续接受培训才能跟上实践、工具和技术的更新步伐,这可能十分耗时,抑或昂贵,甚至两者兼具。
技术和工具无序蔓延
随着平台、工具和供应商更迭,难免存在旧应用和基础架构遗留问题。这可能会导致效率、技能和安全方面出现缺口。如果没有标准化的可观测性工具和实践,跨团队协作变得困难重重。
什么是云原生可观测性?
随着越来越多的企业组织采用云原生基础架构,团队发现针对这些环境构建可观测性的需求日益增长。云原生可观测性是一种对现代云原生应用进行监控、分析和故障排除的实践,这些应用使用微服务架构构建而成,并部署在容器或无服务器环境中。
云原生可观测性工具旨在收集和分析来自所有这些云原生技术的数据,并提供有关这些环境中系统性能的深度见解。
云原生可观测性的核心要素通常包括以下几项:
指标:侧重于收集有关 Kubernetes 环境和应用的定量数据。指标可以包括中央处理单元(CPU)和内存使用率、网络流量和请求延迟等数据。Kubernetes 可提供数个内置的指标,但您也有可能需要使用其他工具或库来收集更详细的指标。
日志:侧重于收集和分析来自 Kubernetes 环境和应用的日志数据。借助日志,可获取对应用行为的重要见解,并且日志可用于排查问题、确定性能瓶颈和检测安全威胁。
跟踪:侧重于收集有关跨 Kubernetes 环境和应用执行请求或事务的数据。借助跟踪功能,您可以了解应用如何处理请求或事务,识别性能问题,并优化应用的性能。
事件:侧重于收集有关 Kubernetes 环境所发生重要事件的数据,例如应用部署、扩展事件和错误等。借助事件功能,您可以监控 Kubernetes 环境的运行状况,并在出现问题时快速做出响应。
可观测性与事件驱动的自动化
事件驱动的自动化是指在无需人工干预的情况下,通过适当的操作来响应 IT 环境中不断变化的状况的能力。
事件是指运行状态下可检测到的变化,这些变化对于管理 IT 基础架构或交付 IT 服务具有重要意义。借助可观测性工具,可识别表明应用、硬件、软件、云实例或其他技术状态发生变化的事件。
一旦可观测性系统检测到事件,自动化工具便会执行相应操作来解决或修复事件。自动化可以根据现有工具的可观测性数据采取行动,从而帮助您更充分地利用现有工具。例如,您可以使用可观测性工具将容量和性能指标与事件驱动的自动化相结合,以便在需要时自动置备容器、云基础架构、虚拟机和其他技术。
来自应用工作负载的事件可触发操作,从而提高工作效率。例如,开发团队可以在代码提交时自动运行强化与合规性检查。团队可以通过选择触发响应的警报并设计要采取的操作,灵活构建这些自动化场景。
信息技术服务管理(ITSM)任务——包括工单优化和修复(如服务重启和证书轮换)——是理想的起点,但事件驱动的自动化足够灵活,可以跨 IT 环境处理众多任务。
红帽® Ansible® 自动化平台包含事件驱动的 Ansible,它可支持人工智能驱动 IT 运维(AIOps),并与 Splunk、Dynatrace、IBM Instana、ITSM 解决方案等众多平台集成。
如何利用可观测性来解决系统问题?
可观测性对于平台工程、站点可靠性工程(SRE)和 DevOps 来说至关重要,因为它是确保系统可靠且高效运行的重要方式。
当团队利用可观测性数据识别、分析和解决系统中的问题时,“调试之旅”便开始了。此流程首先使用监控、警报或用户报告的事件来检测问题。
检测到问题后,团队会判定问题的严重性并确定其优先级。这一分类过程涉及评估问题对用户、系统和整体性能的影响。
针对这些已确定优先级的问题项,团队利用可观测性数据展开调查,识别模式和相关性。在识别出潜在的相关性和模式后,团队深入研究这些数据,以查明问题的根本原因。
确定根本原因后,团队即可实施修复,具体形式包括代码更改、热修复或基础架构调整。最后,团队会监控系统,以确认解决方案是否有效。
对于向客户提供高质量数字服务的企业而言,面向平台工程、DevOps 和 SRE 的可观测性发挥着至关重要的作用。
红帽 OpenShift® Observability 可提供建立系统基线所需的信息,并在出现偏离基线的情况时发出警报,从而帮助缩短平均检测时间(MTTD)和平均解决时间(MTTR)。
可观测性如何支持其他 IT 趋势?
AIOps
可观测性在支持 AIOps 方面发挥着重要作用,AIOps 是一种将 AI 驱动的见解与自动化修复相结合的方法。可观测性平台收集运维数据,机器学习算法则识别模式和异常。随后,您可以将这些见解传递给类似于 Ansible 自动化平台的自动化工具,以解决各种问题。企业组织可以在检测到问题时自动进行修复,从而缩短平均解决时间(MTTR),减少人工干预,并使 IT 团队能够专注于优先级更高的工作。
平台工程
平台工程是软件开发领域内的一门学科,致力于提高生产力、缩短应用交付周期、加快上市速度。借助可观测性,平台工程师可全面查询和探索所有服务中的数据,而非一次只关注单一指标。得益于这种扩展后的可见性,团队能够更高效地对复杂问题进行故障排除,并确保所有系统组件顺畅、稳定地协同运作。
混合环境和多云环境
随着企业组织越来越多地采用混合云和多云策略,他们可以在许多不同类型的基础架构中部署应用,并充分发挥这种额外灵活性的优势。无论应用和服务部署在何处,借助可观测性工具,您都可以全面了解整个基础架构。
边缘设备
边缘、物联网(IoT)及其他本地计算设备不断增长,这给监控和管理这些环境带来了新的挑战。边缘设备的可观测性可能涉及创建用于数据收集的轻量级代理,采用适合边缘环境的数据格式和协议,整合分散的数据处理和分析技术,同时保持有效的安全与隐私控制。
DevOps
DevOps 流程依靠可观测性来确保云原生应用的可靠性和性能。这包括将可观测性工具集成到 DevOps 工具链中,以及使用可观测性数据来支持应用性能和可靠性的持续改进。
开源工具
可观测性生态系统中的大部分内容都是围绕开放技术构建的。Grafana、Jaeger、Kafka、OpenTelemetry 和 Prometheus 等开源可观测性工具已得到广泛采用。这些工具具有成本优势,灵活较高,可自定义,并且能够与其他工具集成。
视频:混合云中的红帽 OpenShift Observability(1:47)
为什么选择红帽来实现可观测性?
红帽解决方案组合支持您的团队在任何平台上实施可观测性策略。
红帽 OpenShift Observability 旨在解决现代架构方面的复杂性,它能在各种可观测性工具和技术之间搭建桥梁,创造统一的可观测性体验。该平台经过精心设计,可实时呈现、监控和分析各种系统指标、日志、跟踪和事件,帮助用户快速诊断和排除问题,以免对应用或最终用户造成影响。
其他可帮助您成功实施可靠的可观测性策略的红帽产品包括:
红帽 OpenShift:一个企业级应用平台,包含一系列统一经过测试的服务,可基于您选择的基础架构将应用推向市场。
红帽 Ansible 自动化平台:一个值得信赖、功能多元的企业自动化解决方案,只需一个平台即可响应可观测性数据并编排整个 IT 资产。
红帽 Kubernetes 高级集群管理:此产品提供丰富的功能,能够统一多集群管理,实现基于策略的治理、应用生命周期管理,以及主动式的集群运行状况和性能监控。
红帽 Lightspeed:一款端到端的系统管理工具,可跨红帽平台提供依托 AI 的指导,助您更高效地管理混合云环境。
红帽官方博客
获取有关我们的客户、合作伙伴和社区生态系统的最新信息。