AIOps 详解

复制 URL

AIOps(AIfor IT Operations)是一种利用机器学习及其他先进 AI 技术来实现 IT 运维自动化的方法。它依托能够实时观察、学习并采取行动的智能系统,帮助 IT 团队应对复杂的运维环境、减少手动操作,并加快事件响应速度,从而更快、更有效地制定决策。 

复杂 IT 环境中的运维数据体量庞大,这使得快速识别并解决问题变得困难重重。人类根本无法以足够快的速度处理和整理这些数据,因而也难以满足现代 IT 运维的需求。而且,传统的监控工具常常会生成大量冗余或无关紧要的警报,这可能会引发警报疲劳现象,导致最重要的警报被忽视。 

事件响应因此出现延迟,再加上手动故障排除本身耗时的特点,使得平均解决时间(MTTR)延长,并增加停机风险。 

而 AIOps 能够有效缓解这些问题,帮助 IT 团队更快响应事件。它融合了机器学习算法与技术,使系统能够从大量运维数据中学习;同时还借助 IT 自动化来实时响应各类事件,进而提升系统可见性,实现更主动的 IT 管理,并降低运维成本。

阅读电子书

AIOps 平台或方法会收集大量运维数据,应用机器学习算法来识别模式和问题,自动进行修复,并从过往事件中学习。换言之,AIOps 将 IT 运维从“被动式故障排除”转变为“主动式智能管理”。 

数据收集、处理和清洗

AIOps 平台会从网络、应用、数据库及其他各类来源中收集大量信息,进行适当整理,并将其置于上下文环境中进行分析。这些数据可能包括:

  • 实时及历史事件数据。
  • 性能指标与监控数据。
  • 系统和应用日志。
  • 基础架构和配置数据。
  • 安全防护和事件数据。
  • 非结构化或流数据。

平台收集的数据会集中到统一位置,便于进行整理、索引与清洗,实现高效管理。然而,在大多数现代环境中,数据并非集中存储,而是分散于多个共存的可观测性平台上,因此数据汇总成为至关重要的首要步骤。数据“清洗”则是指识别并更正收集到的数据中的错误,以确保数据集和分析结果的可靠性。具体可能包括删除重复数据、修正错误标签的数据或补全缺失数据等。

应用 AI/ML 算法

AIOps 运用机器学习来识别模式,借助自然语言处理技术来解读数据源中的文本,并利用生成式 AI 来整合与提炼见解。通过对日志、工单等多来源的非结构化文本进行解读,可为识别历史数据中的异常情况以及开展根本原因分析(RCA)提供上下文支撑。在此过程中,生成式 AI 可以生成清晰的事件摘要并提出具体的修复建议,从而加快修复速度。AIOps 还可以使用预测分析,该技术依托于历史数据、统计建模、数据挖掘技术及机器学习,能够在问题发生前进行预判。 

自动化响应与修复

在 AIOps 平台识别出事件和模式后,IT 团队可以引入自动化与编排技术来快速解决问题。AIOps 能够依据预先设定的策略,触发自动化的自我修复工作流,例如重启服务或生成事件工单。这种自动化处理方式使得对常见问题的响应具备可扩展性和可重复性,同时减少了停机时间和人工干预。此外,它还为复杂问题保留了人工审核的空间,同时系统会不断学习并完善未来的响应策略。 

成功实施 AIOps 方法的关键在于,选择一个能够从整个 IT 环境中创建单一事实来源的平台。在许多情况下,单个可观测性工具可能无法触及问题根源所在的底层基础架构。因此,选择一个能够跨不同来源进行数据整合、规范化处理并建立关联的平台至关重要,这有助于团队获取有用的见解,并支持更高效的修复工作流运作。

代理式 AI 系统可以通过自主监控系统并实时安装补丁来支持 AIOps 流程。为实现该目标,代理必须能够通过 API 访问服务器日志和监控工具中的海量信息。 模型上下文协议(MCP)是一种工具,可帮助代理确定如何处理外部数据以及如何使用外部数据来生成行动或输出。 

红帽资源

AIOps 为 IT 运维工作带来了显著优势,但同时也伴随着一系列挑战。企业组织在数据管理、专业实力以及系统集成方面会面临诸多障碍,这些因素将直接影响 AIOps 解决方案的见效周期以及整体实施成效。

挑战

  • 数据管理难度大。收集、整理和清理数据以保障其质量和一致性,这一过程颇为复杂。从海量数据中甄别有价值信息与无关信息也并非易事,但又至关重要,因为 AIOps 的成效直接取决于数据源的质量。
  • 专业知识和基础架构要求高。企业组织若想自主开发 AIOps 解决方案,需配备专业的内部数据科学家团队,而这本身就可能构成一道相当大的障碍。寻找在 AIOps 设计和管理方面具备所需专业知识的人员往往非常耗时,而培训现有员工则成本高昂。此外,如果平台和功能未实现标准化,则难以就不断变化的基础架构对 AIOps 进行训练,因为这类系统的设计、构建与管理本身也颇为复杂且需要投入大量时间。
  • 成效显现延迟。AIOps 系统的设计、实施、部署与管理过程难度较大,因此可能需要一定时间才能看到投资回报率(ROI)。
  • 与现有系统集成困难。 AIOps 解决方案若要发挥作用,就需与当前的基础架构和工具协同工作。而这种集成可能颇具挑战性,尤其是在混合云或多云环境中。
  • 信任不足与协同不畅。企业组织需要确保 AI 的应用符合伦理规范、方法透明可溯且结论合理可验。此外,制定明确的运维目标需要凝聚众多利益相关方的共识,而这一点往往难以实现。

从数据管理到系统集成,这些挑战看似艰巨,却正是成熟 AIOps 平台的设计初衷所在。通过采用统一的解决方案,企业组织可以克服常见的实施障碍并实现关键效益。 

对于希望快速扩展的企业而言,vLLM 是一种越来越受欢迎的解决方案。vLLM 是一款推理服务器,可以帮助 LLM 更高效地利用 GPU。它采用连续批处理、PagedAttention 技术和量化等技术,从而更好地利用 LLM 的内存存储空间。

了解三家知名企业组织如何利用 vLLM 更高效地实现扩展。

优势

  • 加快解决问题速度并减少停机时间。 AIOps 可通过检测和应对新出现的问题来缩短平均解决时间(MTTR),从而减少停机时间。这一点依托于其快速识别根本原因并自动实施解决方案的优势。在问题影响用户或导致昂贵宕机之前主动解决。
  • 提升工作效率。 通过实现手动重复性任务的自动化,AIOps 可减少人为失误并提高 IT 人员的工作效率。这使得团队有更多时间专注于更具价值的战略项目,进而实现基础架构与人力资源的更高效利用。
  • 增强可观测性与洞察力。AIOps 会从不同来源收集海量数据并建立数据关联,从而提供统一的 IT 环境全景。它还运用机器学习来检测异常、识别模式并提供可预测的分析,将原始数据转化为有用的见解。
  • 削减成本。 通过预防系统中断、优化资源分配并提升 IT 人员工作效率,AIOps 能够降低运维成本,同时降低 IT 基础架构的总拥有成本。
  • 改善客户和员工体验。AIOps 有助于维持关键服务与应用的持续运行,从而为客户带来更稳定顺畅的使用感受。此外,它仅推送最重要的警报来减轻 IT 团队的警报疲劳,进而提升团队士气与决策水平。 

利用 IT 自动化为 AI 构筑可靠的基础

 

您可以运用 AIOps 来应对各类 IT 运维挑战。通过集成 AI 与自动化技术,能够实现从被动解决问题到主动进行智能 IT 管理的转型。

基础架构和云管理

AIOps 对于管理复杂的 IT 环境至关重要,包括虚拟机(VM)、混合云以及网络边缘运维。它采用事件驱动自动化机制,可针对中央处理单元(CPU)使用率飙升或网络服务故障等常见警报自动做出响应。AIOps 还可以帮助 IT 团队更好地利用资源,从而降低成本,并使他们无需再手动管理基础架构。 

AIOps 可用于管理各种成本节约技术,如分布式推理。分布式推理通过将推理任务分配给一组互联设备,使 AI 模型能够更高效地处理工作负载。llm-d 等框架支持大规模分布式推理,可加速生成式 AI 应用在企业中的全面部署。

网络和边缘优化

AIOps 在提升网络性能以及加快 IT 团队问题响应速度方面发挥着重要作用。它能在整个网络范围内提供自动化支持与 AI 见解,涵盖有线网络、无线网络、软件定义广域网(SD-WAN)、广域网边缘、数据中心以及安全域。具体操作包括自动执行基本的网络故障排除任务及修复配置问题。此外,借助事件驱动自动化,即使在网络边缘也能触发应用重新部署。

业务影响评估和服务运行状况监控

您可以使用 AIOps 来更好地了解 IT 问题对业务服务的影响。通过收集和分析大量数据,AIOps 可以帮助站点可靠性工程师(SRE)监控应用、硬件和网络基础架构的性能。更深入地掌握性能问题及其对服务正常运行时间的影响后,您便可以根据问题的严重程度和相关性,确定修复工作的优先次序。

安全防护与合规性 

AIOps 可以利用 AI 的异常检测和事件关联功能来主动识别潜在威胁(如数据泄露等),从而提升安全态势。它还能应对配置偏移问题,不仅能检测到变更,还会提供有关风险与影响的背景信息,助力优先执行自动修复。为确保治理有效,您可以在运行 AI 发起的自动化操作前,依据预定义的安全策略对其进行验证。这有助于确保 AI 合规运行,并增强结果的可信度。 

行业特定应用

AIOps 解决方案可针对金融服务业、医疗保健业、电信业和制造业等不同行业的独特需求进行定制。部分工具能够提供跨 IT 运维的全局视图,而面向特定领域的应用则能带来更深入、专业的洞察。这些应用采用基于行业相关数据集训练的 AI 模型,专注解决各类特定挑战与场景需求。

红帽 Ansible 自动化平台的五大 AIOps 用例

DevOps 致力于在整个应用生命周期内实现持续的渐进式改进。因此,停机时间是 DevOps 面临的一大挑战,而这也正是 AIOps 发挥关键作用之处。AIOps 通过将数据科学融入开发与运维流程,为 DevOps 文化提供有力支撑。

虽然 DevOps 与 AIOps 之间的实际界限颇为模糊,但 AIOps 在 DevOps 流程的两端都能很好地发挥作用:

  • 在前端,AIOps 可以使用大量基础架构数据,以警示 DevOps 工程师注意底层集成开发环境(IDE)的问题或直接进行修复。
  • 在后端,AIOps 能够自动解决生产环境中的冗余 IT 问题,同时学习如何修复每次新版本发布时出现的未知漏洞。 

与 DevOps 一样,AIOps 也依赖于一套多样化的工具和高度协作的方法来支持更快、更高效的 IT 运维。虽然统一的 AIOps 平台可以在您独特的开发和生产环境中进行集成、分析和操作,但您使用的底层工具会因 IT 架构的不同而有所差异。

进一步了解 DevOps

需要明确的是,AIOps 并非要取代推理,而是引导其朝着正确的方向优化。

推理依然是生成式 AI 的核心,这也是它能够决定 AI 策略成败的关键所在。拥有合适的基础架构(包括硬件和软件)来支持成功、智能的推理,仍然至关重要。

一个完善的 AIOps 策略可以从以下方面为推理提供支持:

  • 性能监控
  • 容量规划
  • 成本优化
  • 智能推理调度

总体而言,一个强大的 AIOps 策略可以帮助您获得更强大的 AI 推理能力。

为什么要关注 AI 推理

红帽® AI 是一个包含各种产品与服务的平台,能够在您企业 AI 旅程的任何阶段提供帮助,无论您是刚刚起步,还是准备进行扩展。针对您企业独特的用例,它既能支持生成式 AI,也能支持预测性 AI 相关工作。

借助红帽 AI,您可以使用红帽 AI 推理服务器,在混合云环境中优化模型推理,从而实现更快、更经济高效的部署。推理服务器由 vLLM 提供支持,可最大限度提高 GPU 利用率,加快响应速度。

了解有关红帽 AI 推理服务器的更多信息

红帽 AI 推理服务器还包含红帽 AI 存储库,这是一个经过第三方验证和优化的模型集合,既能保证模型选择的灵活性,又能促进跨团队的一致性。通过接入第三方模型存储库,企业能够显著缩短推向市场所需的时间,并降低 AI 成功落地的成本门槛。


了解有关经红帽 AI 验证的模型的更多信息

博客文章

您的战略自主性有多高?红帽数字主权就绪度评估工具简介

红帽数字主权就绪度评估工具 (Red Hat Sovereignty Readiness Assessment tool) 是一款基于 Web 的自助式评估工具,能够针对您组织在七大关键领域的数字化掌控力,提供清晰、客观的基准分析。

所有红帽产品试用

我们的免费试用服务可让您亲身体验红帽的产品功能,为获得认证做好准备,或评估某个产品是否适合您的企业组织。

扩展阅读

什么是预测性分析

预测性分析是一种分析方法,它通过分析当前数据和历史数据,来预测未来可能发生的事件或趋势。

什么是 llm-d?

llm-d 是一种开源的 Kubernetes 原生框架,可加速大规模的分布式 LLM 推理。

AI 基础架构简介

AI 基础架构结合了人工智能和机器学习(AI/ML)技术,来开发和部署可靠且可扩展的数据解决方案。

AI/ML 相关资源

相关文章