什么是 LLMOps？

Published 2026 年 2 月 4 日•9 分钟阅读

大语言模型（LLM）是可以理解和生成人类语言的机器学习（ML）模型。 GPT-3、LLaMA 和 Falcon 等 LLM 是从数据中学习以生成单词和句子的工具。随着这些工具的不断演进，企业需要掌握如何运维这些模型的最佳实践。而这正好就是 LLMOps 的用武之地。

大语言模型运维（LLMOps）是指一系列用于管理大语言模型的运维方法。通过 LLMOps，LLM 的整个生命周期，从微调到维护都得到管理并实现自动化，从而帮助开发人员和团队部署、监控和维护 LLM。

探索红帽 AI

面向混合云中 AI 模型的开放平台

如果说 LLM 是 ML 模型的一个子集，那么 LLMOps 同样也是机器学习运维（MLOps）中适用于大语言模型的一个子集。作为一组工作流实践，MLOps 旨在简化 ML 模型的部署和维护过程。MLOps 的目标是建立一个不断发展演进的过程，以便将 ML 模型无缝融入到软件开发流程中。同样，LLMOps 也要不断地试验、迭代、部署和改进 LLM 的开发和部署生命周期。

什么是模型即服务？

LLMOps 和 MLOps 既有相似之处，也有不同之处。具体来说：

学习：传统的 ML 模型都是从头开始创建或训练，但 LLM 是从一个基础模型开始，然后使用新数据进行微调，以提高其完成任务的性能。

调优：对于 LLM，微调可以改进模型的性能并提高准确性，使其更加深入地理解某个特定主题的知识。而提示词调优（Prompt Tuning）可以使 LLM 更好地执行特定任务。超参数调优是另一个不同之处。在传统 ML 中，调优侧重于提高准确性。对于 LLM，调优不仅关乎准确性，还有助于减少成本和训练过程中所需的能源消耗。无论是传统 ML 模型还是 LLM，调优过程都有好处，但侧重点各不相同。最后，值得一提的是检索增强生成（RAG），这是指利用外部知识来确保 LLM 能够收集到准确和具体的事实，以生成更好的回答。

反馈：人类反馈强化学习（RLHF）是一种改进 LLM 训练的方法。人类的反馈对模型的性能至关重要。LLM 会使用人类反馈来评估准确性，而传统 ML 模型使用特定的指标来评估准确性。

性能指标：ML 模型具有精确的性能指标，但 LLM 有一组不同的指标，如双语评估备考（BLEU）和面向回忆的备考（ROUGE ) ，这需要更复杂的评估。

了解有关 MLOps 的更多信息

随着 LLMOps 成为监控和增强性能的最佳方式，三大优势值得探讨：

效率：LLMOps 使得团队能够更快地开发模型，提升模型质量，并实现快速部署。通过一种更简化的管理方式，团队可以在一个促进沟通、开发和部署的平台上进行更有效的协作。vLLM 等工具（一种开源推理服务器，可加速生成式 AI）可以帮助更有效地利用 GPU。

可扩展性：LLMOps 有助于扩展和管理，因为可以管理和监控多个模型，以实现持续集成和持续交付/部署 (CI/CD)。此外，LLMOps 通过改善数据通信和响应，为用户提供了更加迅捷的体验。

风险降低：LLMOps 提高了透明度，并帮助更好地遵守企业和行业的政策。 LLMOps 可以通过保护敏感信息和防止暴露于风险来提高安全和隐私。

了解 vLLM 如何帮助 3 家知名企业更快地实现规模化发展。

了解三个真实落地场景

下方列出了 LLMOps 的几个用例。

持续集成和交付（CI/CD）：CI/CD 旨在简化、加速和自动执行模型开发生命周期。它消除了获取新代码所需的人工干预，从而减少了停机时间并加快了代码发布速度。Tekton 等工具是红帽 OpenShift Pipelines 的基础，可跨多个平台自动部署，为开发人员的工作流提供帮助。

数据收集、标注与存储：数据收集过程从多种来源获取准确的信息。数据标注对收集的数据进行分类，而数据存储负责收集和保存与网络关联的数字化信息。

模型调优、推理、监控：模型调优可以优化模型，以执行特定领域的任务。AI 推理是指 AI 模型根据数据给出答案的过程。模型推理可以基于现有知识来管理生产的内容，并基于推理的信息来执行操作。模型监控（包括人类反馈）可以收集和存储有关模型行为的数据，以了解模型如何使用真实的生产数据。

进一步了解 AI 部署与运维

LLMOps 分为几个阶段，各自都有相应的最佳实践：

探索性数据分析（EDA）：通过创建数据集来评估数据，准备机器学习生命周期所需的数据。

数据收集：训练 LLM 的第一步，从不同来源（例如代码库和社交媒体网络）收集数据。
数据清理：收集到数据后，就需要对数据进行检查并为训练做好准备，包括剔除错误、纠正不一致和删除重复数据。
数据探索：接着是探索数据，以更好地了解数据特征，包括识别异常值和发现特定模式。

数据准备和提示设计：跨团队共享可访问数据并为 LLM 开发提示的过程。

数据准备：用于训练 LLM 的数据以方式准备，包括综合和总结收集的数据。
提示符工程：创建使用作为文本的提示符，以确保 LLM 生成所需的输出。

模型调优：使用主流的开源库（例如 Hugging Face Transformers）来调优和改进模型性能。

模型训练：在准备好数据后，通过使用机器学习算法来学习数据中的模式，从而训练或调优 LLM。
模型评估：完成训练后，需要使用未曾用于 LLM 训练的测试数据集来评估 LLM 的性能。
模型调优：如果 LLM 表现不佳，可以对其进行微调，包括修改 LLM 的参数来提高其性能。

模型审查和治理：借助 Kubeflow等开源 MLOps 平台，跨 ML 模型发现、共享和协作的过程。

模型审查：完成了调优后，就需要对 LLM 进行审查来确保其安全可靠，包括检查偏差和安全风险。
模型治理：模型治理是指在 LLM 的整个生命周期中管理 LLM 的过程，包括跟踪其性能，根据需要进行更改，以及在不再需要时将其停用。

模型推理和服务：管理生产环境中的细节，例如模型刷新频率或请求时间。

模型服务：大语言模型通过审核并获得批准后，即可部署到生产环境中，并通过应用编程接口 (API) 提供服务。当 LLM 规模较大时（例如数千亿个参数），这通常需要分布式推理，即在多个 GPU 上拆分模型的技术。llm-d 等开源项目提供了一个托管的 Kubernetes 原生解决方案，可以高效地编排这种分布式设置。
模型推理：相关的应用可以查询 API 来生成文本或回答问题。这可以通过多种方式来完成，例如表述性状态传递应用编程接口（REST API）或 Web 应用。

模型监控与人类反馈：创建模型和数据以监控异常或负面用户行为。

模型监控：完成部署后，需要对 LLM 进行监控，以确保其按预期执行，包括跟踪其性能、识别存在的问题以及根据需要进行更改。
人类反馈：人类用户对 LLM 生成的文本进行反馈，或者识别出 LLM 性能中的任何问题，从而提升 LLM 的性能。

了解 AI 如何助力企业发展

LLMOps 平台为开发人员和团队提供一个环境，通过数据分析、实验跟踪、即时工程设计和 LLM 管理来促进协作。它还为 LLM 提供托管模型转换、部署和监控。通过改进库管理，该平台可以帮助降低运维成本，并减少对高技能技术团队成员完成数据预处理、模型监控和部署等任务的需求。

了解如何选择适用于 AI 和 LLMOPs 的平台

无论您是想了解如何使用 LLMOps 来发挥自己的优势，还是只是想了解机器学习运维，红帽都可以为您的团队奠定基础，让他们从 AI 中受益。

红帽® AI 是我们专门针对企业组织需求而构建的 AI 产品组合，它筑基于深受客户信赖的红帽解决方案。

红帽 AI 可以帮助企业组织做到以下几点：

快速采用 AI 并进行创新。
拆解交付 AI 解决方案的复杂流程。
随处部署

探索红帽 AI

合适的 LLMOps 工具可以管理和自动化 LLM 的生命周期。红帽 OpenShift® AI 能够跨混合云环境管理预测性和生成式 AI 模型的生命周期。开发人员可以无缝部署、监控和维护 LLM。

了解红帽 OpenShift AI

扩展阅读

一文理解 AI 基础架构 | 有哪些组件、优势和应用？

AI 基础架构结合了人工智能和机器学习（AI/ML）技术，来开发和部署可靠且可扩展的数据解决方案。精心设计的基础架构有助于数据科学家和开发人员访问数据、部署机器学习算法以及管理硬件的计算资源。

什么是 MLOps？

机器学习运维（MLOps）是一组工作流实践，旨在简化机器学习（ML）模型的部署和维护过程。

SLM 与 LLM 的对比：什么是小语言模型？

小语言模型（SLM）是大语言模型（LLM）的精简版本，具有更专业化的知识、定制速度更快且运行效率更高。

什么是 LLMOps？

红帽资源

您的战略自主性有多高？红帽数字主权就绪度评估工具简介

所有红帽产品试用

扩展阅读

一文理解 AI 基础架构 | 有哪些组件、优势和应用？

什么是 MLOps？

SLM 与 LLM 的对比：什么是小语言模型？

AI/ML 相关资源

平台

工具

试用购买与出售

联系我们

关于红帽

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links