什么是 AI 推理？

Published 2026 年 2 月 4 日•10 分钟阅读

AI 推理是指 AI 模型依据数据提供答案的过程。通常人们所说的“AI”，实际上指的是 AI 推理的成果：这是机器学习技术的漫长而复杂的演进过程中的最后一步，就像是人类的“顿悟”时刻。

使用充足的数据训练人工智能（AI）模型，有助于提高 AI 推理的准确性和速度。

举个例子，我们用关于动物的数据对一个 AI 模型进行训练，使其学习关于动物的方方面面，从不同动物之间的异同，到典型的健康状况和行为习惯等，而在这一过程中，模型还需要依赖庞大的数据集，才能建立这些联系并识别出其中的规律。

训练成功后，该模型就能够进行各种推理，比如识别狗的品种、辨别猫的叫声，甚至在马匹受惊时发出预警。尽管该模型的认知完全来源于抽象数据集，从未在真实环境中亲眼见过这些动物，但由于在训练时接触了大量数据，因此它能够在新的环境中实时进行推理。

我们人类的大脑也会进行类似的关联。我们可以从书籍、电影和网络资源中了解不同的动物，比如看动物的图片、看视频，以及听它们的声音。因而，当我们去动物园时，就能对面前的动物做出推断（“那是一头水牛！”）。即使我们从未去过动物园，也能基于探究到的信息而识别动物。同样地，在 AI 推理过程中，AI 模型也能够根据之前学习的数据来识别对象或做出推断。

观看我们的下一次现场活动，了解红帽 AI 的新动向及未来发展趋势。观看下一场现场直播视频。

探索红帽 AI

AI 推理是 AI 的运行阶段，在这一阶段，模型能够将其在训练过程中所学到的内容应用于现实场景中。AI 能够识别规律并得出结论，这是其有别于其他技术之处。其推理能力不仅能辅助完成日常的实际任务，还能解决极为复杂的计算机编程问题。

然而，随着模型规模不断扩大，推理环节面临着巨大压力。模型复杂度提升，这会直接导致推理速度减缓。

为了成功进行推理，AI 模型需要在短时间内完成大量数学运算。因此，模型规模、高用户量和延迟等因素都可能会限制性能表现。当模型需要更多数据和内存时，硬件和加速器便难以满足需求。

因此，支持推理功能的硬件和软件，关系到 AI 战略的成败。

进一步了解推理为何如此重要

如今，企业可以在各种日常用例中运用 AI 推理。下面是一些示例：

医疗保健领域： AI 推理可以帮助医护人员将患者病史与当前数据进行对比，并以比人类更快的速度追踪规律和异常情况。例如，发现脑部扫描中的一个异常点，或是心跳中的一次额外“搏动”。这有助于更早、更快地捕捉不良迹象，发现威胁患者健康的问题。

金融领域：通过采用包含大量银行和信贷信息的大型数据集对 AI 模型进行训练后，AI 推理能够实时识别错误或异常数据，从而尽早尽快地察觉欺诈行为。这有助于优化客户服务资源，保护客户隐私，并提升品牌声誉。

汽车领域：随着 AI 开始广泛应用于汽车行业，自动驾驶汽车正在改变我们的驾驶方式。AI 推理可以帮助车辆规划从 A 点到 B 点的最高效行驶路线，或者在接近停车标志时自动刹车，这一切都可以帮助提升驾乘人员的舒适度和安全性。

预测性 AI 与生成式 AI：有何区别

许多其他行业也在以创新性的方式应用 AI 推理。它可以应用于快餐店的免下车服务、兽医诊所或酒店礼宾服务。越来越多的企业也正在探索如何利用这项技术来发挥自身优势，提高业务精准性、节省时间和金钱，并在竞争中保持领先地位。

更多 AI/ML 用例

AI 训练是利用数据来教会模型如何建立联系并识别规律的过程。训练是对模型进行教导的过程，推理则是 AI 模型的实际应用阶段。

什么是基础模型？

大多数 AI 训练都是在构建模型的初始阶段进行。完成训练后，模型就能对其从未接触过的数据建立关联。采用更庞大的数据集来训练 AI 模型，意味着它能够学习到更多的关联，从而做出更准确的推理。如果模型在训练后难以做出准确推理，还可以通过微调来增加知识量并提高准确性。

训练和 AI 推理的结合才使得 AI 能够模仿人类能力的方式，例如根据证据和推理得出结论。

模型大小等因素会改变操作模型所需的资源量。

了解小型模型如何简化 GPU 推理过程。

不同类型的 AI 推理可以支持不同的用例。

批量推理：批量推理因其大批量接收和处理数据的方式而得名。这种方法并非实时处理推理，而是按批次处理数据，有时按小时，甚至按天处理，具体取决于数据量和 AI 模型的效率。这些推理也可称为“离线推理”或“静态推理”。
在线推理：在线推理也称为“动态”推理，可以实时提供响应。这类推理需要硬件和软件的支持，以降低延迟障碍并实现高速预测。在线推理在边缘场景中很有帮助，即 AI 在数据所在的位置进行工作。这也许是手机上、汽车里，或者网络连接有限的远程办公室中。
OpenAI 的 ChatGPT 便是在线推理的典型范例，它需要大量的前期运维支持，才能快速且准确地作出响应。
流式推理：流式推理所指的 AI 系统，未必用于与人类进行交互。该模型不是基于提示或请求来运作，而是接收持续不断的数据流，以便进行预测并更新其内部数据库。流式推理能够监控变化、保持运行规律，或在问题实际发生前进行预测防范。

了解利用 vLLM 进行分布式推理如何缓解瓶颈

AI 推理服务器是一种可助力 AI 模型从训练阶段跨越到实际运行阶段的软件。它利用机器学习技术，使模型能够运用所学内容并将其付诸实践，从而生成推理结果。

为确保高效生成结果，AI 推理服务器和 AI 模型需要相互兼容。以下是几种推理服务器及其最佳适配模型的示例：

多模态推理服务器：这种类型的推理服务器能够同时支持多个模型。这意味着它可以接收代码、图像或文本形式的数据，并在单个服务器上处理所有这些不同的推理。多模态推理服务器能够更高效地使用 GPU 和 CPU 内存来支持多个模型。这有助于简化硬件配置，使其更容易扩展，并优化成本。
单模型推理服务器： 这种推理服务器仅支持一个模型，而非多个。AI 推理流程专门用于与针对特定用例训练的模型进行通信。它可能只能处理文本形式或代码形式的数据。得益于这样的专用性，它能够实现极高的效率，这在实时决策场景或资源受限的情况下非常有帮助。

在运行 AI 推理时，最大的挑战在于扩展、资源以及成本。

复杂性：训练模型执行简单任务相对容易，比如生成一幅图片，或者向客户说明退货政策。然而，当我们期望模型处理更复杂的数据，例如识别金融欺诈或诊断医学异常时，它们在训练过程中就需要更多的数据，同时也需要更多资源来支持处理这些数据。
资源： 更复杂的模型在生成推理时需要处理大量数据，因此会需要专门的硬件和软件来提供支持。这些资源的一个关键组成部分是中央处理器（CPU）内存。CPU 通常被视为计算机的核心或控制中心。当模型准备利用其已知内容（即训练数据）来生成答案时，它必须参考存储在 CPU 内存中的数据。
成本： 实现 AI 推理所涉及的所有这些要素都价格不菲。无论您的目标是扩大规模，还是升级到最新的 AI 支持硬件，要获得全面的解决方案，所需资源极为可观。随着模型复杂性的增加和硬件的不断演进，成本可能会急剧上升，使得企业组织难以跟上 AI 创新的步伐。

一种称为 vLLM 的特定推理引擎，有助于应对这些挑战。vLLM 通过更好地利用 GPU 内存，加快生成式 AI 应用的输出速度。vLLM 是一个由 vLLM 社区维护的开源代码库。该代码库有助于大语言模型（LLM）更高效地大规模执行计算。它使用 LLM Compressor 等工具来帮助您更快地进行推理，从而减轻团队和资源的重大负担。

什么是 vLLM？

AI 推理正被广泛应用于高吞吐量、高动态变化的用例中。然而，要大规模地一致部署 LLM，需要投入大量的计算能力、资源，同时还要具备专业的运维技能。vLLM 可通过更高效地利用企业 AI 推理所需的硬件资源，有效应对这些挑战。这就是 vLLM 格外吸引那些需要兼顾速度、灵活性和可控性的行业的原因。

vLLM 与 Ollama：不同场景下如何选择

作为一种开源解决方案，vLLM 能够让企业实现以下目标：

自主拥有并管理 GPU 资源。
完全掌控自身数据。
在尖端模型发布后，第一时间对其进行实验。

vLLM 可部署于多种硬件平台，包括 NVIDIA 和 AMD GPU、Google TPU、Intel Gaudi 和 AWS Neuron。其兼容性不受特定硬件限制，可在云端、数据中心乃至边缘计算环境中稳定运行。

通过以下三个真实用例，了解知名企业组织如何利用 vLLM 实现有效扩展。

探索三个 vLLM 真实用例

分布式推理通过将推理任务分配给一组互联设备，使 AI 模型能够更高效地处理工作负载。这相当于软件领域的“众人拾柴火焰高”。

分布式推理所支持的系统架构，能够将请求分配到由物理服务器和云服务器组成的计算硬件资源池中执行。随后，每台推理服务器并行处理其分配到的部分任务，以生成输出结果。这最终可形成一个具备高弹性且可观测的系统，能够持续稳定地交付可扩展的 AI 驱动型服务。

vLLM 支持使用张量并行和混合专家模型（MoE）架构等技术进行分布式推理。

进一步了解分布式推理

红帽 AI 是一个包含各种产品与服务的平台，能够在您企业 AI 旅程的任何阶段提供帮助，无论您是刚刚起步，还是准备进行扩展。针对您企业独特的用例，它既能支持生成式 AI，也能支持预测性 AI 相关工作。

借助红帽 AI，您就可以访问红帽® AI 推理服务器，在混合云上优化模型推理，从而实现更快、更具成本效益的部署。推理服务器由 vLLM 提供支持，可最大限度提高 GPU 利用率，加快响应速度。

了解有关红帽 AI 推理服务器的更多信息

红帽 AI 推理服务器包含红帽 AI 资源存储库，这是一个经过第三方验证和优化的模型集合，既能确保模型具有灵活性，又可确保跨团队一致性。通过接入第三方模型存储库，企业能够显著缩短推向市场所需的时间，并降低 AI 成功落地的成本门槛。

进一步了解经红帽 AI 验证的模型

扩展阅读

什么是预测性分析

预测性分析是一种分析方法，它通过分析当前数据和历史数据，来预测未来可能发生的事件或趋势。

什么是 llm-d？

llm-d 是一种开源的 Kubernetes 原生框架，可加速大规模的分布式 LLM 推理。

什么是 MLOps？

机器学习运维（MLOps）是一组工作流实践，旨在简化机器学习（ML）模型的部署和维护过程。

什么是 AI 推理？

红帽 AI

您的战略自主性有多高？红帽数字主权就绪度评估工具简介

红帽 AI

扩展阅读

什么是预测性分析

什么是 llm-d？

什么是 MLOps？

AI/ML 相关资源

平台

工具

试用购买与出售

联系我们

关于红帽

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links