什么是 AI 推理?
AI 推理是指 AI 模型依据数据提供答案的过程。通常人们所说的“AI”,实际上指的是 AI 推理的成果:这是机器学习技术的漫长而复杂的演进过程中的最后一步,就像是人类的“顿悟”时刻。
使用充足的数据训练人工智能(AI)模型,有助于提高 AI 推理的准确性和速度。
举个例子,我们用关于动物的数据对一个 AI 模型进行训练,使其学习关于动物的方方面面,从不同动物之间的异同,到典型的健康状况和行为习惯等,而在这一过程中,模型还需要依赖庞大的数据集,才能建立这些联系并识别出其中的规律。
训练成功后,该模型就能够进行各种推理,比如识别狗的品种、辨别猫的叫声,甚至在马匹受惊时发出预警。尽管该模型的认知完全来源于抽象数据集,从未在真实环境中亲眼见过这些动物,但由于在训练时接触了大量数据,因此它能够在新的环境中实时进行推理。
我们人类的大脑也会进行类似的关联。我们可以从书籍、电影和网络资源中了解不同的动物,比如看动物的图片、看视频,以及听它们的声音。因而,当我们去动物园时,就能对面前的动物做出推断(“那是一头水牛!”)。即使我们从未去过动物园,也能基于探究到的信息而识别动物。同样地,在 AI 推理过程中,AI 模型也能够根据之前学习的数据来识别对象或做出推断。
观看我们的下一次现场活动,了解红帽 AI 的新动向及未来发展趋势。观看下一场现场直播视频。
为什么 AI 推理很重要?
AI 推理是 AI 的运行阶段,在这一阶段,模型能够将其在训练过程中所学到的内容应用于现实场景中。AI 能够识别规律并得出结论,这是其有别于其他技术之处。其推理能力不仅能辅助完成日常的实际任务,还能解决极为复杂的计算机编程问题。
然而,随着模型规模不断扩大,推理环节面临着巨大压力。模型复杂度提升,这会直接导致推理速度减缓。
为了成功进行推理,AI 模型需要在短时间内完成大量数学运算。因此,模型规模、高用户量和延迟等因素都可能会限制性能表现。当模型需要更多数据和内存时,硬件和加速器便难以满足需求。
因此,支持推理功能的硬件和软件,关系到 AI 战略的成败。
红帽 AI
AI 推理用例
如今,企业可以在各种日常用例中运用 AI 推理。下面是一些示例:
医疗保健领域: AI 推理可以帮助医护人员将患者病史与当前数据进行对比,并以比人类更快的速度追踪规律和异常情况。例如,发现脑部扫描中的一个异常点,或是心跳中的一次额外“搏动”。这有助于更早、更快地捕捉不良迹象,发现威胁患者健康的问题。
金融领域:通过采用包含大量银行和信贷信息的大型数据集对 AI 模型进行训练后,AI 推理能够实时识别错误或异常数据,从而尽早尽快地察觉欺诈行为。这有助于优化客户服务资源,保护客户隐私,并提升品牌声誉。
汽车领域: 随着 AI 开始广泛应用于汽车行业,自动驾驶汽车正在改变我们的驾驶方式。AI 推理可以帮助车辆规划从 A 点到 B 点的最高效行驶路线,或者在接近停车标志时自动刹车,这一切都可以帮助提升驾乘人员的舒适度和安全性。
许多其他行业也在以创新性的方式应用 AI 推理。它可以应用于快餐店的免下车服务、兽医诊所或酒店礼宾服务。越来越多的企业也正在探索如何利用这项技术来发挥自身优势,提高业务精准性、节省时间和金钱,并在竞争中保持领先地位。
AI 推理有哪些不同类型?
不同类型的 AI 推理可以支持不同的用例。
- 批量推理:批量推理因其大批量接收和处理数据的方式而得名。这种方法并非实时处理推理,而是按批次处理数据,有时按小时,甚至按天处理,具体取决于数据量和 AI 模型的效率。这些推理也可称为“离线推理”或“静态推理”。
在线推理:在线推理也称为“动态”推理,可以实时提供响应。这类推理需要硬件和软件的支持,以降低延迟障碍并实现高速预测。在线推理在边缘场景中很有帮助,即 AI 在数据所在的位置进行工作。这也许是手机上、汽车里,或者网络连接有限的远程办公室中。
OpenAI 的 ChatGPT 便是在线推理的典型范例,它需要大量的前期运维支持,才能快速且准确地作出响应。
- 流式推理:流式推理所指的 AI 系统,未必用于与人类进行交互。该模型不是基于提示或请求来运作,而是接收持续不断的数据流,以便进行预测并更新其内部数据库。流式推理能够监控变化、保持运行规律,或在问题实际发生前进行预测防范。
什么是 AI 推理服务器?
AI 推理服务器是一种可助力 AI 模型从训练阶段跨越到实际运行阶段的软件。它利用机器学习技术,使模型能够运用所学内容并将其付诸实践,从而生成推理结果。
为确保高效生成结果,AI 推理服务器和 AI 模型需要相互兼容。以下是几种推理服务器及其最佳适配模型的示例:
- 多模态推理服务器:这种类型的推理服务器能够同时支持多个模型。这意味着它可以接收代码、图像或文本形式的数据,并在单个服务器上处理所有这些不同的推理。多模态推理服务器能够更高效地使用 GPU 和 CPU 内存来支持多个模型。这有助于简化硬件配置,使其更容易扩展,并优化成本。
- 单模型推理服务器: 这种推理服务器仅支持一个模型,而非多个。AI 推理流程专门用于与针对特定用例训练的模型进行通信。它可能只能处理文本形式或代码形式的数据。得益于这样的专用性,它能够实现极高的效率,这在实时决策场景或资源受限的情况下非常有帮助。
AI 推理面临的挑战
在运行 AI 推理时,最大的挑战在于扩展、资源以及成本。
- 复杂性:训练模型执行简单任务相对容易,比如生成一幅图片,或者向客户说明退货政策。然而,当我们期望模型处理更复杂的数据,例如识别金融欺诈或诊断医学异常时,它们在训练过程中就需要更多的数据,同时也需要更多资源来支持处理这些数据。
- 资源: 更复杂的模型在生成推理时需要处理大量数据,因此会需要专门的硬件和软件来提供支持。这些资源的一个关键组成部分是中央处理器(CPU)内存。CPU 通常被视为计算机的核心或控制中心。当模型准备利用其已知内容(即训练数据)来生成答案时,它必须参考存储在 CPU 内存中的数据。
- 成本: 实现 AI 推理所涉及的所有这些要素都价格不菲。无论您的目标是扩大规模,还是升级到最新的 AI 支持硬件,要获得全面的解决方案,所需资源极为可观。随着模型复杂性的增加和硬件的不断演进,成本可能会急剧上升,使得企业组织难以跟上 AI 创新的步伐。
一种称为 vLLM 的特定推理引擎,有助于应对这些挑战。vLLM 通过更好地利用 GPU 内存,加快生成式 AI 应用的输出速度。vLLM 是一个由 vLLM 社区维护的开源代码库。该代码库有助于大语言模型(LLM)更高效地大规模执行计算。它使用 LLM Compressor 等工具来帮助您更快地进行推理,从而减轻团队和资源的重大负担。
vLLM 如何帮助加速 LLM 推理
AI 推理正被广泛应用于高吞吐量、高动态变化的用例中。然而,要大规模地一致部署 LLM,需要投入大量的计算能力、资源,同时还要具备专业的运维技能。vLLM 可通过更高效地利用企业 AI 推理所需的硬件资源,有效应对这些挑战。这就是 vLLM 格外吸引那些需要兼顾速度、灵活性和可控性的行业的原因。
作为一种开源解决方案,vLLM 能够让企业实现以下目标:
- 自主拥有并管理 GPU 资源。
- 完全掌控自身数据。
- 在尖端模型发布后,第一时间对其进行实验。
vLLM 可部署于多种硬件平台,包括 NVIDIA 和 AMD GPU、Google TPU、Intel Gaudi 和 AWS Neuron。其兼容性不受特定硬件限制,可在云端、数据中心乃至边缘计算环境中稳定运行。
通过以下三个真实用例,了解知名企业组织如何利用 vLLM 实现有效扩展。
什么是分布式推理?
分布式推理通过将推理任务分配给一组互联设备,使 AI 模型能够更高效地处理工作负载。这相当于软件领域的“众人拾柴火焰高”。
分布式推理所支持的系统架构,能够将请求分配到由物理服务器和云服务器组成的计算硬件资源池中执行。随后,每台推理服务器并行处理其分配到的部分任务,以生成输出结果。这最终可形成一个具备高弹性且可观测的系统,能够持续稳定地交付可扩展的 AI 驱动型服务。
vLLM 支持使用张量并行和混合专家模型(MoE)架构等技术进行分布式推理。
红帽能如何提供帮助
红帽 AI 是一个包含各种产品与服务的平台,能够在您企业 AI 旅程的任何阶段提供帮助,无论您是刚刚起步,还是准备进行扩展。针对您企业独特的用例,它既能支持生成式 AI,也能支持预测性 AI 相关工作。
借助红帽 AI,您就可以访问红帽® AI 推理服务器,在混合云上优化模型推理,从而实现更快、更具成本效益的部署。推理服务器由 vLLM 提供支持,可最大限度提高 GPU 利用率,加快响应速度。
红帽 AI 推理服务器包含红帽 AI 资源存储库,这是一个经过第三方验证和优化的模型集合,既能确保模型具有灵活性,又可确保跨团队一致性。通过接入第三方模型存储库,企业能够显著缩短推向市场所需的时间,并降低 AI 成功落地的成本门槛。
您的战略自主性有多高?红帽数字主权就绪度评估工具简介
红帽数字主权就绪度评估工具 (Red Hat Sovereignty Readiness Assessment tool) 是一款基于 Web 的自助式评估工具,能够针对您组织在七大关键领域的数字化掌控力,提供清晰、客观的基准分析。