概述
人工智能(AI)平台集机器学习模型的开发、训练和运行技术于一身,通常包括自动化功能、机器学习运维(MLOps)、预测性数据分析等。我们可以将其看作一个工作台,上面摆放着您要使用的所有工具,为您的构建和优化工作奠定了稳定的基础。
如今,随着 AI 技术的突飞猛进,选择 AI 平台和上手使用面临的选择越来越多。以下是需要注意的事项以及首要考虑因素。
AI 平台的类型
任何企业组织面临的第一个 AI 平台决策,便是要么购买预先配置的平台,要么在企业组织内部构建定制型平台。
购买 AI 平台
如果您希望快速部署 AI 应用、模型和算法,那购买全面预配置的 AI 平台是最佳选择。这类平台随附的工具、语言存储库和 API 均已经过测试,有一定的安全性和性能保障。一些供应商还提供预训练的基础模型和生成式 AI 模型。您还可以利用它们的技术支持和上手资源,将这些模型顺利融入您的现有环境和工作流。
热门的云提供商如今纷纷在其产品组合中加入了 AI 平台,其中包括 Amazon Web Services(AWS)Sagemaker、Google Cloud AI Platform、Microsoft Azure AI Platform 以及 IBM 的 watsonx.ai™ AI 开发平台。在许多情况下,AI 平台提供商还提供可与其他 AI 解决方案结合使用和集成的独立 AI 工具。
构建 AI 平台
为了满足特定使用场景或高级隐私的需求,一些企业组织需要全面定制和管理自己的 AI 平台。例如,Uber 开发了一款定制型 AI 平台,该平台可利用自然语言处理(NLP)和计算机视觉等技术来提升其 GPS 和碰撞检测功能。Syapse 是一家以数据为中心的医疗公司,该公司开发了一个依托 AI 技术的数据平台 Syapse Raydar®,该平台可将肿瘤数据转化为可作为行动依据的洞见。
构建自己的 AI 平台,您可以全面掌控环境,且可以根据您的业务的特定需求进行迭代。不过,要想构建一个平台并使其正常运行,需要的前期工作较多,并且无法将维护、支持和管理工作外包。
选择开源
开源社区正在不断推动人工智能和机器学习技术的进步。如果选择开源软件解决方案作为 AI 计划的基础平台,意味着您可以依靠由同行和从业人员组成的社区,他们会不断优化您最常用的框架和工具。许多企业从开源工具着手,并在此基础上进行扩展。Tensorflow 和 PyTorch 都是开源平台,可为 AI 应用的开发提供库和框架。
红帽资源
选择 AI 平台时要关注的能力
MLOps
机器学习运维(MLOps)是一组工作流实践,旨在简化 ML 模型的部署和维护过程。AI 平台应支持模型的训练、服务和监控等 MLOps 阶段。
大语言模型运维(LLMOps)是 MLOps 的一个子集,重点关注对生产环境中的大语言模型进行运维管理的一系列实践方法、技术和工具。LLM 可以执行文本生成、内容总结、信息分类等任务,但是会占用 GPU 的大量计算资源,这意味着您的 AI 平台需要足以容纳和支持 LLM 的输入和输出。
生成式 AI
生成式 AI 依靠基于大型数据集训练的神经网络及深度学习模型来创建新内容。在经过充分的训练后,该模型能够将从训练中学到的知识应用到实际场景中,这被称为 AI 推理。
生成式 AI 涵盖了许多最终用户与人工智能相关联的功能,例如生成文本和图片、数据增强、对话式 AI(例如聊天机器人)等。一定要注意的是,您选择的 AI 平台在支持生成式 AI 功能方面应达到速度和准确性要求。
可扩展性
可扩展的模型才是成功的模型。为了进行扩展,数据科学团队需要一个集中式解决方案,以便构建和部署 AI 模型、进行实验和微调以及与其他团队合作。这些都需要大量的数据以及计算能力,最重要的是,要有一个能够满足这些需求的平台。
模型取得成功后,您会希望在不同的环境中复制这些模型:本地环境、公共云平台以及边缘环境。可扩展的解决方案应支持在上述所有环境中进行部署。
自动化
当您的企业要投入生产的模型从少数发展到十几个或更多时,您就需要考虑自动化问题。数据科学管道的自动化可让您将最成功的流程转化为可重复的操作。这不仅可以加快您的工作流,还能带来更好且可预测性更高的用户体验,并提升可扩展性。还可以减少重复性任务,让数据科学家和工程师腾出时间进行创新、迭代和优化。
工具和集成功能
开发人员和数据科学家利用工具和集成功能来构建应用和模型并高效地进行部署。AI 平台需要能够支持您的团队已在使用的工具、语言和存储库,且可与您的整个技术堆栈和合作伙伴解决方案集成。
安全与合规
您应针对 AI 平台建立强大的安全实践来降低风险并保护数据。在培训、开发等日常运维中,扫描通用漏洞披露(CVE)并通过访问管理、网络分段和加密技术为应用和数据建立运维保护至关重要。
责任和监管
AI 平台还必须允许您以符合道德标准且合规的方式使用和监控数据。为了保护企业组织的数据和用户数据,选择一个对可见性、跟踪和风险管理策略的支持贯穿整个 ML 生命周期的平台非常重要。该平台还必须符合企业组织的现有数据合规性和安全性标准。
支持
预配置的端到端 AI 平台最重要的优势之一是其附带的技术支持。借助跨部署环境对错误的持续跟踪和修复,您的模型的执行效果会更好。一些 AI 平台提供商还通过提供上手和培训资源来帮助您的团队快速开始使用。如果企业选择利用开源工具自行构建平台,则建议考虑选择那些支持机器学习功能集和基础架构的供应商。
如何在 AI 平台上进行扩展
有许多不同的因素会影响大规模部署 AI 的成功与否,主要取决于各个组成部分能否高效且有效地协同工作,以实现成功的推理。具体而言,能够支持更大的 AI 模型(如 LLM)及其更复杂的推理功能的推理服务器,对于扩展企业的 AI 工作负载至关重要。
这些 AI 工具可帮助工程师更高效地利用资源,从而实现大规模推理:
- llm-d:LLM 提示词往往复杂且不统一,处理海量数据通常需要大量计算资源与存储支持。llm-d 作为一个开源 AI 框架,为开发人员铺就坦途,助力其利用分布式推理等技术,满足 LLM 等复杂大型推理模型日益增长的需求。
- 分布式推理:分布式推理通过将推理任务分配给一组互联设备,使 AI 模型能够更高效地处理工作负载。这相当于软件领域的“众人拾柴火焰高”。
- vLLM:vLLM 是虚拟大语言模型的简称,它是一个由 vLLM 社区维护的开源代码库。该代码库有助于大语言模型(LLM)更高效地大规模执行计算。
了解 LinkedIn、Roblox 和 Amazon 等公司如何利用 vLLM 实现扩展。
AI 平台使用场景
电信行业
在电信行业,全面的 AI 服务可以解决各种挑战,例如优化网络性能以及提高电信产品和服务的质量。其应用领域包括提高服务质量、增强视听效果以及防止客户流失。
医疗卫生
强大的 AI 平台可为医疗卫生环境带来变革性的助益,例如更快的诊断速度、临床研究的进步以及更多的患者服务。这些都有助于医生及其他医疗从业者提供更准确的诊断和治疗方案,从而改善患者的治疗效果。
制造
依托机器学习技术的智能自动化正在改变制造业的整个供应链。工业机器人技术和预测性分析技术正在减轻重复性工作带来的负担,还可实时实施更有效的工作流。
红帽能如何提供帮助
红帽 AI 是一个包含各种产品与服务的平台,能够在您企业 AI 旅程的任何阶段提供帮助,无论您是刚刚起步,还是准备进行扩展。针对您企业独特的用例,它既能支持生成式 AI,也能支持预测性 AI 相关工作。
借助红帽 AI,您就可以访问红帽® AI 推理服务器,在混合云上优化模型推理,从而实现更快、更具成本效益的部署。推理服务器由 vLLM 提供支持,可最大限度提高 GPU 利用率,加快响应速度。
红帽 AI 推理服务器还包含红帽 AI 存储库,这是一个经过第三方验证和优化的模型集合,既能保证模型选择的灵活性,又能促进跨团队的一致性。通过接入第三方模型存储库,企业能够显著缩短推向市场所需的时间,并降低 AI 成功落地的成本门槛。
红帽官方博客
获取有关我们的客户、合作伙伴和社区生态系统的最新信息。