文章 | 什么是 AI 基础模型？

Published 2023年 9月 14日•7 分钟阅读

基础模型是一种经过预训练的机器学习（ML）模型，能够执行一系列的任务。

直到最近，人工智能（AI）系统仍然是专领域专用的工具，也就是说，它们是针对特定应用或单一用例进行训练的。随着机器学习领域开始出现两个新趋势，基础模型（也称为基本模型）一词开始被大众熟知：

较少数量的深度学习架构被用于实现各种不同任务的结果。
人工智能（AI）模型能够产生与其训练中原本预期的概念不同的新概念。

基础模型（如 IBM 的的花岗石模型）已经过编程，可以在对模式、结构和表示的一般上下文理解的情况下发挥作用。这种对如何沟通和识别模式的基本理解创建了一个基础知识水平，经过进一步修改或微调后，就能执行几乎任何行业的特定领域任务。

探索红帽 AI

基础模型要发挥作用，离不开以下两个决定性特征：迁移学习和规模。迁移学习是指模型将一种情况的信息应用到另一种情况并基于其内部“知识”构建的能力。

规模是指硬件，特别是图形处理单元（GPU），它允许模型同时执行多个计算，也称为并行处理。GPU 对于训练和部署深度学习模型（包括基础模型）至关重要，因为它们提供了快速处理数据和进行复杂统计计算的能力。

扩展和训练都有助于运行 AI 推理。AI 推理是 AI 的运行阶段，在这一阶段，模型能够将其在训练过程中所学到的内容应用于现实场景中。

深度学习和基础模型
许多基础模型，尤其是用于自然语言处理（NLP）、计算机视觉和音频处理的基础模型，都是利用深度学习技术进行预训练的。深度学习是一项支撑许多（但不是全部）基础模型的技术，也是该领域许多进步成果的驱动力量。深度学习（也称为深度神经学习或深度神经网络）会让计算机通过观察，学习、模仿人类获取知识的方式。

Transformer 和基础模型
虽然并非所有基础模型都使用 Transformer，但 Transformer 架构已被证明是构建涉及文本的基础模型的常用方式，如 ChatGPT、BERT 和 DALL-E 2。 Transformer 允许 ML 模型捕获数据序列中元素之间的上下文关系和依赖关系，从而增强 ML 模型的功能。Transformer 是一种用于 NLP 模型的人工神经网络（ANN）；不过，单独使用计算机视觉或语音处理模型的 ML 模型中通常不会用到它们。

基础模型经过训练后，可以依靠从大型数据池中获得的知识来帮助解决问题；这一本领可以在许多方面为企业提供有价值的见解和贡献。基础模型能够执行的一些常规任务包括：

自然语言处理（NLP）
通过识别上下文、语法和语言结构，在 NLP 中训练的基础模型可以从训练数据中生成和提取信息。通过训练将文本与情绪（积极、消极、中立）联系起来，对 NLP 模型进行进一步微调，可能对希望分析书面消息（如客户反馈、在线评论或社交媒体帖子）的公司有用。NLP 是一个更广泛的领域，涵盖大语言模型（LLM）的开发和应用。

计算机视觉
模型能够识别基本的形状和特征后，就可开始识别模式。而如果进一步微调计算机视觉模型，就可以实现自动化的内容审核、面部识别和图像分类。模型还可以根据学到的模式生成新的图像。

音频/语音处理
模型能够识别语音元素时，就可理解说话者的语音语调，从而促进更有效和包容的交流。虚拟助理、多语言支持、语音命令和文本转录等功能可以提高可访问性和生产力。

通过进一步微调，企业可以设计更高级的专业机器学习系统，从而满足特定行业的需求，如金融机构的欺诈检测、医疗卫生的基因测序，以及客户服务的聊天机器人等。

基础模型在人工智能领域提供了可访问性和一定的复杂程度，但许多企业没有资源独自实现这一点。通过采用基础模型并以此为基础来构建，公司可以克服常见的障碍，例如：

对高质量数据的访问受限：基础模型所基于的数据是大多数企业无法企及的。

模型性能/准确性：基础模型可以在一开始就提供相当优良的准确度，而企业原本可能需要数月乃至数年努力才能建立这样的准确度。

价值实现时间：训练一个机器学习模型可能需要花费很长时间和许多资源。基础模型提供了一个预训练的起点，企业或机构只需对其进行微调，从而得到定制的结果。

人才有限：基础模型为企业或机构提供了一种利用 AI/ML 的方式，他们不必在数据科学资源上进行大量投资。

费用管理： 使用基础模型可以减少对初始训练所需的昂贵硬件的需求。虽然供应和微调最终的模型仍有相关成本，但和训练基础模型本身成本相比，只能算九牛一毛。

LoRA 与 QLoRA 对比说明

虽然基础模型有许多令人兴奋的应用，但也有不少潜在的挑战需要注意。

成本
基础模型需要大量资源来开发、训练和部署。基础模型的初始训练阶段需要使用大量的通用数据，消耗数万个 GPU，并且通常需要一群机器学习工程师和数据科学家参与。

可解释性
“黑匣子”是指 AI 程序在其神经网络中执行一项任务并且不显示其工作的状态。这就会造就一种情况——没有人（包括创建算法的数据科学家和工程师）能够准确解释模型如何获取特定的输出。黑匣子模型缺乏可解释性，所以将其用于高风险决策时可能会产生严重后果，尤其是在医疗卫生、刑事司法或金融等行业。这种黑匣子效应可以发生在任何基于神经网络的模型中，而不仅仅是基础模型。

隐私和安全性
基础模型需要访问大量信息，有时还包括客户信息或专有业务数据。如果模型由第三方提供商进行部署或访问，那就必须特别谨慎小心。

准确性和偏差
如果深度学习模型基于存在统计偏差的数据进行训练，或者不能准确反映总体情况，则其输出可能存在缺陷。不幸的是，现有的人类偏见通常会传导到人工智能上，从而带来歧视性算法和偏见输出的风险。随着越来越多的企业利用人工智能来提高生产力和性能，至关重要的是制定相关策略，来尽量减少偏见。这要一开始就有包容性的设计，并且要更深远地考虑对所收集的数据是否代表足够的多样性。

AI/ML 注意事项

红帽® AI 是我们专门针对企业组织需求而构建的 AI 产品组合，它筑基于深受客户信赖的红帽解决方案。

红帽 AI 可以帮助企业组织做到以下几点：

快速采用 AI 并进行创新。
拆解交付 AI 解决方案的复杂流程。
随处部署

探索红帽 AI

轻松访问 IBM 的Granite 系列模型

如果您已准备好尝试基础模型，但还不确定自己的业务用例是什么，可以从红帽® 企业 Linux® AI入手。这个基础模型平台有助于为企业应用开发、测试和运行 Granite 系列 LLM 。

开发人员可以快速访问单个服务器环境，其中包含 LLM 和 AI 工具。它提供了调整模型和构建生成式 AI 应用所需的一切。

红帽 AI 还提供额外的模型对齐机制，通过名为 InstructLab的解决方案来改进您的 LLM。红帽和 IBM 创建了 InstructLab，以引入一种开源社区驱动的方法来增强 LLM 功能。

了解红帽企业 Linux AI

扩展阅读

什么是参数高效微调（PEFT）？

PEFT 是一组仅调整 LLM 中部分参数的技术，可节省资源。

LoRA 与QLoRA：有何区别

LoRA（低秩自适应）和 QLoRA（量化低秩自适应）技术都可用于训练 AI 模型。

什么是 vLLM？

虚拟大型语言模型（vLLM）是一系列开源代码的集合，可帮助语言模型更高效地执行计算。

参与和学习

行业解决方案

平台产品

特色产品

试用与购买

服务

培训 & 认证

特色产品

主题

文章

了解更多

面向客户

面向合作伙伴

关于红帽

开源

公司信息

选择语言

文章 | 什么是 AI 基础模型？

什么是基础模型？

基础模型是如何工作的？

基础模型的用例

企业采用基础模型为什么会有好处？

企业采用基础模型将面临哪些挑战？

红帽能如何提供帮助

轻松访问 IBM 的Granite 系列模型

扩展阅读

什么是参数高效微调（PEFT）？

LoRA 与QLoRA：有何区别

什么是 vLLM？

AI/ML 相关资源

产品

工具

试用购买与出售

沟通

关于红帽

选择语言

Red Hat legal and privacy links

Red Hat legal and privacy links

选择语言

文章 | 什么是 AI 基础模型？

红帽资源

轻松访问 IBM 的Granite 系列模型

红帽官方博客

所有红帽产品试用

扩展阅读

什么是参数高效微调（PEFT）？

LoRA 与QLoRA：有何区别

什么是 vLLM？

AI/ML 相关资源

产品

工具

试用购买与出售

沟通

关于红帽

选择语言

Red Hat legal and privacy links

Red Hat legal and privacy links