Jump to section

什么是开源大语言模型(LLM)?

复制 URL

开源大语言模型(LLM)具有公开访问权限的代码和架构,用户可以自由地使用、修改和分发。不过,鉴于构建和提供大语言模型的复杂性,判断一个 LLM 模型是否真正开源并非易事。

通常,开源意味着对产品设计的全面访问权。对于开源软件而言,它指的是通过一种特殊许可证发布计算机程序,使得源代码可以被公众自由使用或修改。一般来说,如果软件满足以下条件,就可以算作开源:

  • 它以源代码形式提供,无需额外费用。
  • 源代码可被重新用于开发其他新软件。

对于大语言模型来说,开源的价值观极大地有利于降低理解和贡献技术创新的门槛。 

到底一个大语言模型满足哪些条件,才能被合理地视为“开源”?业界专家并未达成共识。这是因为传统的开源代码的定义难以直接适用于人工智能(AI)技术。

与传统的开源代码(主要由编程指令构成)不同,大语言模型的构建依赖于:

  • 大量的训练数据。这些训练数据可能包含受版权保护的作品或私密数据,这导致在共享数据时会带来法律上的风险。
  • 被称为“权重”的数值参数。这些参数决定了输入数据如何被处理为有意义的输出,它们是打造模型语言理解能力的关键。权重就像是构建模型“大脑”的基石,它们决定了模型在处理信息时的关注点和优先级。

换句话说,大语言模型的构建不再仅仅关乎代码,而是更复杂,需要将数学模型和数据集结合在一起。尽管“开放的”大语言模型可能会公开模型的权重和初始代码,但它们可能不会公开最初用于构建大语言模型的每一个数据源。而另一方面,开源的大语言模型会分享每个操作和数据源,同时提供一种宽松的许可证,允许他人自由使用、改进和分发该模型。 

当大语言模型的开发方法免费分发以供使用时,个人和企业就有机会在他人的工作基础上进行构建。这可带来许多好处,例如:

群策群力:开源大语言模型最大的优势之一是促进了来自不同来源的协作。让更多人能够访问和使用生成式 AI(gen AI)技术,有助于进行更多实验和学习,同时减少偏见,提高准确度,优化性能。

确保透明度:如果不知道模型是怎么训练的,我们怎么能信任它的输出结果?关于训练,开源大语言模型提供了完整的透明度,这有助于用户理解其功能,并提供必要的信息,让用户决定是否(以及如何)采用这项技术。

减少对环境的影响:模型的透明性让我们能够清楚看到已经完成了哪些工作,从而可以避免训练和评估系统中的重复劳动,减少不必要的计算资源消耗和碳排放。

降低财务负担:从头开始训练大语言模型成本高昂,总体资源消耗大。如果您使用专有的大语言模型,可能需要负担许可证费用。但能够免费在别人完成的工作基础上进行构建,就大大降低了进入门槛,企业无需背负开发大语言模型的经济重担。

网络培训课堂:借助开源充分发挥 AI 的潜力

开源理念塑造了我们所熟知的互联网的许多基础方面。开源开发模式曾经造就了一些当今非常普及的重要应用和云平台。

在大型语言模型的发展中,人们对于开放性或封闭性,并不是单一、固定的选择,而是有着不同的态度与实践。我们来看看最受欢迎的大语言模型有哪些:

封闭型模型
OpenAI 的 ChatGPT 和 Anthropic 的 Claude 都属于封闭型模型。它们受到严格管控,仅通过付费 API 服务的形式向用户提供,并且有使用限制。

开放型模型
在非正式的交流中,任何可以在 Hugging Face 等平台上免费下载的大语言模型都被称为“开源”。Meta 推出的 Llama 2 模型就是一个例子。但是,Llama 2 的使用条款并不符合开源软件的一般定义。这是因为用户在使用过程中必须遵守许可协议中的一些条件和限制。具体来说,Meta 设定了一些法律和道德约束,比如定义了什么是“可接受的使用”。其次,如果企业的用户数量达到了协议中规定的数量,就需要向 Meta 申请额外的许可。

开源许可模型
IBM Research 推出的 Granite 系列模型和 Mistral AI 系列模型是遵循 Apache 2.0 许可证的大语言模型的典型例子。这表示这些模型可以免费用于商业目的,不受限制。但即便如此,这些模型也不会公开它们的所有训练数据供审查,这可能是由于许可限制的原因。

在红帽的未来愿景中,任何人都可以参与贡献、审查,并在开放、可信的基础上构建代码。我们相信,采用开放型开发模式有助于创建更加安全,稳定和创新的技术。随着 AI 的不断发展,我们的开源平台能够助您一臂之力,让您能够根据自己的需求,利用自己的数据来构建、部署和监控 AI 模型和应用。

红帽® 企业 Linux® AI 是一个基础模型平台,可无缝开发、测试和运行适用于企业级应用的 Granite 系列大语言模型。凭借 Linux、容器和自动化方面的技术基础,红帽的开放混合云战略可让您根据需要随时随地灵活运行 AI 应用。

由 IBM 和红帽联手打造的 InstructLab 是一个开源项目和社区,致力于遵循开源理念来增强大语言模型。InstructLab 项目收集人工策划的训练数据,生成基于这些种子训练数据的合成数据,并用这些合成数据来重新训练基础模型。社区参与能够持续迭代出性能更优的大语言模型。InstructLab 为改善大语言模型对齐度提供了一个经济高效的解决方案,并为那些只有极少机器学习经验的人员提供了参与贡献的机会。

使用开源技术构建的红帽 OpenShift® AI 是一个企业就绪型 AI 应用平台,帮助团队自信地进行构建、运维和扩展。OpenShift AI 支持数据获取与准备、模型训练与微调、模型部署与监控,以及硬件加速。