订阅内容

红帽多年来参与了众多 AI 与数据项目,尽管其中许多项目助力了现代化进程,却鲜有项目能够全面指导用户将人工智能(AI)与机器学习(ML)部署到生产环境的整个过程。为此,我们推出了  Open Data Hub,以帮助开发和支持  Kubeflow、 KServe 等专注于数据与 AI/ML 的开源项目。

Open Data Hub 和 Kubeflow

Open Data Hub 起源于一个简单的 operator,在红帽 OpenShift 集群上部署 AI/ML 及数据软件并进行一定程度的集成。然而,在追求可支持性的道路上,我们遭遇了瓶颈,随即转向了 Kubeflow 这个新项目,它致力于简化并扩展 Kubernetes 上的 ML 工作负载部署。通过整合 Kubeflow 的代码精髓,我们成功重塑了 Open Data Hub,并创新性地引入了功能支持矩阵。 在过去的一年中,红帽加大了对 Kubeflow 社区的投入与参与,不仅积极贡献代码资源,还鼎力协助社区共向更高水平的成熟度与用户接受度迈进。 以下简要概述了我们在 Kubeflow 社区的当前工作。

Kubeflow 1.9 版本

加入 Kubeflow 社区后,红帽高级软件工程师 Ricardo Martinelli 主动担当起发布经理的角色,积极投身于 Kubeflow 1.9 版本的开发工作,并与众多 Kubeflow 贡献者紧密合作,共同绘制了该版本的路线图。如此一来,红帽为 Kubeflow 1.9 版本贡献了多项功能。

模型仓库

模型仓库是一项 备受期待的功能,已成为红帽对 Kubeflow 1.9 的主要贡献之一。模型仓库与 Kubeflow 的管道和服务组件实现了紧密集成,旨在构建包含模型、数据集、指标等在内的工件目录,并支持从工件存储中部署模型。此外,模型仓库还具备多项关键功能,如支持 operator/Helm 图表的部署、RBAC、多租户等。为了支持新的模型仓库功能,Kubeflow 社区已组建起一个新的工作组。

Kubeflow Pipelines 2.0

此外,红帽积极投身于 Kubeflow Pipelines 2.0 的贡献之中,助力其升级至  Argo Workflows 3.4,同时解决了 MinIO 安全与许可方面的一系列问题,并在 Argo 与 Tekton 实施中引入了性能改进。

Notebooks 2.0

随着 Kubeflow 1.9 版本的正式发布,Kubeflow 社区决定启动 Kubeflow Notebooks 2.0 计划。该计划将引入一系列全新的自定义资源定义(CRD),如 Workspace 和 WorkspaceKind 等,旨在为管理员提供更加强大的工作区控制能力,包括更新现有 Notebook 配置的功能。此项目于 2024 年初迈入设计阶段,由 Notebooks 工作组全力推进其架构设计。红帽工程师 Andriana Theodorakopoulou、Ramakrishna Pattnaik、Jiri Petrlik 和 Harshad Reddy Nalla 正紧密合作,负责制定设计文档,并着眼于未来的代码贡献,以推动项目顺利进展。

KServe

KServe 已成功从 Kubeflow 孵化器“毕业”,成为一个独立项目。作为 Kubeflow 服务工作组的重要成员,KServe 社区与 Kubeflow 社区保持着紧密的合作关系,不仅致力于将 KServe 与 Kubeflow 集成,还积极发展 KServe 自身的蓬勃社区,并不断推动创新功能的研发。我们始终与社区携手共进,在多个领域发挥引领作用,包括添加 HuggingFace 和 vLLM 现成运行时、引入可插拔的解释器运行时、增强 RawDeployment 模式并修复相关错误、优化庞大的 KServe CRD、提升安全性、改进发布流程等。Edgar Hernandez Garcia、Jooho Lee、Filippe Spolti 和 Yuan Tang 是 KServe 项目中主要的红帽贡献者。尤为值得一提的是,Yuan Tang 和 Edgar Hernandez Garcia 近期更荣升为 KServe 的审核员。

Kubeflow 的下一步是什么?

红帽携手众多社区成员,全力推动 Kubeflow 迈向云原生计算基金会(CNCF)的毕业项目行列。 为此,我们需要确保 Kubeflow 满足 CNCF 毕业项目的一些要求 ,其中包括对 Kubeflow 材料进行全面审视,以符合 CNCF 的严格标准,同时也囊括了安全防护和 IP 策略等多个领域的工作。

红帽产品安全与开源计划办公室团队携手 Kubeflow 社区,成功解决了 Kubeflow 组件中安全漏洞流程的相关问题。Sean Pryor 正在牵头开展一项工作,提议采用安全扫描程序和一整套修复安全问题的工作流,确保不发布含未处理 CVE 的 Kubeflow 镜像。同时,红帽产品安全团队的 Owen Watson 正在制定应对安全问题时的一般行动指南。

红帽对 Kubeflow 的另一大贡献领域是治理方面,其中红帽首席软件工程师 Yuan Tang 入选  Kubeflow 指导委员会(KSC),KSC 是 Kubeflow 的“根”级治理机构。Yuan 作为 Argo、KServe 等众多热门开源项目的资深创作者与维护者,在过去的六年里一直担任多个 Kubeflow 子项目的技术领导角色。凭借所做的贡献,他的技术和领导才能在 Kubeflow 社区中赢得了信任,同时他 Kubeflow 启动 CNCF 毕业流程时,还积极参与并推动了社区内相关话题的广泛讨论。

自我们投身于为 Kubeflow 项目做贡献以来,红帽公司就意识到“认证发行版”将是一个亟待解决的关键议题。随着新指导委员会的组建及 CNCF 毕业流程的稳步推进,Kubeflow 迎来了重新审视原有计划的契机,创建一致性测试来认证 Kubeflow 发行版。

诚然,要达到 CNCF 的毕业标准,Kubeflow 尚有许多工作要做,而红帽将持续致力于为实现这一目标贡献更多力量。

Kubeflow 和 Google 编程之夏

基于我们对 Kubeflow 社区的投入以及在开源项目中的深厚经验,我们代表 Kubeflow 社区向 Google 编程之夏活动提交了一份提案。在此提案中,我们携手其他 Kubeflow 贡献者共同策划了多个项目,涵盖了 LLM API 开发、Github 问题与 PR 分类,以及文档编写等诸多领域。多年来,红帽一直积极参与 Google 编程之夏活动,尤其是多个中间件项目。正是这些宝贵的经验,加上 Kubeflow 社区的鼎力支持,使我们有幸获准再次参与这一盛事。我们深感荣幸能为学生提供指导,引领他们领略开源协作如何激发创新思维,并通过实战开发经验,为他们的教育和职业生涯奠定坚实基础。

红帽与 Kubeflow 社区的紧密互动与合作,生动诠释了社区如何携手并进,共同打造出更加卓越的软件产品。 展望未来,我们满怀期待,相信这一合作将持续取得辉煌成就,并由衷感谢 Kubeflow 社区的热情接纳与鼎力支持。


关于作者

A 20+ year tech industry veteran, Jeremy is a Distinguished Engineer within the Red Hat OpenShift AI product group, building Red Hat's AI/ML and open source strategy. His role involves working with engineering and product leaders across the company to devise a strategy that will deliver a sustainable open source, enterprise software business around artificial intelligence and machine learning.

Read full bio

Yuan is a principal software engineer at Red Hat, working on OpenShift AI. He's a project lead of Argo and Kubeflow, a maintainer of TensorFlow and XGBoost, and an author of many popular open source projects. Yuan authored three machine learning books and published numerous impactful papers. He's a regular conference speaker, technical advisor, leader, and mentor at various organizations.

Read full bio

Ricardo has been a senior software engineer for Red Hat cloud products since 2015, participating in key open source projects like RADAnalytics and Open Data Hub for Red Hat, and recently joined the Kubeflow project. His main role is to work with the overall MLOps development through experimentation, automation, and governance aspects.

Read full bio
UI_Icon-Red_Hat-Close-A-Black-RGB

按频道浏览

automation icon

自动化

有关技术、团队和环境 IT 自动化的最新信息

AI icon

人工智能

平台更新使客户可以在任何地方运行人工智能工作负载

open hybrid cloud icon

开放混合云

了解我们如何利用混合云构建更灵活的未来

security icon

安全防护

有关我们如何跨环境和技术减少风险的最新信息

edge icon

边缘计算

简化边缘运维的平台更新

Infrastructure icon

基础架构

全球领先企业 Linux 平台的最新动态

application development icon

应用领域

我们针对最严峻的应用挑战的解决方案

Original series icon

原创节目

关于企业技术领域的创客和领导者们有趣的故事