LLMOps とは

URL をコピー

大規模言語モデル (LLM) は、人間の言語を理解し、生成できる機械学習 (ML) モデルです。 GPT-3、LLaMA、Falcon などの LLM は、データから学習して単語や文章を生成するツールです。これらのツールは進化し続けており、こうしたモデルの運用に関するベストプラクティスが必要とされています。 その穴を埋めるのが LLMOps です。

大規模言語モデル運用 (LLMOps) は、大規模言語モデルの管理に使用される運用手法です。LLMOps により、ファインチューニングからメンテナンスまで LLM のライフサイクルが管理および自動化され、開発者やチームによる LLM のデプロイ、監視、保守が容易になります。

Red Hat AI の詳細

LLM が ML モデルのサブセットなら、LLMOps は機械学習運用 (MLOps) の大規模言語モデル版です。MLOps とは、ML モデルのデプロイと保守のプロセスを最適化することを目的としたワークフローの一連のプラクティスです。MLOps は、ML モデルをソフトウェア開発プロセスに統合するための、継続的な進化の確立を目指しています。同様に、LLMOps は LLM の開発とデプロイのライフサイクルの継続的な実験、反復、導入、改善を目指しています。

Models-as-a-Service とは

LLMOps と MLOps には類似点がありますが、相違点もあります。例として次のようなものがあります。

学習:従来の ML モデルは通常、ゼロから作成またはトレーニングされますが、LLM は基盤モデルから開始され、タスクのパフォーマンスを向上させるためにデータを使用してファインチューニングされます。

チューニング:LLM の場合、ファインチューニングを行うことでパフォーマンスを向上させ、精度を向上させ、特定の主題に関するモデルの知識を向上させることができます。プロンプトチューニングは、LLM が特定のタスクでより良いパフォーマンスを発揮できるようにします。ハイパーパラメーター・チューニングも相違点の 1 つです。従来の ML では、チューニングは精度の改善に重点を置いています。LLM では、精度を高めるだけでなく、トレーニングに必要なコストと電力量を削減するためにもチューニングが重要です。どちらのモデルタイプも、チューニングプロセスによるメリットがありますが、その重点は異なります。また、検索拡張生成 (RAG) についても言及するべきでしょう。RAG は、外部の知識を使用して、LLM が正確かつ具体的な事実を収集し、より適切な応答を生成するようにするプロセスです。

フィードバック:ヒューマンフィードバックによる強化学習 (RLHF) により、LLM のトレーニングを改善することができます。人間からのフィードバックは LLM のパフォーマンスにとって重要です。従来の ML モデルが特定の指標を使用して正確性を評価するのに対し、LLM はフィードバックを使用して正確性を評価します。

パフォーマンス指標:ML モデルには明確なパフォーマンス指標がありますが、LLM には BLEU (バイリンガル評価アンダースタディ) や ROUGE (要旨評価のための再現率重視アンダースタディ) など、より複雑な評価を必要とする別の指標があります。

MLOps の詳細

Red Hat のリソース

LLMOps はパフォーマンスを監視し強化するための最良の方法になりつつあり、特記すべき主なメリットとして次の 3 つがあります。

効率性:LLMOps を使用すると、モデルをより早く開発し、モデルの品質を向上させ、迅速にデプロイすることができます。管理が効率化され、コミュニケーション、開発、デプロイを促進する 1 つのプラットフォーム上でチーム間のコラボレーションが向上します。生成 AI を高速化するオープンソースの推論サーバーである vLLM などのツールが、GPU をより効率的に使用するのに役立ちます。

スケーラビリティ:LLMOps は、継続的インテグレーションおよび継続的デリバリー/デプロイメント (CI/CD) のために複数のモデルを管理および監視できるため、スケーラビリティと管理が向上します。また、LLMOps はデータ通信と応答を改善することで、より応答性の高いユーザーエクスペリエンスを実現します。 

リスク軽減:LLMOps によって透明性が向上し、組織や業界のポリシーへのコンプライアンスが強化されます。 LLMOps は機密情報を保護し、リスクにさらされるのを防ぐことで、セキュリティとプライバシーを向上させることができます。

3 社の大手企業が vLLM を活用して迅速にスケーリングを行った方法をご覧ください。 

実際の 3 つのユースケースを見る

LLMOps には次のようなユースケースがあります。

継続的インテグレーションおよびデリバリー (CI/CD):CI/CD は、モデル開発ライフサイクルの最適化、迅速化、自動化を目的としています。 人間が介入しなくても新しいコードを取得できるようになるため、ダウンタイムが短縮され、コードのリリースが迅速化されます。Red Hat OpenShift Pipelines のベースとなっている Tekton のようなツールは、複数のプラットフォームにわたるデプロイメントを自動化することで開発者のワークフローを支援します。

AI の運用化について詳しく見る

データ収集、ラベル付け、ストレージ:データ収集では、さまざまなソースを使用して正確な情報を収集します。データラベル付けはデータを分類し、データストレージはネットワークに接続されたデジタル情報を収集して保持します。

モデルのファインチューニング、推論、監視:モデルのファインチューニングは、ドメイン固有のタスクを実行するようにモデルを最適化します。AI 推論とは、AI モデルがデータに基づいて答えを導き出すことです。モデル推論では、既存の知識に基づいてプロダクションを管理し、推論された情報に基づいてアクションを実行できます。ヒューマンフィードバックを含むモデル監視では、モデルの動作に関するデータを収集して保存し、モデルがプロダクションデータでどのように動作するかを学習します。

AI 推論を重視すべき理由

LLMOps にはいくつかの段階やコンポーネントがあり、それぞれにベストプラクティスがあります。

探索的データ分析 (EDA):データを評価し、データセットを作成することで機械学習ライフサイクルを準備するプロセス。

  • データ収集:LLM のトレーニングに向けた最初のステップであり、コードアーカイブやソーシャルメディア・ネットワークなどのさまざまなソースから収集します。
  • データクリーニング:データを収集したら、エラーの削除、不一致の修正、重複データの削除など、データを検査してトレーニングの準備をする必要があります。
  • データ探索:次のステップでは、外れ値の特定やパターンの発見など、データを探索してその特性をより深く理解します。

データ準備とプロンプトエンジニアリング:アクセス可能なデータをチーム間で共有し、LLM 用のプロンプトを開発するプロセス。

  • データ準備:LLM のトレーニングに使用されるデータは、収集されたデータの統合や結論付けなどの方法で準備します。
  • プロンプトエンジニアリング:テキストに使用されるプロンプトを作成することで、LLM が目的の出力を生成できるようにします。

モデルのファインチューニングHugging Face Transformers などの一般的なオープンソースライブラリを利用して、モデルのパフォーマンスをファインチューニングして改善します。

  • モデルトレーニング:データを準備した後、機械学習アルゴリズムを使用してデータ内のパターンを学習させることによって、LLM のトレーニングやファインチューニングを行います。
  • モデル評価:トレーニングの完了後、LLM のトレーニングに使用されなかったデータのセットを使用して LLM がどの程度うまく機能するかを確認し、LLM を評価する必要があります。
  • モデルのファインチューニング:LLM のパフォーマンスが良好でない場合は、LLM のパラメーターを変更してパフォーマンスを向上させるなどのファインチューニングが可能です。

モデルのレビューとガバナンスKubeflow など、オープンソースの MLOps プラットフォームを利用した、ML モデル間での発見、共有、コラボレーションのプロセス。

  • モデルのレビュー:ファインチューニングの完了後、LLM が安全で信頼できることを確認するためにレビューが必要になります。これにはバイアスやセキュリティに関するリスクのチェックが含まれます。
  • モデルガバナンス:モデルガバナンスは、ライフサイクルを通じて LLM を管理するプロセスです。これにはパフォーマンスの追跡、必要に応じた変更、不要になった場合の廃棄が含まれます。

モデルの推論と提供:モデルの更新頻度やリクエスト時間など、プロダクションの詳細を管理するプロセス。 

  • モデル提供:LLM のレビューと承認が完了すると、プロダクションにデプロイして、アプリケーション・プログラミング・インタフェース (API) を通じて利用できるようになります。LLM のサイズが大きい (数千億ものパラメーターがある場合など) と、多くの場合、分散推論 (モデルを複数の GPU に分割する手法) が必要になります。llm-d などのオープンソース・プロジェクトは、この分散セットアップを効率的にオーケストレーションするためのマネージド型 Kubernetes ネイティブ・ソリューションを提供します。
  • モデル推論:アプリケーションが API にクエリを実行することで、API はテキストを生成したり、質問に答えたりすることができます。これは、REST API (Representational Sate Transfer Application Programming Interface) や Web アプリケーションなど、さまざまな方法で実行できます。

ヒューマンフィードバックによるモデル監視:ユーザーの異常な行動や悪意のある行動を監視するモデルとデータの作成。

  • モデル監視:LLM をデプロイしたら、期待どおりに動作していることを確認するために LLM を監視する必要があります。これにはパフォーマンスの追跡、問題の特定、必要に応じた変更が含まれます。
  • ヒューマンフィードバック:LLM のパフォーマンスを向上させるために使用します。LLM が生成するテキストに関するフィードバックを提供するか、LLM のパフォーマンスの問題を特定します。

    エンタープライズにおける AI とは

LLMOps プラットフォームは、データ分析、実験追跡、プロンプトエンジニアリング、LLM 管理を通じてコラボレーションを促進する環境を開発者とチームに提供します。また、LLM の管理されたモデルの移行、デプロイ、監視も可能にします。 このプラットフォームによってライブラリ管理が改善されるため、運用コストが削減されるとともに、高度なスキルを持つ技術担当者がデータの前処理、モデルの監視、デプロイなどのタスクを完了する必要性が少なくなります。

AI および LLMOps のプラットフォームの選択方法を確認する

Red Hat AI は、AI 導入の初期段階にある企業から、AI を拡張する準備ができている企業まで、AI 導入のあらゆる段階で役立つ製品およびサービスのプラットフォームです。企業独自のユースケースに応じて、生成 AI および予測型 AI のいずれの取り組みもサポート可能です。

Red Hat AI を使用すると、Red Hat® AI Inference Server にアクセスしてハイブリッドクラウド全体でモデル推論を最適化し、より迅速でコスト効率の高いデプロイメントを実現できます。vLLM を搭載した推論サーバーは、GPU の使用率を最大化し、応答時間を短縮します。

Red Hat AI Inference Server の詳細を見る

Red Hat AI Inference Server には Red Hat AI リポジトリが含まれています。これは、サードパーティによって検証および最適化されたモデルのコレクションであり、モデルの柔軟性を実現し、チーム間の一貫性を促進します。サードパーティのモデルリポジトリにアクセスすることで、企業は市場投入時間を短縮し、AI の成功に対する財務上の障壁を減らすことができます。 

Red Hat AI による検証済みモデルの詳細を見る

Red Hat 公式ブログ

Red Hat のお客様、パートナー、およびコミュニティのエコシステムに関する最新の情報を入手しましょう。

適応力のある企業:AI への対応力が破壊的革新への対応力となる理由

Red Hat の COO 兼 CSO である Michael Ferris (マイケル・フェリス) が執筆したこの e ブックでは、今日の IT リーダーが直面している AI による変化のペースと技術的な破壊的革新について解説しています。

関連情報

医療 AI とは | Red Hat

医療 AI とは、医療に AI 技術を応用することを指します。機械学習でトレーニングされたアルゴリズムが医療の応用、医療の提供、医療の利用の 3 分野で活用されています。

機械学習とは

機械学習は、明示的にプログラムしなくても、パターンを見つけ、予測し、経験から学習するようにコンピュータをトレーニングする手法です。

ディープラーニングとは

ディープラーニングは、人間の脳をヒントに開発されたアルゴリズムを使用してコンピュータにデータを処理する方法を教える人工知能 (AI) 技法です。

AI/MLリソース

関連記事