SLM と LLM:小規模言語モデルとは

URL をコピー

小規模言語モデル (SLM) とは、大規模言語モデル (LLM) よりもサイズの小さいモデルのことで、より専門的な知識を備え、より迅速にカスタマイズでき、より効率的に実行できます。

SLM は、幅広く一般的な知識を持つ LLM とは異なり、ある領域に特化した知識を習得するようにトレーニングされます。SLM はサイズが小さいため、トレーニングと導入に必要な計算リソースが抑えられ、インフラストラクチャのコストが削減され、迅速にファインチューニングできます。SLM は軽量なので、エッジデバイスやモバイルアプリケーションに最適です。

SLM と LLM

LLM と SLM はいずれも、人間の言語 (プログラミング言語を含む) を解釈するようにトレーニングされた 人工知能 (AI) システムの一種です。通常、LLM と SLM の主な違いは、トレーニングに使用されるデータセットのサイズ、それらのデータセットでのトレーニングに使用されるプロセス、さまざまなユースケースを開始する際のコストとメリットです。

その呼称が示すように、LLM と SLM はどちらも言語で構成されるデータセットでトレーニングされるものであり、画像 (例:DALL·E) や動画 (例:Sora) でトレーニングされるモデルとは区別されます。言語ベースのデータセットの例としては、Web ページのテキスト、開発者コード、E メール、マニュアルなどがあります。

SLM と LLM のアプリケーションとして最もよく知られるものの 1 つが生成 AI です。これは、さまざまな予測不可能なクエリに対して、スクリプト化されていないコンテンツ応答を生成できます (そのため、この名前が付けられています)。特に LLM は、GPT-4 基盤モデルと、ChatGPT (膨大なデータセットでトレーニングされ、数兆個に及ぶパラメーターを使用して幅広い人間のクエリに応答する会話型チャットボット) のおかげで、一般の人々の間でよく知られるようになりました。生成 AI は人気がありますが、予測型 AI のような生成型ではない LLM と SLM の応用分野もあります。

本番利用に適した AI/ML 環境構築のための最重要事項

LLM と SLM の相違点の 1 つを示す優れた例が、GPT-4/ChatGPT が対象とする範囲、すなわち、トレーニングに使用されるデータセットです。

LLM は通常、非常に幅広いレベルで人間の知能をエミュレートすることを目的としており、そのため、広範囲にわたる大規模なデータセットでトレーニングされます。GPT-4/ChatGPT の場合、これには特定の日付までのパブリックインターネット全体が含まれます。こうして ChatGPT は、一般ユーザーからの幅広いクエリを解釈して応答することで有名になりました。しかしこれは、通称「ハルシネーション」(ある業界に特有のクエリやニッチなクエリに正確に応答するためのファインチューニングやドメイン固有のトレーニングが不足しているために起こる) と呼ばれる、誤った応答をする可能性があることで時折注目される理由でもあります。

一方、SLM は通常、特定の業界ドメイン (専門分野) に合わせて調整された小規模なデータセットでトレーニングされます。たとえば、医療提供者は、医療データセットでトレーニングされた SLM 搭載のチャットボットを使用して、ユーザーの健康に関する専門的ではないクエリにドメイン固有の知識を注入し、質問と応答の質を高めることができます。この場合、SLM を搭載したチャットボットをインターネット全体のデータを基にトレーニングする必要はありません。ネット上のブログ記事や架空の小説、詩などは医療のユースケースとは無関係だからです。

つまり、SLM は通常、特定の領域では優れていますが、一般的な知識や全体的な文脈の理解においては LLM に比べて劣ります。

LoRA と QLoRA の違い

Red Hat のリソース

LLM でも SLM でも、ビジネスユースケース向けのモデルをトレーニングする場合は、リソースを大量に消費します。しかし、LLM のトレーニングには特に多くのリソースが必要です。GPT-4 の場合、合計 25,000 個の NVIDIA A100 GPU が同時に 90 - 100 日間連続して実行されました。繰り返しになりますが、GPT-4 は最大級の LLM です。Granite などの他の LLM は、それほど多くのリソースを必要としませんでした。SLM のトレーニングにもかなりのコンピューティング・リソースが必要になる可能性がありますが、LLM に必要なリソースよりはるかに少なくなります。

 

トレーニングと推論のリソース要件

モデルのトレーニングとモデルの推論の違いに注意することも重要です。前述したように、トレーニングは AI モデル開発の最初のステップです。推論は、トレーニングされた AI モデルが新しいデータに基づいて予測を行うために従うプロセスです。たとえば、ユーザーが ChatGPT に質問すると、ChatGPT が呼び出されてユーザーに予測が返されます。その予測を生成するプロセスが推論です。

Granite モデルファミリーなど、一部の事前トレーニング済み LLM は、1 つのハイパワー・ワークステーションのリソースを使って推論を行うことができます (たとえば、Granite モデルは 1 つの V100-32GB GPU2 に適合)。ただし、多くの場合、データを生成するために複数の並列処理ユニットが必要になります。さらに、LLM に同時にアクセスするユーザーの数が増えるほど、モデルによる推論の実行速度は遅くなります。一方、SLM は通常、スマートフォンなどのモバイルデバイスのリソースを使って推論を行うように設計されています。

大規模な推論の成功は、多種多様な要因の影響を受けますが、主に、各構成要素がどれだけ効率的かつ効果的に連携するかによって決まります。 

具体的には、エンタープライズの AI ワークロードを拡張するには、より大規模な AI モデル (LLMなど) やより複雑な推論機能をサポートできる推論サーバーが不可欠です。

推論を重視すべき理由

次に挙げる AI ツールは、リソースをより効率的に使用して、大規模な推論を迅速に実行できます。 

  • llm-d:LLM のプロンプトは複雑で不均一な場合があります。大量のデータを処理するためには、通常、大規模なコンピュートリソースとストレージが必要です。オープンソースの AI フレームワークである llm-d は明確な道筋を使用して、LLM などの高度で大規模な推論モデルへの高まる需要に、開発者が分散推論などの手法を利用して対応できるようサポートします。
  • 分散推論:分散推論では、相互接続されたデバイスのグループに対して推論の労力が分割されるため、AI モデルでワークロードをより効率的に処理できます。これは、「人手が多ければ仕事は楽にできる」ということわざどおりのソフトウェアです。
  • vLLM:vLLM とは、仮想大規模言語モデルの略で、vLLM コミュニティによって維持管理されているオープンソースコードのライブラリです。vLLM は大規模言語モデル (LLM) がより効率的かつ大規模に計算を行う上で役立ちます。LinkedIn、Roblox、Amazon などの組織が推論機能を高速化するのに役立っています。 

「どのモデルが優れているのか?」という質問に対する答えはありません。それは組織の計画、リソース、専門知識、スケジュール、その他の要因によって異なります。また、ユースケースに応じて、モデルをゼロからトレーニングすべきなのか、事前トレーニング済みのモデルをファインチューニングすべきなのかを判断することも重要です。LLM か SLM か、どちらを選択するかを決めるにあたって考慮すべき事柄には次のようなものがあります。

コスト

一般に、LLM では、トレーニング、ファインチューニング、推論の実行にはるかに多くのリソースが必要になります。重要なのは、トレーニングへの投資はそれほど頻繁に行われるものではないということです。コンピューティング・リソースが必要なのはモデルのトレーニング中だけです。これは断続的に行うタスクであり、継続的に実施するものではありません。しかし、推論の実行には継続的にコストがかかります。モデルがより多くのユーザーに使われるようになるにつれて、ニーズも増す可能性があります。ほとんどの場合、大規模なクラウド・コンピューティング・リソース、オンプレミスリソースへの多額の投資、あるいはその両方が必要になります。

SLM は、エッジコンピューティングなど、低レイテンシーのユースケースでの使用が頻繁に検討されます。これは、より重要なリソースへの継続的かつ強力な接続を必要とせず、1 つのモバイルデバイスで利用できるリソースだけで実行できることが多いからです。

Red Hat ブログより:LLM のコストを抑えるためのヒント

専門的知識および経験

Granite、Llama、GPT-4 など、多くの一般的な事前トレーニング済み LLM は、AI を使い始めるための、より「プラグアンドプレイ」な選択肢を提供します。データサイエンティストがゼロから設計したりトレーニングしたりする必要がないため、多くの場合、AI の実験を始めようとしている組織に適しています。一方、SLM では通常、ニッチなデータセットに基づいて正確にファインチューニングするために、データサイエンスと業界知識の両方の領域における専門知識が必要です。

セキュリティ

LLM の潜在的なリスクの 1 つは、アプリケーション・プログラミング・インタフェース (API) を介した機密データの漏洩です。具体的には、組織のデータに基づいて LLM をファインチューニングする場合、コンプライアンスと企業ポリシーに細心の注意を払う必要があります。SLM はより高度に制御できるため、データ漏洩のリスクは低くなるでしょう。

SLM をビジネスワークフローに統合する際には、SLM が持つ制限を認識することが重要です。

バイアス

小規模なデータセットでトレーニングされる SLM では、必然的に生じるバイアスを (LLM と比較して) より簡単に緩和することができます。しかし、言語モデルの規模の大小に関係なくあらゆるモデルがそうであるように、特定のグループやアイデアの過小評価や誤った表現、あるいは事実の不正確さなどのバイアスが生じる可能性があります。言語モデルは、方言、地理的位置、文法に関連する言語バイアスも継承する可能性があります。

バイアスのある出力を制限するには、トレーニングデータの品質に特に注意を払う必要があります。 

知識の範囲が狭い

SLM が応答を生成する際に取得する情報のプールは小規模です。そのため、特定のタスクに対しては優れていますが、幅広く一般的な知識を必要とするタスクにはあまり適していません。 

目的に応じて設計された SLM を集めて 1 つの LLM (または複数の LLM) と併せて使用することも検討できます。各モデルを既存のアプリケーションと組み合わせ、連携して動作する複数の言語モデルのワークフローを相互に接続できる場合、これは特に興味深いソリューションとなります。

SLM は適応性があるため、さまざまなユースケースに役立ちます。 

チャットボット 

専門的な資料に基づくチャットボットのトレーニングに、SLM を使用できます。たとえば、カスタマーサービスのチャットボットを、ユーザーの質問に答えたり、ユーザーに情報を案内したりできるようにするために、企業固有の知識に基づいてトレーニングします。 

エージェント型 AI 

SLM をエージェント型 AI ワークフローに組み込んで、ユーザーに代わってタスクを完了できるようにします。 

生成 AI 

SLM は、新しいテキストの生成、既存のテキストの翻訳、原稿の要約などのタスクを実行できます。 

生成 AI のユースケースを見る

Red Hat AI は、AI 導入の初期段階にある企業から、AI を拡張する準備ができている企業まで、AI 導入のあらゆる段階で役立つ製品およびサービスのプラットフォームです。企業独自のユースケースに応じて、生成 AI および予測型 AI のいずれの取り組みもサポート可能です。

Red Hat AI を使用すると、Red Hat® AI Inference Server にアクセスしてハイブリッドクラウド全体でモデル推論を最適化し、より迅速でコスト効率の高いデプロイメントを実現できます。vLLM を搭載した推論サーバーは、GPU の使用率を最大化し、応答時間を短縮します。

Red Hat AI Inference Server の詳細を見る

Red Hat AI Inference Server には Red Hat AI リポジトリが含まれています。これは、サードパーティによって検証および最適化されたモデルのコレクションであり、モデルの柔軟性を実現し、チーム間の一貫性を促進します。サードパーティのモデルリポジトリにアクセスすることで、企業は市場投入時間を短縮し、AI の成功に対する財務上の障壁を減らすことができます。 

Red Hat AI による検証済みモデルの詳細を見る

Red Hat 公式ブログ

Red Hat のお客様、パートナー、およびコミュニティのエコシステムに関する最新の情報を入手しましょう。

すべての Red Hat 製品のトライアル

Red Hat の無料トライアルは、Red Hat 製品をハンズオンでお試しいただける無料体験版です。認定の取得に向けた準備をしたり、製品が組織に適しているかどうかを評価したりするのに役立ちます。

関連情報

医療 AI とは | Red Hat

医療 AI とは、医療に AI 技術を応用することを指します。機械学習でトレーニングされたアルゴリズムが医療の応用、医療の提供、医療の利用の 3 分野で活用されています。

機械学習とは

機械学習は、明示的にプログラムしなくても、パターンを見つけ、予測し、経験から学習するようにコンピュータをトレーニングする手法です。

ディープラーニングとは

ディープラーニングは、人間の脳をヒントに開発されたアルゴリズムを使用してコンピュータにデータを処理する方法を教える人工知能 (AI) 技法です。

AI/MLリソース

関連記事