Jump to section

データレイクとは

URL をコピー

データレイクはデータリポジトリの一種で、多種多様な大量の未加工データを、ネイティブ形式で格納します。データを精製しない状態で維持でき、データの保管に大規模な総合リポジトリを使用したい企業の間で、データ管理戦略として一般的になりつつあります。 

未加工のデータとは、まだ特定の目的で処理されていないデータです。データレイク内のデータは、クエリされるまで定義されていません。データサイエンティストは、より高度な分析ツールや予測モデルを使用して、必要なときに未加工のデータにアクセスできます。

データレイクを使用すると、すべてのデータが保存されます。保存前に削除されたりフィルタリングされたりすることはありません。データは分析の目的で即座に、または将来使用されることもあれば、まったく使用されない場合もあります。特定の用途のためにデータを精製してしまうと別の方法でデータを再利用することは困難ですが、データレイクのデータはさまざまな目的で何度も使用できます。

「データレイク」という用語は、Pentaho 最高技術責任者の James Dixon 氏が提唱したものです。この種類のデータリポジトリを湖 (レイク) に例えるのは、水源では濾過したり容器に入れたりされていない状態で水が保持されているように、データを自然な状態で保存するという意味で理にかなっています。データは複数の源からレイクに流入し、元の形式で保存されます。 

データレイク内のデータは分析に必要になるまで変換されず、変換されたときにスキーマが適用されて分析できる状態になります。使用されるまでデータが未加工の状態になっているため、この方式は「スキーマオンリード」と呼ばれています。 

データレイクでは、データを他のシステムに移動させなくても、ユーザー独自の方法でデータにアクセスし、調査できます。データレイクから取得された知見とレポートは、通常はアドホックベースで発生します。別のプラットフォームや別の種類のデータリポジトリから分析レポートを定期的に取得するのではありません。ただし、ユーザーはスキーマと自動化を適用して、必要に応じてレポートを複製することができます。 

データレイクにはガバナンスが必要で、データにアクセスして使用できるようにするには継続的な保守管理が必要です。この保守作業を行わなければ、データは「ごみ」同然、つまり、アクセスできず、扱いにくく、お金はかかるが役に立たないものになってしまう危険性があります。ユーザーがアクセスできなくなったデータレイクは、「データスワンプ」と呼ばれています。

データレイクでは、データは非構造化、半構造化、構造化のいずれの場合もあり、組織内のさまざまなソースから収集されるので、そのアーキテクチャはフラットです。これに対して、データウェアハウスではデータをファイルまたはフォルダーに保存します。データレイクはオンプレミスまたはクラウドに配置できます。

データレイクはそのアーキテクチャを活かして、エクサバイト規模にまで至る優れたスケーラビリティを発揮します。データレイクを作成するとき、どれだけのデータ量を維持する必要があるか、事前に知っていることは一般にはないので、この点は重要です。従来のデータストレージシステムはこのような方法で拡張できません。

このアーキテクチャはデータサイエンティストにとって、組織全体からデータをマイニングして調査できる、異なるフィールドから得た異種データなどを共有して相互参照できる、質問して新たな知見を得られるというメリットがあります。ビッグデータ分析や機械学習を利用して、データレイク内のデータを分析することもできます。 

データレイクに保存されるデータには決まったスキーマはありませんが、データスワンプ化を防止するためにはデータガバナンスが重要です。レイクに格納するとき、データにメタデータをタグ付けし、後でアクセスできるようにしておかなければなりません。

AI/ML アプリケーション管理の向上

人工知能/機械学習 (AI/ML) アプリケーションのデプロイおよびライフサイクル管理の単純化による ML モデルと AI アプリケーションの構築、コラボレーション、共有の迅速化に関するエキスパートの視点を、Web セミナーシリーズでご紹介しています。 

Red Hat のオープンなソフトウェア・デファインド・ストレージ・ソリューションなら、業務量を増やし、成長速度を増し、重要な財務文書からリッチ・メディア・ファイルまで、データが安全かつ確実に保管されているという安心感を得られます。

スケーラブルでコスト効果に優れたソフトウェア・デファインド・ストレージがあれば、巨大なデータレイクを分析して、より深いビジネスの知見を獲得できます。Red Hat のソフトウェア・デファインド・ストレージ・ソリューションはすべてがオープンソースを基盤に構築され、開発者、パートナー、顧客からなるコミュニティのイノベーションを活用しています。このため、ビジネス固有のワークロード、環境、ニーズに基づいて、ストレージをどのようにフォーマットするかを制御できます。

関連資料

記事

Red Hat のストレージを選ぶ理由

ソフトウェア・デファインド・ストレージとは何か、またデータを柔軟に管理、保存および共有するための最適な Red Hat ソフトウェア・デファインド・ストレージ・ソリューションを導入する方法についてご確認ください。

記事

クラウドストレージとは

クラウドストレージとは、適切なアクセス許可を与えられたすべての人がインターネットを介してアクセスできる場所にデータを保管する仕組みです。動作についての詳細をご確認ください。

トピック

データサービスについて理解する

データサービスは、小型で独立した疎結合の機能の集合で、データストレージ・ボリュームに収集されて保存されている情報を強化、整理、共有、計算します。

ストレージの詳細はこちら

製品

コンテナのスピンアップおよびスピンダウン時に環境全体でデータを永続的に保存できるソフトウェア・デファインド・ストレージ。

ペタバイトクラスのデータを効率的に管理する、拡張性がきわめて高くオープンなソフトウェア・デファインド・ストレージ・システム。

リソース