Hadoop後の再グループ化

データレイクとは、「ビッグデータ」とHadoopハイプサイクルから登場した用語です。データレイクの当初の概念は、多様かつ大量なエンタープライズデータを、データウェアハウスでもデータマートでも不可能だった方法で扱うというものでした。この新しい言葉は生まれて以来、業界のいたるところで使われるようになりました。その結果、市場全体に浸透し、すべての企業や組織がある種のデータレイクを持つ必要があるという前提が生まれることになりました。

一方、RDBMSの導入増の結果として生じたデータの種類の多さや、データサイロを扱うデータレイクのような存在のニーズが存在することからも、こうした論拠が正しいと考えることは可能です。

(同僚であるDamon Feldomanは、コンテンツを統一する3種類のアプローチを、データレイク、仮想データベース、データハブによって検証しています。SPOILER:ムーブメント、ハーモナイゼーション、インデックス化が主要な差別化要因です)

一方で、データレイクはHadoopエコシステムの同義語になりつつあります。その後多くの人々の憶測の結果、Hadoopだけあれば十分だと考えられるようになりました。かつてはMapReduceが主流でしたが、その後、Apache Sparkに地位を奪われ、このApache Sparkも現在ではConcordフレームワークに道を譲りつつあります (本ブログが投稿される時点では、ひょっとすると何か別のテクノロジーが「大流行」している可能性さえあります)。こうした激動に加えて、オープンソースの「Fit for Purpose(目的に適った)」テクノロジーの統合コストも存在します。

そして、不幸にも、これらすべてを行った結果、データレイクにHadoopを統合した多くの組織に仲間入りすることになりますが、この時点で、セキュリティとガバナンス、さらにソリューション自体の不足に気づくでしょう。


Hadoopはサイロを根絶していない

データレイクは、データサイロを最小化する手段と見なされた一方で、現実には、以下に示すような多くの理由から、そうした約束は果たされませんでした。

  • 物事の分析面(ビジネスの監視)のみに集中し、物事の運用面(ビジネスの運用)を考慮することはない
  • 複雑で変化するHadoopエコシステムへの依存性が、予想以上の統合コストをもたらす
  • セキュリティや運用管理などのエンタープライズ機能への「表面的な部分にばかり注目した」アプローチ

さらに、維持管理が面倒な技術的サイロが追加されたことで、問題がさらに増えてしまいました。言うまでもなく、データ出自を維持することは困難です。

Hadoopエコシステムは確かにソリューションではありますが、「Hadoop最優先」のメンタリティは見当違いであり、少なくとも不十分です。

Hadoopには優れた分析機能がありますが(それによって、ビジネスを監視が可能になる)、実際にビジネスを運営するとしたらどうでしょうか?MarkLogicのエンタープライズCTOであるケン・クルーパは、まさしくこの状況が多くの大手銀行で起こっていると言います。。「投資銀行の取引後処理に対する新しい規制が施行された場合、複数のソースシステムを持つ取引が影響を受けるでしょう」「その規制が取引のあらゆる業務ワークフローに関係している場合、このワークフローに適合させるためにそれぞれの下流システム(数十に及ぶ)を変更することはできません。業務運用能力がないエンタープライズ統合の場合、そうするほかありませんが、ほとんどの銀行はそれを歓迎しないでしょう」 エンタープライズ統合の時点で運用能力がない場合、それが唯一の選択肢となってしまいますが、ほとんどの銀行はそれを歓迎しないでしょう」

アーキテクチャとして、データレイクは今日のデータ統合上の課題の一部のみ解決しますが、それ自身、サイロのデータを統合するには不十分です。データ統合の分析上の課題に加えて、運用上の課題を完全に解決するには、Hadoop以上の存在が必要です。

その「存在」が、「ビッグデータ」の3つのV能力を提供しつつ、データベースの成熟した運用能力も備えたオペレーショナルデータハブ(ODH)です。

データ戦略の一部としてMarkLogicの ODHを採り入れることで、セキュリティ、データガバナンス、運用面の成熟度はカバーされ、最新データ戦略に求められる俊敏性が損なわれることもありません。このアプローチの場合、これまで投資したHadoopをその能力以上に利用する必要もありません。

すでにHadoopへの投資がある場合、すべてが無駄になるわけではありません。ODHは、成熟したデータ戦略に必要なセキュリティや管理性など、すべてのコアエンタープライズ機能に加えて運用能力を提供することで、Hadoopエコシステムの価値を高めます。