MarkLogicは、機械学習を使用して複雑なデータの問題を解決します。これには、MarkLogicのコアで実行される、新しい組み込み機械学習機能を利用します。

MarkLogic組み込み機械学習機能を使用すると、キュレーションおよびガバナンスされた高品質のデータに機械学習モデルが直接アクセスできるため、最高の結果を手にできます。もちろん、データサイエンティストでなくても、多くのメリットがあります。私たちは、この機能を使用してMarkLogicの動作やキュレーションの方法を改善していますが、これらは、すべてMarkLogicデータハブのユーザーに対して完全に透過的です。

機械学習とは?

機械学習とは、データのパターン認識であると考えることができます。しかし、データ量が膨大で複雑な場合は、高度なツールを使用しないと、データ内の属性間の関係を検出することが困難になるという課題があります。関係性の数学的表現である機械学習モデルを使用すると、次のことが可能になります。

  • 指定したいくつかの特徴がどのように変化するかという可能性に基づいて、将来の状態を予測します。例えば、ライフスタイルや調子に目立たない変化があれば、健康状態に関するリスクが高くなると考えられます。
  • 履歴から学習したパターンに基づいて、新しいデータを分類します。例えば、ある新規顧客にテキストベースの医療カルテから抽出した属性があれば、その顧客を特定のカテゴリに分類できます。

機械学習は、データとインサイトにより、これまでは不可能であった高いレベルの正確性を提供します。

機械学習の課題

品質とガバナンスの欠如 — 効果的な機械学習のためだけでなく、機械学習のアウトプットに対する信頼を育むには、データを信頼するに足る適切なガバナンスが必要です。それには、次のような質問に答えられる必要があります。どのデータを使用すべきでしょうか?それはどこから来て、データをどのように処理したのでしょうか?それには、PII(個人を特定できる情報)が含まれていますか?これは前回使用したデータと同じものですか?機械学習では、同じデータをモデルのトレーニングとその後の実行に使用するため、結果は使用するデータの品質に大きく左右されます。したがって、良い品質のデータであることが不可欠です。データ品質に問題があれば、それが増幅された結果がアウトプットされます。

無法地帯のエコシステム — 機械学習とAIツールによるエコシステムは、驚くほど複雑で、セキュリティとガバナンスが最優先されるため、システムの構築、維持ができるスキルセットを持つスタッフを見つけるのが困難です。ニューヨーク・タイムズの記事によれば、データサイエンティストは、時間の80%をデータに関する論争だけに費やしているのだそうです。  

ビジネスのROIが低い — 機械学習モデルという「ブラックボックス」による出力は、たとえそれが正確であっても、しばしば信頼されないことがあります。ほとんどの企業にとって、AIに対する投資はコアインフラストラクチャというより、サイエンスプロジェクトのように捉えられています。なぜなら、ビジネスは、理解せず、信頼もしていない機械学習モデルのアウトプットを意思決定の道具として使わないからです。そして、ビジネスに必要なデータサイエンティストやハードウェアは安価ではありません。コストが高く貧弱なアウトプットしか得られなければ、全体的なROIが低下します。

MarkLogicのソリューション

機械学習を行うのに最適な場所は、データの保護、ガバナンス、キュレーションが可能なデータハブです。そう考えた私たちは、MarkLogicのコアにMarkLogic機械学習機能を組み込みました。安全な環境の中でMarkLogicクラスタ全体と並行して、データの近くで機械学習ルーチンを実行できます。

主なメリット

データベース運用の改善


MarkLogic内部で組み込み機械学習機能を利用してクエリの実行効率を高め、ワークロードのパターンに基づいて拡張の調整を自動化します。弾力的な拡張の調整が自動化されれば、例えばインフラストラクチャのワークロードパターンのモデルを使用して、データとインデックスのリバランスを制御するルールの調整も自動化することが可能となります。

データキュレーションの改善


組み込み機械学習機能を使用すると、データキュレーションプロセスにおけるさまざまなステップの複雑さが軽減され、より高度な自動化が可能になります。例えば、MarkLogicのSmart Mastering機能においては、ルールベースのマスタリングプロセスを機械学習が補強することでレコードマスタリングの正確性が向上し、処理対象データが増加するにつれてモデルが継続的に改善されます。しかも、これらすべての処理において人間による作業は少なくなります。

データサイエンスのワークフローの改善


データサイエンティストにとっては、MarkLogicの内部でモデルをトレーニングし、実行するだけで済むため、作業が以前よりシンプルになりました。これは、MarkLogicのアーキテクチャとプロセスのほとんどすべての部分を私たちが管理するからです。これには、データの処理やキュレーションと、モデルの構築、トレーニング、実行、デプロイを行うためのモデルエンジニアリングが含まれます。

内容

MarkLogicの組み込み機械学習機能は、データベースカーネルの内部にあるMarkLogicのコアにインストールされたランタイムライブラリとして動作する、完全なディープラーニングツールキットです。これは、JavaScriptやXQueryのビルトイン関数として公開されます。つまり、これらの関数は完全に統合された状態で、データの近くで実行されます。

組み込みの機械学習機能は、CPUだけでなくGPUに対してもピークパフォーマンスを想定して設計されているため、マルチマシンマルチGPUシステムにも対応します。さらに、通信コストを劇的に削減し、ノード間通信を低減し、複数のマシン全体で極めて拡張性の高い並行トレーニングを可能にする圧縮方法を使用して設計されています。

また、組み込み機械学習機能は、Open Neural Network Exchange(ONNX)フォーマットもサポートしています。これは、オープンソースの共有モデルの形式で、フレームワーク間の相互運用と最適化の共有を可能にします。 ONNXを使用すると、開発者はCNTK、MXNet、PyTorch、およびその他の一般的なフレームワーク間でモデルを移動できます。

MarkLogic組み込み機械学習機の構築に利用されたツールキットは、もともとMicrosoftがFacebookおよびAWSと共同で開発し、Congnitive Toolkit(CNTK)という名前でリリースしたものです。Microsoftは、CNTKを使用してSkype、HoloLens、Cortana、Bingといった重要な製品を開発しました。

のアーキテクチャ

クライアント/サーバーインターフェイス

機械学習とAIに最適なデータベース

MarkLogicの新しい機械学習アルゴリズムとGPUアクセラレーション機能を紹介する講演をご覧ください。データキュレーションの詳しい説明と、機械学習を導入したある企業の事例をご紹介しています。

関連リソース

マニュアル
機械学習に関するドキュメントを読む

さらに詳しく

ブログ投稿
機械学習に関するコンテンツを読む

詳細はこちら

ウェビナー
MarkLogicのウェビナーで、組み込み機械学習のデモンストレーションを観る

詳細はこちら

エンタープライズ向けに、豊富な機能と開発を支援

当ウェブサイトではクッキーを使用しています。

当Webサイトを継続利用することにより、お客様はMarkLogicのプライバシーステートメントに従ってクッキーの使用に同意するものとします。