MarkLogicはSmartlogicと一緒に、よりスマートな意思決定を実現していきます。

機械学習とAIに最適なデータベース

MarkLogicの新しい機械学習アルゴリズムとGPUアクセラレーション機能を紹介する講演をご覧ください。データキュレーションの詳しい説明と、機械学習を導入したある企業の事例をご紹介しています。

機械学習とは?

機械学習とは、データのパターン認識であると考えることができます。しかし、データ量が膨大で複雑な場合は、高度なツールを使用しないと、データの属性間の関係を検出することが困難になるという課題があります。機械学習モデルでは、以下を行うアルゴリズムを使って関係性を数学的に表現します。

  • 指定したいくつかの特徴がどのように変化するかという可能性に基づいて、将来の状態を予測します。例えば、ライフスタイルや健康状態における目立たない変化によって、健康リスクが高くなることを予測します。
  • 履歴から学習したパターンに基づいて、新しいデータを分類します。例えば、ある新規顧客にテキストベースの医療カルテから抽出した属性があれば、その顧客を特定のカテゴリに分類できます。

これらだけでなく、これまでは不可能であった極めて正確なデータや知見が得られるので、ユニークなモデルやシステムの構築に役立ちます。その結果、この高度なコンピュータインテリジェンスにより、社内のインテリジェンスが増加します。

機械学習の課題

機械学習のメリットは極めて大きいですが、作業を進めていくなかでいくつか課題に遭遇するでしょう。よくある課題としては以下のものがあります。

機械学習を効果的に行うためだけでなく、機械学習の出力の信頼性を高めるためにも、適切なガバナンスを確保し、データの信頼性を担保する必要があります。それには、次のような質問に答えられる必要があります。どのようなデータを使用すべきか。データの出所はどこで、データはどのように処理されてきたのか。データにはPII(個人情報)が含まれているのか。これは前回使用したデータと同じものか。機械学習では高品質のデータが不可欠です。というのも、同一データをモデルのトレーニングとその後の実行に使用するので、結果がデータの品質に大きく左右されるからです。このため、データの質に問題があれば、システムにリグレッションが発生する(以前よりも劣化する)可能性があります。

機械学習/人工知能ツールのエコシステムは、驚くほど複雑です。セキュリティとガバナンスが優先事項となるにつれ、システムの構築と保守ができる適切な人材を見つけることが難しくなっています。ニューヨークタイムズの記事によると、データサイエンティストの時間の80%が、データのラングリング(準備・整理)に費やされているとのことです。ツールを研究し、適切に選択することが大切です。

機械学習モデルという「ブラックボックス」からの出力は、実際には正確であっても信頼されないことがよくあります。ほとんどの企業では、機械学習に対する投資は中核的インフラというより、理科の実験のように捉えられています。なぜなら業務部門は、AIの結果を理解せず信頼もしないので、これを意思決定に利用することがないためです。さらに、データサイエンティストの人件費や彼らが必要なハードウェアは決して安くはありません。コストが高く結果が貧弱では、全体的なROIが低下します。

埋め込まれた機械学習の概要

MarkLogicのソリューション

機械学習を行うのに最適な場所は、データの保護、ガバナンス、キュレーションが可能なデータハブです。そう考えた私たちは、MarkLogicのコアに機械学習機能を組み込みました。安全な環境の中でMarkLogicクラスタ全体と並行して、データの近くで機械学習ルーチンを実行できます。

機械学習の主なメリット

機械学習には課題はあるものの、より複雑なアルゴリズムを用いることで、そのメリットは拡大し続けています。企業は人工知能の導入により、以下のようなメリットを得ています。

MarkLogicの組み込み機械学習機能によりデータベースの運用が改善

データベース運用の改善

MarkLogic内部で組み込み機械学習機能を利用してクエリの実行効率を高め、ワークロードのパターンに基づいて拡張の調整を自動化します。弾力的な拡張の調整が自動化されれば、例えばインフラストラクチャのワークロードパターンのモデルを使用して、データとインデックスのリバランスを制御するルールの調整も自動化することが可能となります。

MarkLogicの組み込み機械学習機能によりデータのキュレーションが改善

データキュレーションの改善

組み込み機械学習機能を使用すると、データキュレーションプロセスにおけるさまざまなステップの複雑さが軽減され、より高度な自動化が可能になります。例えば、MarkLogicのスマートマスタリング機能においては、ルールベースのマスタリングプロセスを機械学習が補強することでレコードマスタリングの正確性が向上し、処理対象データが増加するにつれてモデルが継続的に改善されます。しかも、これらすべての処理において人間による作業は少なくなります。

MarkLogicの組み込み機械学習機能によりデータサイエンスのワークフローが改善

データサイエンスのワークフローの改善

データサイエンティストにとっては、MarkLogicの内部(=ほとんどのアーキテクチャやプロセスを管理している場所)でモデルをトレーニングし、実行するだけで済むため、作業が以前よりシンプルになります。これには、データの処理やキュレーションと、モデルの構築、トレーニング、実行、デプロイを行うためのモデルエンジニアリングが含まれます。

機械学習の仕組み

MarkLogicの組み込み機械学習機能は、データベースカーネルの内部にあるMarkLogicのコアにインストールされたランタイムライブラリとして動作する、完全なディープラーニングツールキットです。これは、JavaScriptやXQueryのビルトイン関数として公開されます。つまり、これらの関数は完全に統合された状態で、データの近くで実行されます。

組み込みの機械学習機能は、CPUだけでなくGPUに対してもピークパフォーマンスを想定して設計されているため、マルチマシン/マルチGPUシステムさらに、通信コストを劇的に削減し、ノード間通信を低減し、複数のマシン全体で極めて拡張性の高い並行トレーニングを可能にする圧縮方法を使用して設計されています。

 

また、組み込み機械学習機能は、Open Neural Network Exchange(ONNX)フォーマットもサポートしています。これは、オープンソースの共有モデルの形式で、フレームワーク間の相互運用と最適化の共有を可能にします。 ONNXを使用すると、開発者はCNTK、MXNet、PyTorch、およびその他の一般的なフレームワーク間でモデルを移動できます。

MarkLogic組み込み機械学習機の構築に利用されたツールキットは、もともとMicrosoftがFacebookおよびAWSと共同で開発し、Congnitive Toolkit(CNTK)という名前でリリースしたものです。Microsoftは、CNTKを使用してSkype、HoloLens、Cortana、Bingといった重要な製品を開発しました。

リソース

マニュアル

機械学習のドキュメント

ブログ投稿

機械学習に関する発表

ウェビナー

機械学習のデモ

エンタープライズ向けに、豊富な機能と開発を支援

当ウェブサイトではクッキーを使用しています。

当Webサイトを継続利用することにより、お客様はMarkLogicのプライバシーステートメントに従ってクッキーの使用に同意するものとします。