さまざまなビデオが視聴できる新しいコンテンツハブ、MLTVが新登場!

機械学習とAIに最適なデータベース

MarkLogicの新しい機械学習アルゴリズムとGPUアクセラレーション機能を紹介する講演をご覧ください。データキュレーションの詳しい説明と、機械学習を導入したある企業の事例をご紹介しています。

機械学習とは?

Machine learning can be thought of as pattern recognition in data. The challenge, however, is voluminous and complex data that makes it difficult to detect relationships between attributes in the data without advanced tools. A machine learning model is a mathematical representation of relationships that uses algorithms to:

  • 指定したいくつかの特徴がどのように変化するかという可能性に基づいて、将来の状態を予測します。例えば、ライフスタイルや健康状態における目立たない変化によって、健康リスクが高くなることを予測します。
  • 履歴から学習したパターンに基づいて、新しいデータを分類します。例えば、ある新規顧客にテキストベースの医療カルテから抽出した属性があれば、その顧客を特定のカテゴリに分類できます。

Above all, machine learning provides deep levels of accuracy with data and insights that were not previously possible, helping you create unique models and system. This advanced computer intelligence will, in turn, help increase intelligence within your business enterprise.

機械学習の課題

Machine learning offers tremendous upside, but you are likely to experience a few challenges along the way. The most common challenges are:

You need to have proper governance to trust your data not only for effective machine learning, but to foster trust in machine learning outputs. You need to be able to answer questions such as: What data should be used? Where did it come from and what’s been done to the data? Does it contain PII? Is it the same data we used last time? Good data is critical because machine learning can be even more sensitive to data quality since you’re using the same data to both train and then execute the model. As a result, any problems with data quality can result in regressions in the system.

The machine learning and artificial intelligence tools ecosystem is incredibly complex and as security and governance become a priority, it is tough to find people with the right skillsets to build and maintain the systems. According to an article in The New York Times, data scientists spend 80% of their time just wrangling data. It’s important to research the tools and make the right call.

Often times the business doesn’t trust the ‘black box’ outputs of machine learning models even when they are accurate. Machine learning investments for most companies look more like science projects rather than core infrastructure because businesses don’t understand or trust the outputs of artificial intelligence to make the decisions. Also, data scientists and the hardware infrastructure they need aren’t cheap. High costs and poor outputs equate to an overall low ROI.

埋め込まれた機械学習の概要

MarkLogicのソリューション

機械学習を行うのに最適な場所は、データの保護、ガバナンス、キュレーションが可能なデータハブです。そう考えた私たちは、MarkLogicのコアに機械学習機能を組み込みました。安全な環境の中でMarkLogicクラスタ全体と並行して、データの近くで機械学習ルーチンを実行できます。

The Key Benefits of Machine Learning

Challenges aside, the advantages of machine learning continue to grow with more complex algorithms. As businesses adapt to artificial intelligence, these are the benefits people are experiencing:

MarkLogic's Embedded Machine Learning improves database ops

データベース運用の改善


MarkLogic内部で組み込み機械学習機能を利用してクエリの実行効率を高め、ワークロードのパターンに基づいて拡張の調整を自動化します。弾力的な拡張の調整が自動化されれば、例えばインフラストラクチャのワークロードパターンのモデルを使用して、データとインデックスのリバランスを制御するルールの調整も自動化することが可能となります。

MarkLogic's Embedded Machine Learning improves data curation

データキュレーションの改善


組み込み機械学習機能を使用すると、データキュレーションプロセスにおけるさまざまなステップの複雑さが軽減され、より高度な自動化が可能になります。例えば、MarkLogicのスマートマスタリング機能においては、ルールベースのマスタリングプロセスを機械学習が補強することでレコードマスタリングの正確性が向上し、処理対象データが増加するにつれてモデルが継続的に改善されます。しかも、これらすべての処理において人間による作業は少なくなります。

MarkLogic's Embedded Machine Learning improves data-science workflows

データサイエンスのワークフローの改善


データサイエンティストにとっては、MarkLogicの内部(=ほとんどのアーキテクチャやプロセスを管理している場所)でモデルをトレーニングし、実行するだけで済むため、作業が以前よりシンプルになります。これには、データの処理やキュレーションと、モデルの構築、トレーニング、実行、デプロイを行うためのモデルエンジニアリングが含まれます。

How Does Machine Learning Work?

MarkLogicの組み込み機械学習機能は、データベースカーネルの内部にあるMarkLogicのコアにインストールされたランタイムライブラリとして動作する、完全なディープラーニングツールキットです。これは、JavaScriptやXQueryのビルトイン関数として公開されます。つまり、これらの関数は完全に統合された状態で、データの近くで実行されます。

組み込みの機械学習機能は、CPUだけでなくGPUに対してもピークパフォーマンスを想定して設計されているため、マルチマシン/マルチGPUシステムさらに、通信コストを劇的に削減し、ノード間通信を低減し、複数のマシン全体で極めて拡張性の高い並行トレーニングを可能にする圧縮方法を使用して設計されています。

Embedded Machine Learning Architectural Diagram

また、組み込み機械学習機能は、Open Neural Network Exchange(ONNX)フォーマットもサポートしています。これは、オープンソースの共有モデルの形式で、フレームワーク間の相互運用と最適化の共有を可能にします。 ONNXを使用すると、開発者はCNTK、MXNet、PyTorch、およびその他の一般的なフレームワーク間でモデルを移動できます。

MarkLogic組み込み機械学習機の構築に利用されたツールキットは、もともとMicrosoftがFacebookおよびAWSと共同で開発し、Congnitive Toolkit(CNTK)という名前でリリースしたものです。Microsoftは、CNTKを使用してSkype、HoloLens、Cortana、Bingといった重要な製品を開発しました。

リソース

マニュアル
機械学習に関するドキュメントを読む

さらに詳しく

ブログ投稿
機械学習に関するコンテンツを読む

詳細はこちら

ウェビナー
MarkLogicのウェビナーで、組み込み機械学習のデモンストレーションを観る

詳細はこちら

エンタープライズ向けに、豊富な機能と開発を支援

当ウェブサイトではクッキーを使用しています。

当Webサイトを継続利用することにより、お客様はMarkLogicのプライバシーステートメントに従ってクッキーの使用に同意するものとします。