Vertex AIのTimeseries Insights APIとは
Vertex AIのTimeseries Insights APIとは
はじめに
こんにちは、クラウドエース データML ディビジョン所属の直江です。
データML ディビジョンとはクラウドエースのITエンジニアリングを担うシステム開発部の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門としております。
データML ディビジョンでは活動の一環として、毎週Google Cloud の新規リリースを調査・発表し、データ領域のプロダクトのキャッチアップをしています。その中でも重要と考えるリリースを本ページ含め記事として公開しています。
今回紹介するリリースは、Vertex AIの「Timeseries Insights API」についてです。
Vertex AIとは
Vertex AIは、Google Cloud で機械学習プラットフォームで、機械学習ワークロードを構築するためのツールが統合されています。
Vertex AIでは、データの前処理からモデル構築、予測やデプロイまでを通して行うことができるほか、機械学習の開発や運用などに使われる様々なツールが提供されます。
今回、Timeseries Insights APIが一般公開されたので、こちらをご紹介します。
Timeseries Insights APIの概要
Timeseries Insights APIはイベントをリアルタイムで予測や異常検出することができます。
多くの企業の日常業務において、時系列データの異常検出を行うことは不可欠です。
Timeseries Insights APIを使用すると、時系列データセットから何十億ものイベントをリアルタイムで予測し、異常を検出することができます。
主な機能はこちらのようになります。
機能
- 異常とトレンドの検出
- 複数のイベントディメンションを使用してトレンドと異常を検出します。
- 大規模
- 数百億件のイベントで構成されるデータセットを処理でき、 秒間クエリ数は数千にも達します。
- 低レイテンシのクエリ
- 低レイテンシであるため、対話型のユーザー向けアプリケーションのバックエンドとして API を使用できます。
- サーバーレスかつフルマネージド
- Timeseries Insights API はフルマネージドであるため、インフラストラクチャではなく分析情報に重点を置くことがきます。
入力データ
時系列データは、時間経過とともに繰り返し測定される値です。
例えば、特定のジョブの 1 分あたりの平均 CPU 使用量は、単純な時系列データです。データは Key-Value ペアとなってます。ここで、キーはディメンションの名前です。この例では、cpu、ram、state などが該当します。
イベント
イベントとは、タイムスタンプやIDなどが含まれる、時系列で行われるトランザクションのことです。
Timeseries Insights API はイベントの基本的なデータとしてイベントを使用します。
例えば、データセンター、ユーザー、ジョブ名、タスク番号が 1 つのイベント全体として追加されます。
{"name":"user","stringVal":"user_64194"},
{"name":"job","stringVal":"job_45835"},
{"name":"data_center","stringVal":"data_center_30389"},
{"name":"task_num","longVal":19},
{"name":"cpu","doubleVal":3840787.5207877564},
{"name":"ram","doubleVal":1067.01},
{"name":"state","stringVal":"idle"}
データセット
データセットはイベントの集合です。 各クエリは、同じデータセット内で実行されます。各プロジェクトに複数のデータセットを含めることができます。
各データセットは、バッチデータとストリーミング データから作成できます。バッチビルドでは、データソースとして複数の Cloud Storage URI から読み取ります。バッチビルドが完了すると、ストリーミング データを使用してデータセットを更新できます。
まとめ
今回の記事では、Vertex AIのTimeseries Insights APIについてのリリースを紹介しました。
いい点
- 異常とトレンドの検出が可能
- 低レイテンシのクエリ
- サーバーレスかつフルマネージド
気になった方はリアルタイムな時系列予測や異常検出などにぜひご活用ください。
Discussion