🐥

次世代のAI開発には次世代のデータ分析ツール【RATH】を使ってみようという話

2024/04/03に公開

こんにちは。

株式会社アイデミーでデータサイエンティストの米倉です。

前回ご紹介したPyGWalkerに関連して、RATH(ラース、と読む)というツールが存在することを知りました。

以下は前回記事のリンクです。
https://zenn.dev/aidemy/articles/3aeea1470f1535

実際にRATHを触ってみたのですが、今後のAI開発において有効なツールになるかもしれないと思いました。

というわけで今回はRATHについてご紹介いたします。

データ分析の「次世代」に適応しよう!

これまで機械学習やDeepLearningなどのAI技術において、データの質や量はとても重要なものでした。

生成AIにおいても、その重要性や難易度はより高まることが想定されます。

観点として、

  • 複雑で大規模なデータの取り扱い
  • AIの精度や安定性を高めるために、データの品質の向上
  • 客観的で俯瞰した(分析者のバイアスの少ない)データ分析

などが挙げられます。

生成AIだけでなく、従来のAIモデルでも要求水準は上がっていくと考えられます。

これらを解決するためには従来の手法、例えばエクセルでの情報整理やPythonによるJupyterNotebookでの解析などでは困難になるかもしれません。

RATHはそんな従来手法とは異なる、データ分析の次世代の手法を提供してくれます。

RATHとは?

RATHの公式ページは以下になります。
(https://docs.kanaries.net/ja/rath)

RATHやPygWalkerはKanaries Dataという企業が運営しています。

RATHの概要について、公式では以下のように説明しています。

RATH は、誰でも使える次世代のオープンソース自動データ分析ツールです。
RATH は、複雑なデータソースから簡単に洞察を得ることができ、高度にカスタマイズ可能な多次元データ可視化を作成することができます。さらに、RATHには、パターン、洞察、因果推論を特定する強力な拡張された分析エンジンがあり、データ駆動型の意思決定を支援します。

実際に私も使ってみて、RATHがこれまでのEDA(探索的データ分析)ツールと異なるポイントをあげると、以下のような特徴が挙げられます。

  • ノーコードかつGUI操作で実行可能
  • 自動でデータの考察結果を取得可能
  • 生成AIによるグラフ作成

このような点で、RATHは次世代的なデータ分析ツールとしての存在感を発揮しているように感じました。

RATHは何ができるのか?

データ読み込み

RATHはCSVファイルをはじめ、様々な形式でデータを読み込むことが可能です。

「Demo」にはKanaries Dataが用意したデモ用のデータもあれば、Kaggleなどでも使われるようなデータセットもあらかじめ用意されています。

今回は公式チュートリアルに従う形でデモをするため、こちらのデータセットを使用していきます。

データ前処理

これまで機械学習などで使うデータセットにデータの前処理をかけるためにはPythonなどのプログラミングで対応する必要がありました。

RATHではコードは必要ありません。

先ほどのデータセットの「Cars」を選択します。

読み込んだだけで、データをプロファイルしてくれます。

ydata-profiling(pandas-profiling)のようなプロファイルですが、ノーコードで瞬時に表示してくれるのは嬉しいですね。

さらに列名のところに「transforms」というのがありますが、列ごとに可能な前処理情報を自動で提案してくれます。

ここに上がっているのは一例ですが、カテゴリ変数の前処理では定番のOne-Hotエンコーディングtf-idfなどもワンクリックで実行できます。

今回はOne-Hotエンコーディングしてみます。

生成された列も必要か必要でないかを選択できます。

データ探索

AutoPilot

膨大なデータセットの探索を行うことは大変な作業です。

RATHはその負担を軽減してくれます。

「Start Analytics」をクリックします。

すると瞬時に、データセットの関係性を示すグラフパターンを複数表示してくれます。

ユーザーはデータ分析に集中して、これらのグラフパターンからインスピレーションを素早く得ることが可能となります。

Copilot

生成AIによるデータ分析も可能です。

日本語で入力しても問題なく動きます。

また生成したデータに関連するグラフも作成してくれます。

ここで「Dive」を押すと、更にもう一つ列を追加したグラフを作成してくれます。

高速で大量にデータ分析を行いたい時など、効果を発揮しそうですね。

データ関係性

自動でデータ同士の因果関係も可視化してくれる機能もあります。

こちらもノーコードでクリックだけで完結するので、スピーディーなデータ分析が可能となります。

終わりに

いかがだったでしょうか?

今回は次世代のAIには次世代のデータ分析ツールということで、RATHを紹介してみました。

最後にGraphicWalkerを紹介して終わろうと思います。

https://kanaries.net/home/graphic-walker

上記リンク先の「Playground」から動かせますので、こちらも良かったらお試しください。

RATHやPyGWalker、GraphicWalkerをまずは触ってみよう!と思ってもらえれば幸いです。

ここまで読んでいただきありがとうございました。

Aidemy Tech Blog

Discussion