次世代のAI開発には次世代のデータ分析ツール【RATH】を使ってみようという話
こんにちは。
株式会社アイデミーでデータサイエンティストの米倉です。
前回ご紹介したPyGWalkerに関連して、RATH(ラース、と読む)というツールが存在することを知りました。
以下は前回記事のリンクです。
実際にRATHを触ってみたのですが、今後のAI開発において有効なツールになるかもしれないと思いました。
というわけで今回はRATHについてご紹介いたします。
データ分析の「次世代」に適応しよう!
これまで機械学習やDeepLearningなどのAI技術において、データの質や量はとても重要なものでした。
生成AIにおいても、その重要性や難易度はより高まることが想定されます。
観点として、
- 複雑で大規模なデータの取り扱い
- AIの精度や安定性を高めるために、データの品質の向上
- 客観的で俯瞰した(分析者のバイアスの少ない)データ分析
などが挙げられます。
生成AIだけでなく、従来のAIモデルでも要求水準は上がっていくと考えられます。
これらを解決するためには従来の手法、例えばエクセルでの情報整理やPythonによるJupyterNotebookでの解析などでは困難になるかもしれません。
RATHはそんな従来手法とは異なる、データ分析の次世代の手法を提供してくれます。
RATHとは?
RATHの公式ページは以下になります。
(https://docs.kanaries.net/ja/rath)
RATHやPygWalkerはKanaries Dataという企業が運営しています。
RATHの概要について、公式では以下のように説明しています。
RATH は、誰でも使える次世代のオープンソース自動データ分析ツールです。
RATH は、複雑なデータソースから簡単に洞察を得ることができ、高度にカスタマイズ可能な多次元データ可視化を作成することができます。さらに、RATHには、パターン、洞察、因果推論を特定する強力な拡張された分析エンジンがあり、データ駆動型の意思決定を支援します。
実際に私も使ってみて、RATHがこれまでのEDA(探索的データ分析)ツールと異なるポイントをあげると、以下のような特徴が挙げられます。
- ノーコードかつGUI操作で実行可能
- 自動でデータの考察結果を取得可能
- 生成AIによるグラフ作成
このような点で、RATHは次世代的なデータ分析ツールとしての存在感を発揮しているように感じました。
RATHは何ができるのか?
データ読み込み
RATHはCSVファイルをはじめ、様々な形式でデータを読み込むことが可能です。
「Demo」にはKanaries Dataが用意したデモ用のデータもあれば、Kaggleなどでも使われるようなデータセットもあらかじめ用意されています。
今回は公式チュートリアルに従う形でデモをするため、こちらのデータセットを使用していきます。
データ前処理
これまで機械学習などで使うデータセットにデータの前処理をかけるためにはPythonなどのプログラミングで対応する必要がありました。
RATHではコードは必要ありません。
先ほどのデータセットの「Cars」を選択します。
読み込んだだけで、データをプロファイルしてくれます。
ydata-profiling(pandas-profiling)のようなプロファイルですが、ノーコードで瞬時に表示してくれるのは嬉しいですね。
さらに列名のところに「transforms」というのがありますが、列ごとに可能な前処理情報を自動で提案してくれます。
ここに上がっているのは一例ですが、カテゴリ変数の前処理では定番のOne-Hotエンコーディングやtf-idfなどもワンクリックで実行できます。
今回はOne-Hotエンコーディングしてみます。
生成された列も必要か必要でないかを選択できます。
データ探索
AutoPilot
膨大なデータセットの探索を行うことは大変な作業です。
RATHはその負担を軽減してくれます。
「Start Analytics」をクリックします。
すると瞬時に、データセットの関係性を示すグラフパターンを複数表示してくれます。
ユーザーはデータ分析に集中して、これらのグラフパターンからインスピレーションを素早く得ることが可能となります。
Copilot
生成AIによるデータ分析も可能です。
日本語で入力しても問題なく動きます。
また生成したデータに関連するグラフも作成してくれます。
ここで「Dive」を押すと、更にもう一つ列を追加したグラフを作成してくれます。
高速で大量にデータ分析を行いたい時など、効果を発揮しそうですね。
データ関係性
自動でデータ同士の因果関係も可視化してくれる機能もあります。
こちらもノーコードでクリックだけで完結するので、スピーディーなデータ分析が可能となります。
終わりに
いかがだったでしょうか?
今回は次世代のAIには次世代のデータ分析ツールということで、RATHを紹介してみました。
最後にGraphicWalkerを紹介して終わろうと思います。
上記リンク先の「Playground」から動かせますので、こちらも良かったらお試しください。
RATHやPyGWalker、GraphicWalkerをまずは触ってみよう!と思ってもらえれば幸いです。
ここまで読んでいただきありがとうございました。
Discussion