💽

国産ツールでnysol で、ビッグデータ(CSV)前処理、多分ブルーオーシャン

2022/10/27に公開

nysol 知っていますか?

zenn には、記事はないけど、qiita にはある

科研費サーチにはある

ERATO 湊離散構造処理系プロジェクト事後評価でも高評価

nysol とは何か?

ビッグなCSVをシェルスクリプトで、検索、集計するようなものです。手軽で便利です。もともとMコマンドと言われているものです。DOS 画面がよくつかわれている時代からあります。
業務アプリを、shell でつくってもいいのではという発想でつくられたものです。今は、前処理の便利なツールとして認識されているようです。インターフェースに記事あり この記事みればわかるように、データ加工に便利なツールです。学習コストは、できる人なら、3時間ぐらいです。

nysol を使う時

大きな複数のCSVファイルの JOIN とかしたい時。SQL DBに import するとディスクの容量が足りなくなるような状況。

nysol はどうやって使うの?

nysol 入の Docker あります。私がつくったものなので、ほぼ野良状態です。
jupyter と nysol をいれてあります。
自己責任での利用お願いします。データは、work を割り当てているので、適当に
外部にマウントして利用するのがいいです。
下記をdocker-compose.yml にして
docker compose up -d ですぐに使えると思います。

services:
  notebook:
    image: zanjibar/minimal-notebook_nysol:0.3
    container_name: nysol
    user: jovyan
    ports:
      - "9999:8888"      # host:contaner
    environment:
      - JUPYTER_ENABLE_LAB=yes
      - GRANT_SUDO=yes
      - TZ=Asia/Tokyo

Discussion