🐙

第4回 日本の気象予測 X ClimaX

に公開

本記事について

こんにちは。私はプリンストン大学で、宇宙論の研究をしています、山本と申します。私は現在研究の傍ら東京大学鈴村研究室で、データサイエンティストとして、AI(人工知能)を用いた気象予測・気候変動予測のリサーチをお手伝いしています。

https://zenn.dev/suzumura_lab/articles/c0330aba3e1888

前回まで、ClimaXを実際に使用して全球気象予測について紹介しましたが、本シリーズの最終回として、日本の気象予測をClimaXで行うのに必要なことについて考察していきたいと思います。本記事を読んで、実際にClimaXを日本の気象予測に使ってみたいと思う人がいた時に、このシリーズを読んで始めてもらえるきっかけになればと思います。

格子粒度について

ClimaXモデルは、地球の緯度180度・経度360度それぞれを1.40625度(1辺約150km)に分割したものと、5.625度(1辺約600km)に分割したものがあります。1.40625度の粒度では、地球は128 X 256の格子で表され、5.625度の粒度では、地球は32 X 64の格子で表されます。トレーニングにかかる想定時間と必要とするメモリから、ClimaXでは1.40625度以下の粒度の例えば0.25度(720 X 1440)ではトレーニングは行われませんでした。

日本を緯度20度〜45度、経度122度〜153度の範囲だと仮定すると、1.40625度では格子間隔がかなり粗く、有意義な予測ができないと考えます(以下図を参照)。ですので、pretrainingやfinetuningを日本用にやり直す際は、0.25度(1辺約28km)のデータセットを用いるのが良いと考えます。0.25度の粒度は100 X 124の格子で表されますから、PretrainingやFinetuningにかかる時間は1.40625度のケースより短時間で行うことができるはずです。それを考慮した上で、日本の気象をClimaXで予測するために以下のケースについて考察していきます。

ケース1: Pretrainされたモデルを使用し、地域気象予測を行うケース

本シリーズでは取り扱いませんでしたが、ClimaXのタスクの一つとして、地域限定的な気象予測をするというタスクがあります。これは、pretrainされたモデルは全球ですが、気象予測したい地域の気象データをfinetuning時に使うことで、地域限定的な気象予測ができるというものです。論文では、アメリカ大陸を対象として実験が行われましたが、同じアイデアを利用して、日本の気象予測も同様にできると考えます。しかし、ClimaXがパブリックにしているpretrainされたモデルは1.40625度が最低ですので、そちらを利用し、finetuningは0.25度で行い、気象予測するのに必要な手順を以下で考えます。

想定される手順

  1. 1.40625度のpretrainedモデルをダウンロードする。
  2. ERA5のデータをダウンロードする。(* ClimaXもERA5のデータを使用して、気象予測用のFinetuningをしている。 ** ERA5のデータは粒度が元々0.25度なので、粒度は変えなくて良い。)
  3. ERA5のデータは全球なので、日本用にデータを切り取る。
  4. Finetuningを行う。(* Pretraining時とfinetuning時の粒度は異なっても構わない。参考:https://github.com/microsoft/ClimaX/issues/20)
  5. 予測を行う。

Finetuningにかかる想定時間

全球の1.40625度での気象予測のfinetuningはNVIDIA V100マシンを8 GPUsで約1日かかったので、0.25度での日本のエリアのfinetuningには、同じマシンを使用すると、1日以下でfinetuneされることが予想されます。H100マシンを4 GPUs使用した場合は、V100がH100の性能の約1/9ということを考慮すると、約6時間以下でfinetuningできることが予想されます。

ケース2: 日本の気象・気候用にモデルをpretrainingし直し、全域気象予測を行うケース

ケース1では、時間的制限から、0.25度の粒度のデータを使用して、ClimaXを全球でpretrainingし直さないケースを扱いました。しかし、pretrainingするエリアを日本だけに絞れば、pretrainingし直すことも可能であると考えます。この際どのデータセットを使用するかは、考察の余地があると思います。

ClimaXのpretrainingに使用されたCMIP6データセットは、格子間隔が100kmのデータ(約0.9度)が最も解像度が高いものになるので、CMIP6を使うのは難しいでしょう。一方で、ERA5のデータセットは元々の格子粒度が0.25度なので、こちらをpretrainingに使用することはできると考えます。この際に、考慮すべきなのは気象モデルの多様性です。様々なモデルを使用したシミュレーションデータセットを使用することでモデルの柔軟性が上がり、精度は良くなるので、日本国内の研究グループで様々な気象モデルを用いたデータセットがあればそちらを利用することが考えられるでしょう。

一方で、finetuningに関しては、使用するデータセットは行いたいタスクによると考えて良いでしょう。日本全域の気象予測であれば、0.25度の解像度でpretrainingとは別のデータセットを使用して、finetuningができますし、地域的な気象予測・異常気象予測はより解像度の高いデータセットを用いて、finetuningすることができると考えます。

想定される手順

  1. Pretraining用のデータを日本用に切り取る。
  2. こちらに従い、ClimaXモデルをpretrainingする。
  3. 行うタスクに合ったデータセットを準備し、finetuningを行う。
  4. 予測を行う。

Pretraining & Finetuningにかかる想定時間

全球の1.40625度でのpretrainingはNVIDIA V100マシンを80 GPUsで約5~7日かかったので、0.25度での日本のエリアのpretrainingには、同じマシンを使用すると、それ以下でpretrainingされることが予想されます。H100マシンを4 GPUs使用した場合は、V100がH100の性能の約1/9ということを考慮すると、約11~15日以下でpretrainingできることが予想されます。Finetuningにかかる時間は、ケース1と同様と考えられます。

Discussion