🟠
高次元データとは?
はじめに
デジタル時代の今日、高次元データは、データ科学、機械学習、AIの分野で頻繁に取り上げられるキーワードとなっています。
高次元データとは?
高次元データは、文字通り、非常に多くの次元または特徴を持つデータセットを指します。情報工学、ゲノム科学、金融モデリングなど、多岐にわたる分野で利用される。
データの次元数をd、データ数をnとすると
という特徴がある。この関係を強調してHDLSSデータ(high-dimension, low-sample-size data)と呼ぶ。
代表的なHDLSSデータセット
-
DNAマイクロアレイデータ: サンプル数(例: 患者数)は比較的少ないが、次元(遺伝子の数)は非常に大きい。
- golub data : https://www.openintro.org/data/index.php?data=golub
d=7129, n=72 - マイクロアレイデータ集 : https://www.proteinatlas.org/about/download
- golub data : https://www.openintro.org/data/index.php?data=golub
- 脳画像データ: https://nilearn.github.io/stable/index.html
- kaggleのデータセット集 : https://www.kaggle.com/datasets
上記のデータセットは頑張って探しました。
論文の実データ解析で使われているデータを簡単に入手する方法知っている方いらっしゃいましたら教えてください!なかなか元論文にいっても見つけられなくて…
球面集中現象
次元の呪いの要因。簡単な例で見てみよう。
つまり次元が大きくなるほど中心から遠ざかり半径
つまり2点間の距離が
高次元データの注意点
高次元データを解析する際には、いくつかの注意点を考慮する必要がある。
- 過学習のリスク: データの特徴が多すぎると、モデルは特定のデータセットに過度に適応してしまうことがある。これは、新しいデータに対するモデルの性能を低下させる可能性がある。
- 非スパース性な共分散構造: スパース性を仮定することが必ずしも適切ではない。非スパース性は多くの特徴が関連性を持っていることによっておきる。非スパースな共分散構造は高次元において巨大なノイズを生み,潜在情報を埋もれさせてしまう。
- 共分散行列の逆行列が不安定もしくは存在しない。これによって従来の多変量解析の方法が通用しない。
- 次元の呪い(curse of dimensionality) : データの次元が増加することで、必要な計算量やサンプルサイズも増大してしまう。
まとめ
高次元統計解析について詳しく知りたい方はこちら。
球面集中現象のところかなり浅く紹介してしまったので、理論的にもっと知りたい場合は見てみるといいと思います。
参考文献
- 青嶋誠 (2022)「高次元現象の統計数理」
https://www.math.tsukuba.ac.jp/~aoshima-lab/jp/kikaku2022aoshima.pdf - 青嶋誠、矢田和善 (2019)「高次元の統計学」
https://www.kyoritsu-pub.co.jp/book/b10003167.html
Discussion