🟠

高次元データとは?

2023/10/24に公開

はじめに

デジタル時代の今日、高次元データは、データ科学、機械学習、AIの分野で頻繁に取り上げられるキーワードとなっています。

高次元データとは?

高次元データは、文字通り、非常に多くの次元または特徴を持つデータセットを指します。情報工学、ゲノム科学、金融モデリングなど、多岐にわたる分野で利用される。

データの次元数をd、データ数をnとすると

d \gg n \hspace{5pt}(or \hspace{5pt}d>n)

という特徴がある。この関係を強調してHDLSSデータ(high-dimension, low-sample-size data)と呼ぶ。

代表的なHDLSSデータセット

上記のデータセットは頑張って探しました。

論文の実データ解析で使われているデータを簡単に入手する方法知っている方いらっしゃいましたら教えてください!なかなか元論文にいっても見つけられなくて…

球面集中現象

次元の呪いの要因。簡単な例で見てみよう。

\bm{x} \sim N_d(0,I_d) とする。d\to \infty のとき

\|\bm x\| =\sqrt{d} +O_P(1)

つまり次元が大きくなるほど中心から遠ざかり半径\sqrt d の球面上にいく。これが球面集中現象(concentration on the surface of a sphere)である。

\bm{x}_1,\bm{x}_2 \hspace{3pt}i.i.d.\hspace{3pt} N_d(0,I_d) とする。d\to \infty のとき

\begin{align*} \|\bm x_1 - \bm x_2\|&= \sqrt{2d} +O_P(1)\\ Angle(\bm x_1, \bm x_2) &=\frac{\pi}{2}+O_p(d^{-1/2}) \end{align*}

つまり2点間の距離が\sqrt{2d} に近づき、直交関係に近づく。→全てのデータが等間隔に位置するようになる。

高次元データの注意点

高次元データを解析する際には、いくつかの注意点を考慮する必要がある。

  • 過学習のリスク: データの特徴が多すぎると、モデルは特定のデータセットに過度に適応してしまうことがある。これは、新しいデータに対するモデルの性能を低下させる可能性がある。
  • 非スパース性な共分散構造: スパース性を仮定することが必ずしも適切ではない。非スパース性は多くの特徴が関連性を持っていることによっておきる。非スパースな共分散構造は高次元において巨大なノイズを生み,潜在情報を埋もれさせてしまう。
  • 共分散行列の逆行列が不安定もしくは存在しない。これによって従来の多変量解析の方法が通用しない。
  • 次元の呪い(curse of dimensionality) : データの次元が増加することで、必要な計算量やサンプルサイズも増大してしまう。

まとめ

高次元統計解析について詳しく知りたい方はこちら。

https://www.kyoritsu-pub.co.jp/book/b10003167.html

球面集中現象のところかなり浅く紹介してしまったので、理論的にもっと知りたい場合は見てみるといいと思います。

参考文献

Discussion