はじめに
以前こんな記事を書きました。
https://zenn.dev/torataro/articles/2023-02-26-fourier_transform
これはがっつり数学の話でプログラミングという観点では実用的ではないです。今回はコンピュータ内でフーリエ変換を実現する離散フーリエ変換について紹介していきます。上記記事の内容は本記事でもフォローしていくつもりですので、上記記事を読む必要はありません。
離散フーリエ変換って?
初めに次のデータ列を考えてみます。
f=(f0f1⋯fN−2fN−1)⊤
これはベクトルfの定義で、その要素としてfn,n∈Z≥0が格納されています。全要素数はNです。要素fn自体がnのみに依存する関数なので、このベクトルは一次元の信号と呼ばれ、例として音声信号や株価情報などが挙げられます。このベクトルの要素に対する次の処理が離散フーリエ変換になります。
Fmfn=n=0∑N−1fnexp(−i2πNnm)=N1m=0∑N−1Fmexp(i2πNnm)
前者が離散フーリエ変換、後者はその逆変換で逆離散フーリエ変換と呼びます。当然、変換&逆変換と読んでいるくらいなので行ったり来たりできる関係にありますが、なぜ可能なのでしょうか?線形代数の知識を使って説明します。
離散フーリエ変換の原理
内積と一次結合
次のベクトルa,bについて
a=(a0a1a2)⊤,b=(b0b1b2)⊤
ベクトルa,bの要素は複素数であるとします。ここで標準基底
e0=(100)⊤,e1=(010)⊤,e2=(001)⊤
を使うとaは、
a=a0e0+a1e1+a2e2
と書けます。このような足し合わせを一次結合といいます。このとき内積⟨a,b⟩は次で定義されます。
⟨a,b⟩=n=0∑3−1anbn∗
特徴的なのはbの要素に複素共役がかかっていることです。そうすれば⟨a,a⟩と同じベクトル同士の内積を計算したときベクトルの大きさが得られます。もしa,bがN個を要素に持つベクトルならば、その内積は
⟨a,b⟩=n=0∑N−1anbn∗
とそのまま拡張した形になります。話を戻します。ベクトルaと標準基底e0との内積を取ると、
⟨a,e0⟩=a0⋅1+a1⋅0+a2⋅0=a0
基底の係数a0が抽出できます。つまり標準基底は自身の係数を抽出する抽出特性を有しているということです。なぜ抽出できるかというと、基底同士の内積を次のように計算したとき
⟨en,em⟩={10n=mn=m
同じ基底ならば1を、異なる基底ならば0を取るからです。これを直交性といいます。直交性について同じ基底のとき、内積の計算結果が必ずしも1を取る必要はなく、0以外の数値であればよいです。ただ異なる基底で必ず0を取る必要があります。0以外の数値を取るならば、異なる基底の係数も抽出されてしまいます。
最後に、さきほどの内積の結果を使えば次の一次結合でベクトルaが再度表現できます。
a=⟨a,e0⟩e0+⟨a,e1⟩e1+⟨a,e2⟩e2
とにかく重要なのは抽出特性と内積による線形結合です。この二つの性質が離散フーリエ変換と逆変換を成り立たせています。それを次に紹介します。
逆離散フーリエ変換と新たな基底
先ほど標準基底が直交性を有することによる抽出特性と、標準基底との内積で元のベクトルが再構築できたのを確認しました。このような基底はほかにもあり、その例として次のベクトルを紹介します。
em=(exp(i2πN0⋅m)exp(i2πN1⋅m)⋯exp(i2πN(N−1)⋅m))⊤
ここでm∈Z≥0です。このベクトルに対して次のような線形結合を考えます。
f=N1m=0∑N−1Fmem
このベクトルfのとある要素fnを参照すると、
fn=N1m=0∑N−1Fmexp(i2πNnm)
まぎれもなく逆離散フーリエ変換になります。これが逆変換の正体です。そして標準基底の係数が抽出できたのと同じように各基底の係数Fmをこの基底でも抽出できるでしょうか?それを次に示します。
抽出特性と離散フーリエ変換
基底が抽出特性を満たすには直交性を持っていなければなりませんでした。それを確認するために、内積⟨em,em′⟩を計算します。ここでm′∈Z≥0です。
⟨em,em′⟩=n=0∑N−1exp(i2πNnm)exp(−i2πNnm′)=n=0∑N−1exp(i2πNn(m−m′))
よりm−m′=0から
exp(i2πNn(m−m′))=1
なので、
⟨em,em′⟩=n=0∑N−11=N
です。
⟨em,em′⟩=n=0∑N−1exp(i2πNnm)exp(−i2πNnm′)=n=0∑N−1exp(i2πNn(m−m′))
この式展開までは同じ。ここでk=m−m′と置いてしまいましょう。そうすると、
⟨em,em′⟩=n=0∑N−1exp(i2πNnk)=n=0∑N−1exp(i2πNk)n
という公比exp(i2πk/N)の総和になるので、等比数列の和の公式から、
⟨em,em′⟩=exp(i2πNk)−1exp(i2πk)−1
となります。ここでm,m′∈Z≥0であることを思い出すと、k=m−m′∈Zなので、
exp(i2πk)=1
より、
⟨em,em′⟩=0
です。
これらの結果をまとめると、次のように直交性を記述できます。
⟨em,em′⟩={N0n=mn=m
よって次の内積
⟨f,em′⟩=n=0∑N−1fnexp(−i2πNnm)=Fm
は係数Fmを抽出します。これが離散フーリエ変換です。
信号処理の観点から
フーリエ級数展開が教えてくれるのは、任意の信号f(t)がいろんな周波数の正弦波の足し合わせで表されるということです。式で記述すると信号f(t)は次のようになります。
f(t)=n=−∞∑∞Ancos(2πνnt+θn)
正弦波としてsinを思い浮かべる人もいると思いますが、sinもcosも区別せずに両方とも正弦波と呼びます。それよりもAnを解析することで信号f(t)が周波数νnの正弦波をどれだけ含むかが分かること、θnを解析することで正弦波がどれだけずれているか分かることのほうがが重要です。それを知るための手段がフーリエ変換です。
フーリエ変換と逆フーリエ変換
フーリエ変換と逆フーリエ変換は次の定義です。
F(ν)f(t)=∫−∞∞f(t)exp(−i2πνt)dt=∫−∞∞F(ν)exp(i2πνt)dν
前者がフーリエ変換、後者が逆フーリエ変換です。特にf(t),F(ν)のフーリエ変換、逆変換は
F[f(t)]=F(ν),F−1[F(ν)]=f(t),
と書かれることが多いです。フーリエ変換を使えば、時間領域tに存在するf(t)を周波数領域νにマッピングし、時間とは異なる観点から情報を捉えられるようになります。このF(ν)を調べることで次の情報が得られます。Argは複素数の偏角です。
∣F(ν)∣ |
Arg(F(ν)) |
正弦波の振幅を反映。信号f(t)が周波数νの正弦波をどれだけ含んでいるか分かる。 |
正弦波の初期位相を反映。周波数νの正弦波の山の位置が分かる。 |
振幅、初期位相は次の正弦波のA,θ0に該当します。
Acos(2πνt+θ0)
ここで逆フーリエ変換の積分対象であるF(ν)exp(i2πνt)は、θ(ν)=Arg(F(ν))と置けば、
F(ν)exp(i2πνt)=∣F(ν)∣eiθ(ν)exp(i2πνt)=∣F(ν)∣exp[i(2πνt+θ(ν))]
expの中身がcosに一致することが分かります。実際exp(i2πνt)は複素正弦波と呼ばれ、逆フーリエ変換自体も信号f(t)の(複素)正弦波の足し合わせを表しているのです。厳密な比較ではありませんが、上記から∣F(ν)∣はA、Arg(F(ν))はθ0に対応していることが感じ取れるはずです。
離散フーリエ変換では時間領域の信号はfn、それを周波数領域にマッピングした結果はFmになります。フーリエ変換を離散化することでそれぞれを比較しましょう。
デルタ関数と標本化
先にデルタ関数を紹介します。デルタ関数δ(t)は次の定義です。
∫−∞∞f(t)δ(t−t′)dt=∫−∞∞f(t)δ(t′−t)dt=f(t′)∫−∞∞δ(t)dt=1
デルタ関数は何か実態があるわけでなくこの二式で定義されます。前者がデルタ関数の抽出特性を表しています。とある時間t=t′での関数fの値f(t′)を抽出しています。後者の式はデルタ関数が1で正規化されることを表しています。ただこの定義だとイメージが湧きにくいので次のように書かれることもあります。
δ(t)={∞0t=0t=0
これはインパルス信号と呼ばれるもので、もし図化するならば次のようになります。

続いて標本化です。音などを考えると信号は連続であることが多いです。そしてこの信号をメモリに格納することを考えれば、この連続な信号から値を選ぶ必要がでてきます。その操作が標本化です。サンプリングとも言われます。標本化として次の図のような方法が一般的でしょう。

この標本化では、とある間隔Δtで信号を選んでいます。選ばれた信号は次のようにベクトルで格納することができます。
f=(⋯f(−2Δt)f(−Δt)f(0)f(Δt)f(2Δt)⋯)⊤
この選ばれた信号に対して後々積分ができるように次の列を考えます。
sΔt(t)=n=−∞∑∞δ(t−nΔt)
これを図化すると次のようになります。

選んだ場所でデルタ関数の角が立っていることが確認できます。これはくし型関数と呼ばれるものです。くし型関数使えば
fs(t)=f(t)sΔt(t)=n=−∞∑∞f(nΔt)δ(t−nΔt)
のように標本化したものを積分できるようになります。そしてこのくし型関数ですがΔtを一周期とする周期関数なので複素フーリエ級数展開(Appendix参照)を使って次の様に記述することもできます。
sΔt(t)=Δt1n=−∞∑∞exp(i2πΔtnt)
この式は後で使います。
フーリエ変換の離散化
f(t)のフーリエ変換がF(ν)であるならば、標本化後のフーリエ変換はどうなるでしょうか?fs(t)をフーリエ変換することで調べましょう。その前に畳み込み積分と積のフーリエ変換の公式を紹介します。畳み込み積分は二つの関数f=f(t),g=g(t)を用いて次式で定義されます。
(f∗g)(t)=∫−∞∞f(τ)g(t−τ)dτ
ここで∗は畳み込み積分を示す演算子として定義します。また関数の積f(t)g(t)のフーリエ変換はf(t),g(t)のフーリエ変換をF=F(ν),G=G(ν)と置けば、
F[f(t)g(t)]=(F∗G)(ν)=∫−∞∞F(ν′)G(ν−ν′)dν′
と変換結果の畳み込み積分で表されます(証明はAppendix参照)。fs(t)=f(t)sΔt(t)のフーリエ変換をFs(ν)と置き、上記結果を使えば、
Fs(ν)=(F∗SΔt)(ν)=∫−∞∞F(ν′)SΔt(ν−ν′)dν′
となります。SΔt=SΔt(ν)はくし型関数sΔt(t)のフーリエ変換で次のような形になります。
SΔt(ν)=F[sΔt(t)]=∫−∞∞n=−∞∑∞δ(t−nΔt)exp(−i2πνt)dt=n=−∞∑∞∫−∞∞δ(t−nΔt)exp(−i2πνt)dt=n=−∞∑∞exp(−i2πνnΔt)
ここで上から三行目のイコールの時点でデルタ関数の抽出特性を使いました。この結果とくし型関数の複素フーリエ級数展開の結果を比較すると、
SΔt(ν)=Δt1sΔt1(ν)=Δt1n=−∞∑∞δ(ν−Δtn)
と最終的にくし型関数になることが分かります。この結果からデルタ関数の抽出特性を使えば
Fs(ν)=∫−∞∞F(ν′)Δt1n=−∞∑∞δ(ν−ν′−Δtn)dν′=Δt1n=−∞∑∞∫−∞∞F(ν′)δ((ν−Δtn)−ν′)dν′=Δt1n=−∞∑∞F(ν−Δtn)
となります。数式をもとにFs(ν)を描くと次のようなイメージです。

F(ν)が一つの山を成し、νs=1/Δtの周期で山の頂点が現れることが確認できます。νsはサンプリング周波数といい、1秒間に何回サンプリングするか決めるものです。当然沢山サンプリングすると山と山の間隔は離れます。この話は次の標本化定理の紹介で行います。
離散フーリエ変換の話に戻りましょう。実際Δtで標本化したならば、コンピュータ上で格納できる最大周波数はνsになります。また離散フーリエ変換した結果Fmは、変換対象のデータ数と同じN個得られるので、フーリエ変換後の結果を離散化するならば次の方法になります。

つまり周波数領域で離散化するというのは、山の頂点から次の山の頂点の間でN個値を取ってくることに他ならないわけです。この離散化の間隔をΔνと置けば次の式が成り立ちます。
ΔtΔν=N1
量子力学の不確定性原理のような数式ですね。この式からΔtとΔνの大きさはトレードオフの関係にあることが分かります。周波数領域でも一定の精度を担保したいならばデータを増やすしかないということです。
標本化定理とエイリアシング
標本化後の信号のフーリエ変換Fs(ν)より、本来得たい信号の結果F(ν)が繰り返し現れることが確認できました。そうすると懸念されるのはF(ν)同士が重ね合わさるところです。図示すると灰色の個所になります。

この重ね合わさった部分の周波数領域はF(ν)が取る本来の値とは異なるため、そのまま逆フーリエ変換をすると正しい信号f(t)を再現できなくなります。これをエイリアシングといいます。
もし信号f(t)が最大周波数νmaxまでの正弦波の重ね合わせで構成されているならば、逆フーリエ変換で信号f(t)を回復するために次式を満たしている必要があります。
νs≥2νmax
これは標本化定理と呼ばれるもので、F(ν)が重ね合わさらない条件になります。信号処理論で最も重要な式といってもよいかもしれません。標本化定理を満たしているとき次のようなイメージになります。

エイリアシングを起こさない条件が明確になりましたが、エイリアシングってどんな状態を表すのでしょうか?νmaxの周波数を持つ正弦波でもって説明します。まず正弦波の中から青点で沢山サンプリングします。

上図が正弦波をサンプリングした結果です。当然、この時サンプリングした点と点同士をつなぐとしっかりとオレンジの正弦波に追随していることが分かります。この点を極限まで減らした時、それでも正弦波を再現できるサンプリング数はいくつでしょうか?結論次の図の通りです。

このとき正弦波の山の頂上と谷の底でサンプリングを行いました。これらの点と点をつなぐと正弦波というよりは三角波になりますが、それでも正弦波の振動を表現することができています。実際、標本化定理は最大周波数を持つ正弦波の一回の振動で二回以上サンプリングすれば、元の信号を復元することができると主張しています。二回でのサンプリング結果が上の図です。
ではエイリアシングの場合どうなるでしょうか?それが次の図です。

エイリアシングは正弦波の振動をとらえきれない(サンプリング数が足りていない)ことで発生する現象になります。このとき点と点をつなぐとνs−νmaxの低周波数に折り返した正弦波が出現します。ゆえにエイリアシングは折り返し雑音とも呼ばれます。
最後に
離散フーリエ変換は初めにも紹介した通り、コンピュータ上で計算できるフーリエ変換になります。ただ離散フーリエ変換がフーリエ変換から導かれるというよりは、離散フーリエ変換が本来のフーリエ変換と共通する性質(推移則など)を持っているため、コンピュータ上での周波数領域へのマッピング方法として離散フーリエ変換が採用されていると捉えるほうがよいでしょう。
離散フーリエ変換を行列化すると、ユニタリ行列が現れたりともっと面白い性質があるのですが、長くなりそうなのでここらで終わりにします。最後まで読んでいただきありがとうございました!
Appendix
複素フーリエ級数展開
複素フーリエ級数展開の定義は次の通りである。
f(t)cn=n=−∞∑∞cnexp(i2πTnt)=T1∫−T/2T/2f(t)exp(−i2πTnt)dt
ただし複素フーリエ級数展開を満たすものはf(t)=f(t+T)の周期関数である。くし型関数の時T=Δtであり、cn=1/Δtとなる。
F[f(t)g(t)]=(F∗G)(ν)の証明
(F∗G)(ν)の逆フーリエ変換がf(t)g(t)になることを証明する。
F−1[(F∗G)(ν)]=∫−∞∞(∫−∞∞F(ν′)G(ν−ν′)dν′)exp(i2πνt)dν=∫−∞∞F(ν′)(∫−∞∞G(ν−ν′)exp(i2πνt)dν)dν′
ここでs=ν−ν′と置けば、ν=s+ν′なので
F−1[(F∗G)(ν)]=∫−∞∞F(ν′)(∫−∞∞G(s)exp(i2π(s+ν′)t)ds)dν′=(∫−∞∞F(ν′)exp(i2πν′t)dν′)(∫−∞∞G(s)exp(i2πst)ds)=F−1[F(ν′)]F−1[G(s)]=f(t)g(t)
よって
F[f(t)g(t)]=(F∗G)(ν)
である。■
余談であるが
F[(f∗g)(t)]=F(ν)G(ν)
も成り立つ。証明の仕方は変わらない。(むしろこっちのほうがよく取り上げられる。)
参考文献
和田 成夫(著)「よくわかる信号処理」森北出版株式会社
Discussion