深層強化学習のベイズ主義的な情報探索に駆動された自然言語処理の意味論

スポンサーリンク

Accel Brain; Console×

派生問題:パラドックスのリズム

ニクラス・ルーマンは、『社会の芸術』において、パラドックスを指し示す観察が低い周期振動構成された形式に準拠していると述べている。Aと非Aを区別する形式パラドックス化する場合、双方は差異化されていると「同時」に同一でもある。この差異化されている双方の統一というパラドックスは、通常であれば、時間によって「展開」されている。過去現在未来区別を導入する時間という形式が、差異性と統一性のパラドックス脱パラドックス化しているのである。我々がパラドックスを発見するのは、この脱パラドックス化機能していない場合である。パラドックスとして顕在化しているAと非Aは、時間の流れからは切り離された上で、「同時」的に指し示される。一方から他方への差異、すなわち距離は極小化されているのである。

原理上如何なる形式にも振動が起こり得る。例えばオートポイエーシス的なシステムは、自己言及と外部言及の形式自己言及的に導入することで、自己言及と外部言及の間を振動している。社会システム心理システムのような「意味」を構成するシステムも例外ではない。意味(Sinn)は、パラドックスの隠蔽技術形式として機能する。意味が司るのは、パラドックス化脱パラドックス化区別である。故に、「意味」を構成するシステムは、このパラドックス化脱パラドックス化の間も振動していることになる。

振動には周波数がある。この周波数は、複数の周波数の複合的な合成による結果であると考えられる。何故なら、観察者が準拠する区別は一つとは限らないからだ。「観察するシステム」は、一つの観察において、様々な形式に準拠している。観察者の観察は、複合的な区別の組み合わせによって成り立っている。こうした区別はまた、この区別の内部に再導入(re-entry)される。したがって、仮に一つの区別に準拠しているように視えても、その区別の内部には、複数の区別それ自体が再帰的に導入されている。

これを前提とすれば、ある観察者の観察に伴うパラドックスを抽出するには、その観察が準拠している区別を可能な限り分解しなければならない。そうすることで、観察者の観察者は、より多くのパラドックスを発見することが可能になる。

問題解決策:フーリエ変換

フーリエ変換(Fourier transform)」は、ある複合的な波形を正弦波をはじめとした比較的単純な波形の重ね合わせとして再記述することを可能にする。ここでは、このフーリエ変換を上述した振動形式算法に適用していく。

フーリエ級数展開

与えられた周期2πの関数を、周期Tあるいはその約数の三角関数の和で記述したい。

$$f(x) = \frac{1}{2}a_0 + \sum_{n=1}^{\infty}(a_n \cos nx+ b_n \sin nx) \tag{1}$$

ただし、周期関数f(x)は区分的に滑らかである場合に限る。

各種フーリエ係数

周期2πの関数f(x)において、区間-π <= x <= π でのフーリエ係数を求める。(1)の両辺を積分すると、以下のようになる。

$$\int_{- \pi}^{\pi}f(x)dx = \int_{- \pi}^{\pi} {\frac{1}{2}a_0 + \sum_{n=1}^{\infty}(a_n \cos nx+ b_n \sin nx) }$$

$$= a_0 \int_{- \pi}^{\pi} \frac{1}{2} dx + \sum_{n=1}^{\infty} a_n \int_{- \pi}^{\pi} \cos nxdx + \sum_{n=1}^{\infty} b_n \int_{- \pi}^{\pi} \sin nxdx \tag{2}$$

1/2とcosnxは偶関数で、sinnxは奇関数であるため、

$$\int_{- \pi}^{\pi} \frac{1}{2} dx = 2 \int_{0}^{\pi} \frac{1}{2}dx = \pi \tag{3}$$

$$\int_{- \pi}^{\pi} \cos nxdx = 2 \int_{0}^{\pi} \cos nxdx = 2 \int_{0}^{\pi} \frac{1}{n} \sin nx = \frac{2}{n}(\sin n \pi – \sin 0) = 0 \tag{4}$$

$$\int_{- \pi}^{\pi} \sin nxdx = 0 \tag{5}$$

(2)に(3)、(4)、(5)をそれぞれ代入すると、

$$\int_{- \pi}^{\pi} f(x)dx = a_0 \pi$$

$$a_0 = \frac{1}{\pi} \int_{- \pi}^{\pi} f(x)dx$$

(1)の両辺にsinmxを掛けて、区間-π <= x <= πで積分すると、 $$\int_{- \pi}^{\pi} f(x) \sin mxdx = \int_{- \pi}^{\pi} { \frac{1}{2} a_0 + \sum_{n=1}^{\infty} (a_n \cos nx + b_n \sin nx) } \sin mxdx $$ $$= \frac{1}{2} a_0 \int_{- \pi}^{\pi} \sin mxdx + \sum_{n=1}^{\infty} a_n \int_{- \pi}^{\pi} \sin mx \cos nxdx + \sum_{n=1}^{\infty} b_n \int_{- \pi}^{\pi} \sin mx \sin nx dx \tag{6}$$ simmxとsinmxcosnxは奇関数であるため、次のようになる。

$$\int_{- \pi}^{\pi} \sin mxdx = 0 \tag{7}$$

$$\int_{- \pi}^{\pi} \sin mx \cos nx dx = 0 \tag{8}$$

特にn = mの場合、偶関数の性質と二倍角公式より、

$$\int_{- \pi}^{\pi} \sin^2mxdx = 2 \int_{0}^{\pi} \sin^2mxdx = 2 × \frac{1}{2} \int_{0}^{\pi} (1 – \cos 2mx)dx$$

$$= (\pi – \frac{1}{2m} \sin 2m \pi) – (0 – \frac{1}{2m} \sin 0) = \pi \tag{9}$$

一方、n ≠ mの場合は、偶関数の性質と和積交換公式より、

$$\int_{- \pi}^{\pi} \sin mx \sin nx dx = 2(- \frac{1}{2}) \int_{0}^{\pi} {\cos (m+n)x – \cos (m – n)x }dx = 0 \tag{10}$$

(6)に(7)、(8)、(9)、(10)をそれぞれ代入すると、

$$\int_{- \pi}^{\pi} f(x) \sin mxdx = 0 + 0 + b_m \int_{- \pi}^{\pi} \sin mx \sin mx dx = b_m \pi$$

したがって、

$$b_m = \frac{1}{\pi} \int_{- \pi}^{\pi} f(x) \sin mxdx$$

一方、(1)にcosmxを掛けて、区間-π <= x <= πで積分すると、同様の形式操作から、

$$a_m = \frac{1}{\pi} \int_{- \pi}^{\pi} f(x) \cos mxdx$$

が得られる。

不連続点におけるフーリエ級数

上述したフーリエ級数展開は連続を前提としている。不連続点を前提としたフーリエ級数はまだ扱えない。不連続点αにおけるフーリエ級数の値は、αにおける左極限と右極限の平均値となる。

$$\frac{f(\alpha + 0) + f(\alpha – 0)}{2} = \frac{1}{2} \alpha_0 + \sum_{n=1}^{\infty} (a_n \cos n \alpha + b_n \sin n \alpha)$$

フーリエ級数展開の意味論上の主導的差異

単位円上の三角関数で喩えるなら、y = cosxが偶関数であるのに対して、y = sinxが奇関数となる。関数f(x)は偶関数奇関数の和として記述することができる。上述した内容からもわかるように、フーリエ級数偶関数奇関数差異によって構成されている。

フーリエ余弦級数展開

f(x)が偶関数の場合、

$$f(x) = \frac{1}{2}a_0 + \sum_{n=1}^{\infty}a_n \cos nx$$

この時、右辺はf(x)のフーリエ余弦級数(Fourier cosine series)となる。

フーリエ正弦級数展開

f(x)が奇関数の場合、

$$f(x) = \sum_{n=1}^{\infty} b_n \sin nx$$

この時、右辺はf(x)のフーリエ正弦級数(Fourier sine series)となる。

周期2Lとベクトルによる再記述

無限次元ベクトル空間でのユースケースを想定しているため、周期2Lの区分的に滑らかな周期関数を前提としたフーリエ級数一般化について確認した上で、ベクトルとの対応付けを前提に再記述する。

周期2πの場合は次のようになる。

$$f(x) = \frac{1}{2}a_0 + \sum_{n=1}^{\infty}(a_n \cos nx+ b_n \sin nx) \tag{1}$$

そこで、$$x = \frac{2 \pi}{2L} t = \frac{\pi}{L}t$$と置く。これを(1)に代入すると、以下のようになる。

$$f(\frac{\pi}{L}t) = \frac{1}{2}a_0 + \sum_{n=1}^{\infty}\left(a_n \cos n \frac{\pi}{L}t + b_n \sin n\frac{\pi}{L}t\right)$$

xが-πからπまで変化する時、tは-LからLまで変化する。上記は周期2Lの周期関数となる。

フーリエ係数の再記述

$$x = \frac{\pi}{L}t$$
$$\frac{dx}{dt} = \frac{\pi}{L}$$
$$dx = \frac{\pi}{L}dt$$
$$a_0 = \frac{1}{\pi} \int_{- \pi}^{\pi} f(x)dx = \frac{1}{\pi}\int_{-L}^{L}f\left(\frac{\pi}{L}t\right)\frac{\pi}{L}dt$$
$$a_n = \frac{1}{\pi} \int_{- \pi}^{\pi} f(x) \cos nxdx = \frac{1}{\pi}\int_{-L}^{L}f\left(\frac{\pi}{L}t\right) \cos \frac{n \pi}{L}t \frac{\pi}{L}dt$$
$$b_n = \frac{1}{\pi} \int_{- \pi}^{\pi} f(x) \sin nxdx = \frac{1}{\pi}\int_{-L}^{L}f\left(\frac{\pi}{L}t\right)\sin \frac{n \pi}{L}t \frac{\pi}{L}dt$$

無限次元ベクトル空間としての関数空間におけるノルム

関数空間として、区分的に滑らかな関数f(x)の集合をDと置く。区間は-π ≦ x ≦ πとする。

フーリエ級数展開により、以下のようになる。

$$f(x) = \frac{1}{2}a_0 + \sum_{n=1}^{\infty}(a_n \cos nx+ b_n \sin nx) \tag{1}$$

この時、$${\frac{1}{2}, \sin nx, \cos nx} (n = 1, 2, 3, …)$$は、それぞれ集合Dの基底である。

集合Dに含まれる関数f(x)、g(x)の内積は、$$(f(x), g(x)) = \int_{-\pi}^{\pi}f(x)g(x)dx$$となる。

この値が0の場合、双方はベクトル同様に直交する。

上述した基底は、その内積によって、直交規定であることがわかる。

$$(\frac{1}{2}, \frac{1}{2}) = \frac{\pi}{2}$$

$$(\frac{1}{2}, \sin nx) = 0$$

$$(\frac{1}{2}, \cos nx) = 0$$

$$(\cos nx, \sin nx) = 0$$

$$(\sin nx, \sin nx) = \pi$$

$$(\cos nx, \cos nx) = \pi$$

$$(\cos mx, \sin nx) = 0 (m ≠ n)$$

$$(\sin mx, \sin nx) = 0 (m ≠ n)$$

$$(\cos mx, \cos nx) = 0 (m ≠ n)$$

尚、関数系のそれぞれを$${\frac{1}{\sqrt{2 \pi}}, \frac{1}{\sqrt{\pi}}\sin nx, \frac{1}{\sqrt{\pi}}\cos nx} (n = 1, 2, 3, …)$$とすれば、各基底が1になるため、正規直交系になる。

したがって、区分的に滑らかな関数集合D、すなわち関数空間無限次元のベクトル空間である。

関数f(x)のノルムは、$$|f(x)| = \sqrt{(f(x), f(x))}$$である。これは、二次元平面上であれば、ピタゴラスの定理から計算可能であった。しかし、無限次元ベクトル空間である集合Dにおいては、単純にこの定理を機能的に再利用することはできない。

パーセバルの等式

以下の「パーセバルの等式(Parseval’s equality)」を利用する。

$$|f(x)|^2 = \frac{\pi}{2}a_0^2 + \pi \sum_{n=1}^{\infty}(a_n^2+b_n^2)$$

念のために付言しておくと、ここでは正規直交系が想定されている。記述が冗長だが、フーリエ級数展開を再記述しておこう。

$$f(x) = \frac{1}{2}a_0 + \sum_{n=1}^{\infty}(a_n \cos nx + b_n \sin nx) = \frac{\sqrt{2\pi}a_0}{2}\frac{1}{\sqrt{2\pi}} + \sum_{n=1}^{\infty}\left(\sqrt{\pi}a_n\frac{\cos nx}{\sqrt{\pi}} + \sqrt{\pi}b_n\frac{\sin nx}{\sqrt{\pi}}\right)$$

ここで、

$$u_0(x) = \frac{1}{\sqrt{2\pi}}$$

$$u_{2n-1}(x) = \frac{\cos nx}{\sqrt{\pi}}$$

$$u_{2n}(x) = \frac{\sin nx}{\sqrt{\pi}}$$

$$a_0 = \frac{\sqrt{2\pi}a_0}{2}$$

$$a_{2n-1} = \sqrt{\pi}a_n$$

$$a_{2n} = \sqrt{\pi}b_n$$

と置く。すると、$${u_n(x)} (n = 0, 1, 2, 3, …)$$は正規直交関数系となる。関数f(x)は次のように再記述できる。

$$f(x) = \sum_{n=0}^{\infty}a_nu_n(x)$$

平均収束

ここで、左辺と右辺の0からNまでの部分和のノルムを取ると、

$$|f(x) – \sum_{n=0}^{N}a_nu_n(x)|^2 = \left(f(x) – \sum_{n=0}^{N}a_nu_n(x), f(x) – \sum_{n=0}^{N}a_nu_n(x)\right) $$

$$= (f(x), f(x)) – 2\left(f(x), \sum_{n=0}^{N}a_nu_n(x)\right) + \left(\sum_{n=0}^{N}a_nu_n(x), \sum_{m=0}^{N}a_mu_m(x)\right)$$

$$= |f(x)|^2 – 2 \sum_{n=0}^{N}a_n(f(x), u_n(x)) + \sum_{n=0}^{N}\sum_{m=0}^{N}a_na_m(u_n(x), u_m(x))$$

$$(f(x), u_n(x)) = a_n$$

m ≠ nの場合、$$(u_n(x), u_m(x)) = 0$$

m = nの場合、$$(u_n(x) u_m(x)) = 1$$

したがって、

$$|f(x) – \sum_{n=0}^{N}a_nu_n(x)|^2 = |f(x)|^2 – 2\sum_{n=0}^{N}a_na_n + \sum_{n=0}^{N}a_na_n$$

$$= |f(x)|^2 – \sum_{n=0}^{N}a_n^2$$

f(x)は区分的に滑らかな関数である。そのため不連続点以外であれば各点収束する。

$$\lim_{N \to \infty}\left|f(x) – \sum_{n=0}^{N}a_nu_n(x)\right| = 0$$

平均収束により、ほとんど至る所(almost everywhere)で等しい。

したがって、$$|f(x)|^2 = \sum_{n=0}^{\infty}a_n^2 = \frac{\pi}{2}a_0^2 + \pi \sum_{n=1}^{\infty}(a_n^2+b_n^2)$$

オイラーの公式

複素フーリエ級数にまで拡張するために、「オイラーの公式(Euler’s formula)」を導入する。

以下のように、無限個の要素の和で関数f(x)を表現した場合のべき級数展開を実行する。

$$f(x) = a_0 + a_1x + a_2x^2 + a_3x^3 + … + a_nx^n + … \tag{1}$$

xに0を代入すると、$$f(0) = a_0 \tag{2}$$となる。(1)の両辺を微分すると、

$$f'(x) = 0 + 1a_1 + 2a_2x + 3a_3x^2 + … \tag{3}$$

xに0を代入すると、$$f'(0) = a_1 \tag{4}$$となる。(3)の両辺を微分すると、

$$f”(x) = 0 + 1 ・ 2a_2 + 2 ・ 3a_3x + 3 ・ 4a_4x^2 + 4 ・ 5a_5x^3 + … \tag{5}$$

xに0を代入すると、$$f”(0) = 1 ・ 2a_2 \tag{6}$$となる。

更に両辺を微分すると、

$$f^{(3)}(x) = 0 + 1 ・ 2 ・ 3a_3 + 2・3・4a_4x + 3・4・5a_5x^2 + … \tag{7}$$

xに0を代入すると、$$f^{(3)}(0) = 1・2・3a_3 \tag{8}$$となる。

更に微分してxに0を代入するという操作を繰り返していくと、(2)、(4)、(6)、(8)のように、aが求めることが可能になる。

$$a_n = \frac{f^{(n)}(0)}{n!} \tag{9}$$

したがって、$$f(x) = f(0) + \frac{f'(0)}{1!}x + \frac{f”(0)}{2!}x^2 + \frac{f^{(3)}(0)}{3!}x^3 + … + \frac{f^{(n)}(0)}{n!}x^n + … $$

$$f(x) = \sum_{n=0}^{\infty}\frac{f^{(n)}(0)}{n!}x^n \tag{10}$$

三角関数のべき級数展開

(10)を前提とする。f(x) = sinxの場合、f'(x) = cosx、f”(x) = – sinx、f”'(x) = -cosxとなるため、f(0) = 0、f'(0) = 1、f”(0) = 0、f”'(0) = -1となる。よってsinxのべき級数展開は次のようになる。

$$\sin x = x – \frac{1}{3!}x^3 + \frac{1}{5!}x^5 – \frac{1}{7!}x^7 + … + \frac{(-1)^n}{(2n + 1)!}x^{2n + 1} + … $$

$$\sin x = \sum_{n=0}^{\infty}\frac{(-1)^n}{(2n + 1)!}x^{2n + 1} \tag{11}$$

同様の操作から、f(x) = cosxの場合のべき級数展開についても導ける。

$$\cos x = 1 – \frac{1}{2!}x^2 + \frac{1}{4!}x^4 – \frac{1}{6!}x^6 + … + \frac{(-1)^n}{(2n)!}x^{2n} + … $$

$$\cos x = \sum_{n=0}^{\infty}\frac{(-1)^n}{(2n)!}x^{2n} \tag{12}$$

指数関数のべき級数展開

(10)を前提とする。$$f(x) = e^x$$の場合のべき級数展開を実行する。

$$f(x) = f'(x) = f”(x) = … = f^{(n)}(x) = e^x$$

よって、$$f(0) = f'(0) = f”(0) = … = f^{(n)}(0) = e^0 = 1 \tag{13}$$

(10)に(13)を代入すると、

$$e^x = 1 + x + \frac{1}{2!}x^2 + \frac{1}{3!}x^3 + … + = \sum_{n=0}^{\infty}\frac{1}{n!}x^n \tag{14}$$

(14)は全ての実数の範囲で成り立つ。

オイラーの公式

(14)のべき級数のxにixを代入すると、

$$e^{ix} = 1 + (ix) + \frac{1}{2!}{(ix)}^2 + \frac{1}{3!}{(ix)}^3 + … $$

$$e^{ix} = 1 + ix – \frac{1}{2!}x^2 – \frac{1}{3!}ix^3 + \frac{1}{4!}x^4 + \frac{1}{5!}ix^5 – … $$

$$e^{ix} = \left(1 – \frac{1}{2!}x^2 + \frac{1}{4!}x^4 – … \right) + i\left(x – \frac{1}{3!}x^3 + \frac{1}{5!}x^5 – …\right) \tag{15}$$

(15)に三角関数べき級数として導いた(11)と(12)を代入すると、

$$e^{ix} = \cos x + i \sin x \tag{16}$$

ixの機能

(16)から、

$$|e^{ix}| = |\cos x + i \sin x | = \sqrt{\cos^2 x + \sin^2 x} = 1$$

したがって(16)は単位円の円周上に位置する。

また、(16)から、

$$e^{i(x + 2 \pi)} = \cos (x + 2 \pi) + i \sin (x + 2 \pi) = \cos x + i \sin x = e^{ix}$$

したがって、$$y = e^{ix}$$は周期2πの周期関数である。

複素フーリエ級数

フーリエ級数展開により、

$$f(x) = \frac{1}{2}a_0 + \sum_{n=1}^{\infty}(a_n \cos nx + b_n \sin nx)$$

(16)のオイラーの公式により、

$$e^{inx} = \cos nx + i \sin nx \tag{17}$$

$$e^{in(-x)} = \cos nx – i \sin nx \tag{18}$$

(17)と(18)により、

$$\cos nx = \frac{e^{inx} + e^{in(-x)}}{2}$$

$$\sin nx = \frac{e^{inx} – e^{in(-x)}}{2}$$

したがって、

$$f(x) = \frac{1}{2}a_0 + \sum_{n=1}^{\infty}\left(a_n\frac{e^{inx} + e^{in(-x)}}{2} + b_n \frac{e^{inx} – e^{in(-x)}}{2i}\right)$$

$$f(x) = \frac{1}{2}a_0 + \sum_{n=1}^{\infty}{\frac{1}{2}(a_n – b_ni)e^{inx} + \frac{1}{2}(a_n + b_ni)e^{i(-n)x}}$$

ここで、

$$c_0 = \frac{1}{2}a_0$$

$$c_n = \frac{1}{2}(a_n – b_ni)$$

$$c_{-n} = \frac{1}{2}(a_n + b_ni)$$

と置く。すると、

$$f(x) = c_0 + \sum_{n=1}^{\infty}{c_ne^{inx} + c_{-n}e^{i(-n)x}}$$

n = 0の場合、$$c_0e^{i・0・x} = c_0$$

したがって、$$f(x) = \sum_{n=-\infty}^{\infty}c_ne^{inx}$$

非周期関数のフーリエ級数

オイラーの公式複素フーリエ級数周期2Lの区分的に滑らかな周期関数を前提としたフーリエ級数の再記述により、周期2Lの周期関数は、次のように記述できる。

$$f_L(x) = \sum_{n=- \infty}^{\infty}c_ne^{i\frac{n \pi}{L}x} \tag{1}$$

$$c_n = \frac{1}{2L}\int_{-L}^{L}f_L(t)e^{-i\frac{n \pi}{L}t}dt \tag{2}$$

しかし、この関数だけでは周期性の無い現象を表現することができない。

リーマン和

(1)と(2)を非周期関数へと機能的に拡張させる必要がある。この拡張は、周期2Lが無限に近付いたと見做す発想から始まる。だが、鍵は単純にリーマン和にあることだけを覚えておけば足りるため、計算芸を熱く語る必要は全く無い。

まず(2)を(1)に代入する。

$$f_L(x) = \sum_{n=- \infty}^{\infty}{\frac{1}{2L}\int_{-L}^{L}f_L(t)e^{-i\frac{n \pi}{L}t}dt}e^{i\frac{n \pi}{L}x}$$

$$ = \frac{1}{2\pi}\sum_{n=-\infty}^{\infty}{\int_{-L}^{L}f_L(t)e^{-i\frac{n\pi}{L}t}dt}e^{i\frac{n\pi}{L}x}\frac{\pi}{L} \tag{3}$$

そして次のように概念を設定する。

$$\omega_n = \frac{2n\pi}{2L} = \frac{n\pi}{L}$$

すると、$$\omega_n – \omega_{n-1} = \frac{n\pi}{L} – \frac{(n – 1)\pi}{L} = \frac{\pi}{L}$$となるため、(3)は次のように再記述できる。

$$f_L(x) = \frac{1}{2\pi}\sum_{n=-\infty}^{\infty}{\int_{-L}^{L}f_L(t)e^{-i\omega_nt}dt}e^{i\omega_nx}(\omega_n – \omega_{n-1}) \tag{4}$$

ここで、周期2Lを無限に近付けた場合、上述した周期関数は非周期関数となる。L → ∞の場合、$$\omega_n – \omega_{n-1} = \frac{\pi}{L} \to 0$$となる。(4)の右辺はリーマン和となる。したがって、

$$f(x) = \lim_{L \to \infty}f_L(x) = \frac{1}{2 \pi}\lim_{L \to \infty}\sum_{n=-\infty}^{\infty}{\int_{-L}^{L}f_L(t)e^{-i\omega_nt}dt}e^{i\omega_nx}(\omega_n – \omega_{n-1})$$

$$= \frac{1}{2\pi}\int_{-\infty}^{\infty}{\int_{-\infty}^{\infty}f(t)e^{-i\omega t}dt}e^{i\omega x}d\omega \tag{5}$$

絶対可積分

(5)は複素フーリエ級数を再記述した数式に過ぎない。したがって、区分的に滑らかで、かつ連続であるという制約条件は機能的に継承される。加えて、この非周期関数f(x)は絶対可積分である必要もある。すなわち、有限な正の定数Mが存在し、かつ、$$\int_{- \infty}^{\infty}|f(x)|dx < M$$が成り立つ必要がある。 絶対可積分ならば$$\lim_{x \to \pm \infty}|f(x)| = 0$$となる。しかし、$$\lim_{x \to \pm \infty}|f(x)| = 0$$であっても絶対可積分となるとは限らない。 あるいはこう表現しても矛盾は無い。

$$\int_{- \infty}^{\infty}|f(x)|dx < \infty$$ つまり絶対可積分は、規定のf(x)の負の面積と正の面積を全て足し合わせたとしても、その値は有限の値で収束することを保証する条件付けである。

これだけなら瑣末な問題だが、区分的に滑らかで絶対可積分となる非周期関数f(x)に不連続点が含まれる場合には、注意を要する。

左極限と右極限の差異の再記述

極限と右極限区別を導入することで、フーリエ級数を次のように再記述できる。

$$\frac{f(x + 0) + f(x – 0)}{2} = \frac{1}{2\pi}\int_{-\infty}^{\infty}{\int_{-\infty}^{\infty}f(t)e^{-i\omega t}dt}e^{i\omega x}d\omega \tag{6}$$

連続点では右極限と左極限が等価となる。つまり(6)は(5)と等価となる。

フーリエ変換とフーリエ逆変換の差異

リーマン和による非周期関数複素フーリエ級数表現で表した区分的に滑らかで絶対可積分な非周期関数f(x)のフーリエ変換とフーリエ逆変換を記述する。

$$f(x) = \lim_{L \to \infty}f_L(x) = \frac{1}{2 \pi}\lim_{L \to \infty}\sum_{n=-\infty}^{\infty}{\int_{-L}^{L}f_L(t)e^{-i\omega_nt}dt}e^{i\omega_nx}(\omega_n – \omega_{n-1})$$

$$= \frac{1}{2\pi}\int_{-\infty}^{\infty}{\int_{-\infty}^{\infty}f(t)e^{-i\omega t}dt}e^{i\omega x}d\omega \tag{1}$$

f(x)のフーリエ変換に対応させた関数F(ω)は次のように表現される。

$$F(\omega) = {\int_{-\infty}^{\infty}f(t)e^{-i\omega t}dt} \tag{2}$$

(1)に(2)を代入すると、フーリエ逆変換は次のように表現される。

$$f(x) = \frac{1}{2\pi}\int_{-\infty}^{\infty}F(\omega)e^{i\omega x}d\omega \tag{3}$$

離散スペクトルと連続スペクトルの差異

周期2Lの区分的に滑らかな周期関数を前提としたフーリエ級数の再記述より、周期2Lのフーリエ級数は次のようになる。

$$f(x) = \frac{1}{2}a_0 + \sum_{n=1}^{\infty}\left(a_n \cos \frac{n\pi}{L}x + b_n \sin \frac{n\pi}{L}x\right) \tag{4}$$

ここで、$$A_n = \sqrt{a_n^2 + b_n^2}$$

$$\tan \alpha_n = \frac{a_n}{b_n}$$

とすれば、(4)の波動成分に対する加法定理により、

$$a_n\cos\frac{n\pi}{L}x + b_n\sin\frac{n\pi}{L}x$$

$$= A_n\left(\frac{a_n}{A_n}\cos\frac{n\pi}{L}x + \frac{b_n}{A_n}\sin\frac{n\pi}{L}x\right)$$

$$=A_n\left(\sin\alpha_n\cos\frac{n\pi}{L}x + \cos\alpha_n\sin\frac{n\pi}{L}x\right)$$

$$=A_n\sin\left(\frac{n\pi}{L}x + \alpha_n\right)$$

したがって、$$f(x) = \frac{1}{2}a_0 + \sum_{n=1}^{\infty}A_n\sin\left(\frac{n\pi}{L}x + a_n\right)$$

これにより、フーリエ級数における波動成分は振幅周波数へと展開された。ここで得られるデータは離散的であるため、観察できるスペクトルも「離散スペクトル(Discrete spectrum)」となる。

これに対し、「連続スペクトル(Continuous spectrum)」は複素フーリエ級数から得られる。

オイラーの公式複素フーリエ級数より、

$$f_L(x) = \frac{1}{2L}\sum_{n=-\infty}^{\infty}c_ne^{i\frac{n\pi}{L}x}$$

波動成分の角周波数を$$\omega_n = \frac{2n\pi}{2L}$$とすれば、$$\omega_n – \omega_{n-1} = \frac{\pi}{L}$$となるため、

$$f_L(x) = \frac{1}{2\pi}\sum_{n=- \infty}^{\infty}{\int_{-L}^{L}f_L(t)e^{-i\omega_nt}dt}e^{i\omega_nx}(\omega_n – \omega_{n-1})$$

Lを∞に近付けると、

$$f(x) = \frac{1}{2\pi}\int_{- \infty}^{\infty}{\int_{- \infty}^{\infty}f(t)e^{-i\omega t}dt}e^{i\omega x}d\omega$$

この時、フーリエ変換は、次のようになる。

$$F(\omega) = \int_{- \infty}^{\infty}f(x)e^{-i \omega x}dx$$

|F(ω)|は振幅となり、-iωxは角周波数となる。これにより、連続スペクトルが得られる。

機能的等価物の探索:ウェーブレット変換

時間フーリエ変換は、短い時間間隔で区別された波形に対するフーリエ変換である。この方法は、短い時間内であれば、波形の性質は変異していないはずだという前提に基づいている。それ故に短時間フーリエ変換であれば、文字列や文章のような系列データを対象とした場合であっても、系列的に変化するベクトルの情報からスペクトルを抽出することも可能になる。

ハイゼンベルクの不確定性関係

しかしこの方法では、ヴェルナー・カール・ハイゼンベルクが定式化した「不確定性関係(Unbestimmtheitsrelationen; Uncertainty relations)」、あるいは俗に言う「不確定性原理(Uncertainty principle)」の制約に抵触することになる。と言うのも、短時間フーリエ変換による時間周波数解析においては、時間周波数の間に不確定性のトレードオフが生じているためである。

不確定性関係は、粒子の位置と速度の両方を同時に完全な正確性を以って決定することが不可能であることを示している。無論これらの量のいずれか一方を必要に応じて正確に測定することは可能である。しかし、一方を正確にすればするほど、他方の不確定度は高まる。より厳密に言えば、座標$$x$$とそれに共役な運動量$$P_x$$は、同時にその不確定性を任意に小さくした値$$x’$$と$$P_x’$$を取ることができない。これらの不確定性をそれぞれ$$\Delta x$$と$$\Delta P_x$$と表すならば、次の不等式が成立する。

$$\Delta x \Delta P_x \geqq \frac{h}{4 \pi}$$

ここでいうhはプランク定数(Planck constant)に他ならない。すなわち、

$$h = 6.62607004 × 10^{-34} m^2 kg / s$$となる。この値は非常に小さいために、我々の多くの日常生活の経験には何の影響も及ぼさないように思える。例えばミサイルの位置と速度に対する観測においては、如何にサイバネティクス的に緻密な弾道計算においても、全く問題とはならない。

不確定性関係は、正準共役関係にある一対の力学変数に対してのみ適用される。互いに相補的に結び付けられていない変数間ではこの制約は成立しないということである。

この不確定性関係において特筆すべきなのは、ある系を観測する際には、観測装置とその系との間でエネルギー運動量を交換する必要があるということである。この交換は、対象それ自体の観測直前の性質を変異させる。その結果、これらの性質の測定の正確性は喪失するのである。例えば顕微鏡による観測では、粒子を観測するために、対象に光子を当てることになる。そのために対象の運動量は不確定になる。

時間フーリエ変換を用いた時間周波数解析においては、時間周波数の間に不確定性関係が伴う。一方で時間幅を短くすれば、周波数情報の不確定性が増大する。だが他方で周波数を細分化して観測しようとすれば、時間幅を大きく取らなければならなくなる。微細時間幅の設定と周波数の細分化は両立しないのである。

短時間フーリエ変換とウェーブレット変換の差異

この関連から短時間フーリエ変換機能的な代替案として挙げられるのは、「ウェーブレット変換(Wavelet transformation)」である。ウェーブレット変換もまた周波数解析の方法の一つである。短時間フーリエ変換に対するウェーブレット変換差異は、まず基底関数に「ウェーブレット関数(Wavelet function)」を利用している点である。フーリエ変換では周波数特性を抽出する際に時間領域の情報を喪失させてしまうのに対して、ウェーブレット変換はこのウェーブレット関数に関わる「スケール(scale)」や「位置(position)」を変異させることによって、時間領域に対する柔軟な解析を可能にする。

ウェーブレット変換は、時間分解能と周波数分解能の区別の導入を可能にすることで、不確定性関係を解消している。ウェーブレット変換は、解析対象の周波数に応じて、時間分解能と周波数分解能のどちらを優先するかを選択することを可能にしている。またウェーブレット変換は、分解する波形の抽象化も可能にしている。短時間フーリエ変換では特定の時間間隔で区別された波形を様々な周波数の正弦波の和に分解しているのに対して、ウェーブレット変換では任意の波形の和に分解することができるのである。

ウェーブレットの有限エネルギーとアドミッシブル条件

ある関数ウェーブレットとして設定するためには、幾つかの条件を満たす必要がある。一つは、ウェーブレット有限エネルギーを持たなければならないということで、もう一つはアドミッシブル条件(Admissibility condition)を満たすということである。

ウェーブレットは以下のように有限エネルギーを持たなければならない。

$$E = \int_{-\infty}^{\infty} |\psi (t)|^2 dt < \infty$$ ここでEは、ウェーブレット振幅の二乗の積分に等しい関数エネルギー意味する。|・|は、振幅を与えるいわゆる「絶対値作用素(modulus operator)」を表現している。もし$$\psi (t)$$が複素関数であれば、振幅は実部と虚部の双方を利用して表現されることになる。

$$\psi(t)$$のフーリエ変換後の結果を$$\hat{\psi}(f)$$とするなら、

$$\hat{\psi}(f) = \int_{-\infty}^{\infty} \psi (t) e^{{-i(2 \pi f)}^t} dt$$

この時、次の条件を満たしていなければならない。

$$C_g = \int_0^{\infty}\frac{|\hat{\psi}(f)|^2}{f}df < \infty$$ この条件を特に「アドミッシブル条件(Admissibility condition)」という。$$C_g$$はアドミッシブル定数(admissibility constant)と呼ぶ。この値は選択したウェーブレットに依存する。この条件が意味しているのは、$$\hat{\psi (0)} = 0$$である。つまりウェーブレットがゼロの周波数成分を持たないか、あるいは$$\psi (t)$$の平均値がゼロであるということである。

アドミッシブル条件を満たしているウェーブレットは、バンドパスフィルタ(bandpass filter)として機能する。そのためこの条件が意味しているのは、単に有限周波数領域における信号成分のみを通過させるということだけである。あえて別の言い方をするなら、ウェーブレットエネルギースペクトルによって特徴付けられた信号成分のみを通過させるということである。

ウェーブレットを解析する場合、ウェーブレット構成している周波数範囲と特徴を示しているエネルギースペクトルへの観点が必要になる。エネルギースペクトルは、ウェーブレット周波数に対するフーリエ変換振幅の二乗をプロットすることで得られる。例えばメキシカンハットウェーブレットである$$\psi (t) = (1 – t^2)e^{\frac{-t^2}{2}}$$のフーリエ変換によって得られるエネルギースペクトルは、次のようになる。

$$E_F(f) = |\hat{\psi} (f)|^2 = 32 \pi ^5f^4e^{-4 \pi ^2 f^2}$$

ここでのFはフーリエ変換スペクトルを表す。メキシカンハットウェーブレットは実関数であるため、フーリエ変換スペクトルは原点において左右対称となる。エネルギースペクトルのピーク(peak)は、次の周波数で現われる。

$$f_p = \pm \frac{\sqrt{2}}{2 \pi}$$

またエネルギースペクトルの二次のモーメントは、エネルギースペクトルの通過帯域(passband)の中心(Center)を定義するために、以下のように計算される。

$$f_c = \sqrt{\frac{\int_0^{\infty}f^2|\hat{\psi} (f)|^2 df}{\int_0^{\infty}|\hat{\psi}(f)|2 df}}$$

この値は、縦軸のエネルギースペクトルの標準偏差と等価となる。メキシカンハットマザーウェーブレットにおいては、$$f_c = \frac{\sqrt{\frac{5}{2}}}{2 \pi} \simeq 0.251 Hz$$となる。

フーリエ変換を利用して算出した周波数スペクトルウェーブレット変換を利用して算出した周波数スペクトルを関連付けるためには、上記のようなマザーウェーブレット特徴周波数が必要になる。マザーウェーブレットによる特徴周波数変異を、マザーウェーブレット拡張パラメタ(dilation parameter)を通じた伸縮として形式化させるためである。

こうしてエネルギースペクトルへの観点を持つと、ウェーブレットの第一の条件であった有限エネルギーの性質も確認することができる。実際、メキシカンハットウェーブレットの総エネルギー有限となっている。

$$E = \int_{-\infty}^{\infty}|\psi (t) |^2dt = \int_{-\infty}^{\infty}\{(1 – t^2)e^{-t^2/2}\}^2dt = \frac{3}{4}\sqrt{\pi}$$

関数エネルギーも、そのエネルギースペクトルの領域で与えられる。メキシカンハットウェーブレットエネルギースペクトルは、次のようになる。

$$E = \int_{-\infty}^{\infty}|\psi (f)|^2df = \int_{-\infty}^{\infty}32 \pi^5f^4e^{-4 \pi^2f^2}df = \frac{3}{4}\sqrt{\pi}$$

したがって、パーセバルの定理より、

$$\int_{-\infty}^{\infty}|\psi(t)|^2dt = \int_{-\infty}^{\infty}|\hat{\psi}(f)|^2df$$

数学的な顕微鏡としてのウェーブレット変換

ウェーブレット変換手続きがその変換の形式としてのマザーウェーブレットを選択するところから始まると見立てた場合、マザーウェーブレットウェーブレット変換で利用するということが如何にして可能になるのかという問題を設定することが可能になる。

主導的差異として導入されるのは、「拡張パラメタ(dilation parameter)」と「位置パラメタ(location parameter)」の区別である。この区別が導入されることによって、ウェーブレットは伸張と移動を可能にする。前者をa、後者をbとするなら、メキシカンハットウェーブレットである$$\psi (t) = (1 – t^2)e^{\frac{-t^2}{2}}$$をマザーウェーブレット形式とした場合、伸縮と移動を可能にしたウェーブレット形式は次のようになる。

$$\psi \left(\frac{t-b}{a}\right) = \left\{1 – (\frac{t-b}{a})^2\right\}e^{-\frac{1}{2}(\frac{t-b}{a})^2}$$

ここで、aに1を、bに0を、それぞれ代入すると、元々のマザーウェーブレットが得られる。

パラメタaとbを変異させることで変換する対象となる信号を$$x(t)$$とするなら、連続信号のウェーブレット変換(wavelet transform)は次のようになる。

$$T(a, b) = w(a)\int_{-\infty}^{\infty}x(t)\psi^{*}\left(\frac{t-b}{a}\right)dt$$

ここで、$$w(a)$$は重みのユーザー定義関数意味する。一般的には、エネルギー保存の観点から、$$w(a) = \frac{1}{\sqrt{a}}$$に固定される。これは、どのようなスケールウェーブレットに対しても同一のエネルギーを想定するということである。

$$\psi^{*}$$は、ウェーブレットが変換時に複素共役になることを示している。メキシカンハットウェーブレットを想定する場合は実関数となるため、複素共役の可能性は度外視しても構わない。だが複素ウェーブレットを利用する場合には、この可能性が肝となる場合もある。

この連続信号のウェーブレット変換表現しているのは、伸縮と平行移動を可能にした形式としてのマザーウェーブレットと変換対象となる信号の関連である。ここではウェーブレットと信号の積が信号の範囲で畳み込み積分されている。

パラメタbが観察する時系列上の時点であるのなら、パラメタaはbの時点における信号の大きさに対応している。局在波形となる形式としてのマザーウェーブレットを準備すれば、この二つのパラメタで制御することによって、観察対象となる信号を観察し易い形式に変換することが可能になる。ウェーブレット変換は、観察対象となる信号の細部を知覚可能にする「数学的な顕微鏡(mathematical microscope)」として機能する。

逆ウェーブレット変換

フーリエ変換に逆フーリエ変換があるように、ウェーブレット変換にも「逆ウェーブレット変換(inverse wavelet transform)」がある。それは拡張パラメタと位置パラメタの双方において積分することで、原信号のウェーブレット変換からその原信号を復元するために、次のように定義される。

$$x(t) = \frac{1}{C_g}\int_{-\infty}^{\infty}\int_{0}^{\infty}T(a, b)\psi_{a,b}(t)\frac{dadb}{a^2}$$

逆ウェーブレット変換の場合は、ウェーブレット変換の場合とは異なって、共役複素数でなくてもウェーブレット関数を利用することができる。

全てのaではなく、ある範囲にaを限定した場合、この逆ウェーブレット変換は特定範囲における積分となる。この場合、ウェーブレット変換された信号に対する逆ウェーブレット変換は、原信号のフィルタリングとして機能することになる。この特定範囲を$$a^{*} < a < \infty$$に限定するなら、逆ウェーブレット変換による原信号の再構成は、次のようになる。

$$x(t) = \frac{1}{C_g}\int_{-\infty}^{\infty}\int_{a^{*}}^{\infty}T(a, b)\psi_{a,b}(t)\frac{dadb}{a^2}$$

この時aのパラメタはカットオフスケールとして機能する。再構成された信号の中の高周波ノイズの除去は、このカットオフスケールが増加するに連れて明確化する。この意味逆ウェーブレット変換によるノイズフィルタリングは、スケール依存の閾値法のフィルタリング方法の一種となる。

ノイズフィルタリングとしての逆ウェーブレット変換において、ノイズ成分と信号の特徴区別する方法として採用されるのは、「ウェーブレット変換絶対値最大化(wavelet transform modulus maxima)」である。この方法では、それぞれの信号の特徴をその絶対値の最大プロットの中で「特定(identified)」していく。絶対値最大となるプロットによって、変換した値の重要な情報をコンパクトに纏め上げることが可能になる。そして、最大値の水準を大きい側から小さい側へと、aのスケールを下げながら遡及していけば、高周波ノイズ成分から区別されるべき信号の重要な特徴に対応する高周波情報を抽出することもできるようになる。この点から観れば、カルマンフィルタのように、状態空間モデルの設計を前提とした逐次学習によるノイズフィルタリングとはアルゴリズム的な差異が際立っている。また、分析の手続きも全く異なる手順となるであろう。

フーリエエネルギースペクトルとウェーブレットエネルギースペクトルの差異

信号x(t)に含まれている総エネルギーは、その信号の振幅の二乗積分として定義できる。

$$E = \int_{-\infty}^{\infty}|x(t)|^2dt = ||x(t)||^2$$

この定義が指し示しているのは、信号は有限エネルギーを持たなければならないという条件である。

一方、ある拡張パラメタaと位置パラメタbの信号エネルギーの相対値は、二次元ウェーブレットエネルギー密度関数によって与えられている。

$$E(a, b) = |T(a, b)|^2$$

このE(a, b)がいわゆる「スペクトログラム(Spectrogram)」となる。実際、このエネルギー密度は短時間フーリエ変換におけるそれと類似している。このスペクトログラムは、アドミッシブル定数を用いて信号の総エネルギーを回復するために、aとbにおいて積分されることで得られる。

$$E = \frac{1}{C_g}\int_{-\infty}^{\infty}|T(a, b)|^2\frac{da}{a^2}db$$

ウェーブレットとの関連から得られるスペクトログラムは、信号のエネルギーに観られる主要な特徴スケールや位置との関連から抽出することを可能にする。特定の拡張パラメタaにおける信号の総エネルギーに対する相対値は、スケール依存のエネルギー分布によって設定できる。

$$E(a) = \frac{1}{C_g}\int_{-\infty}^{\infty}|T(a, b)|^2db$$

E(a)のピーク(peak)を取れば、当該信号がどのスケールで主要なエネルギーを有しているのかを特定できる。

しかしこの表現では、同一信号のフーリエエネルギースペクトルとの比較可能性が担保されない。そこでフーリエエネルギースペクトルを$$E_F(f)$$とし、スケール依存のウェーブレットエネルギースペクトルを単に$$E(a)$$としたまま、周波数依存のウェーブレットエネルギースペクトルを$$E_W(f)$$とする。スケール依存から周波数依存へと変換するためには、ウェーブレットスケールaを特徴周波数に変換する必要がある。その際、周波数の候補として挙げられるのは、ウェーブレットパワースペクトルの通過帯域の中心や、スペクトルのピーク周波数、あるいはマザーウェーブレットの代表的な周波数である。尤も、広く利用されているのは、ウェーブレットパワースペクトルの通過帯域の中心となる周波数である。この通過帯域周波数を利用した任意のスケールaのウェーブレットの固有周波数は、$$f = \frac{f_c}{a}$$である。$$f_c$$はマザーウェーブレットの通過帯域中心周波数となるスケーリング定数(scaling constant)である。またfは、スケールaにおけるウェーブレット特徴周波数となる。

メキシカンハットウェーブレットを前提とすれば、$$f_c = \frac{\sqrt{\frac{5}{2}}}{2 \pi} \simeq -.251$$である。したがって、$$f = \frac{0.251}{a}$$となる。周期pは$$p = \frac{1}{f}$$であるため、正弦波の形式でのウェーブレット変換においては、ピークがこの周期で現われる。このfを利用すれば、スケール依存のエネルギーを通過帯域周波数と関連付けることが可能になる。

$$E = \int_{0}^{\infty}E(a)\frac{da}{a^2}$$

関数間の関係として、$$\frac{da}{a^2} = \frac{-df}{f_c}$$が得られるため、負の符号を除去するべく、積分区間を置換すれば、$$E = \int_{0}^{\infty}E_W(f) df$$となる。

$$f = \frac{f_c}{a}$$で、$$T(f, b) = T(a, b)$$と定義するなら、$$E = \frac{1}{C_Gf_c}\int_{-\infty}^{\infty}\int_{0}^{\infty}|T(f, b)|^2dfdb$$が信号における総エネルギーを表す。$$E(f, b) = \frac{(|T(f, b)|^2)}{(C_ff_c)}$$で定義される時間周波数平面でのエネルギー密度が、信号の総エネルギーと等価であることもわかる。

$$E = \int_{-\infty}^{\infty}\int_{0}^{\infty}E(f, b)dfdb$$

このエネルギー密度は短時間フーリエ変換におけるスペクトルエネルギー密度と比較可能である。スペクトログラム$$E(a, b)$$の時間スケール表現スケール依存のエネルギー分布である$$E(a)$$は、それぞれ信号のエネルギーに比例した量ではない。これに対して、それぞれの時間周波数の別様の表現である$$E(f, b)$$や$$E_W(f)$$は、信号のエネルギーに比例した量を持つ。言い換えれば、これらの表現ならば、エネルギーと論理的に等価な量を持つことができるということである。

しかしながら同時に注意しなければならないのは、$$E(a, b)$$や$$E(a)$$のピークが、$$E(f, b)$$や$$E(f)$$のピークがそうであるように、信号のエネルギーが最も集中している部分に対応しているという点である。それ故にウェーブレットスケールに関連したエネルギー分布を決定するためには、スペクトログラムスケール依存のエネルギー分布の双方を利用することが可能になる。

無限に続く信号の総エネルギー無限である。しかし信号の観察者は、観察する信号と観察しない信号という、有限区別を導入する。これにより実験や観測の対象となる信号が有する総エネルギーは、有限としか認識できなくなる。実験や観測においては、何らかの統計的な性質が一定となる程度の長さであれば、それで十分なのだ。こうした有限の信号を特徴付けるために参照されるのは、パワースペクトルである。無論パワースペクトルは、時間区分で分割された信号のエネルギースペクトル以外の何物でもない。パワースペクトルの面積は、信号の単位時間ごとの平均エネルギーと見做せる。

これを前提とすれば、フーリエエネルギースペクトルウェーブレットエネルギースペクトル区別は、次のように、長さ$$\tau$$の信号におけるフーリエパワースペクトルウェーブレットパワースペクトル区別によって置換することができる。

$$P_F(f) = \frac{1}{\tau}E_F(f)$$

$$P_W(f) = \frac{1}{\tau}E_W(f) = \frac{1}{\tau f_cC_g}\int_0^{\tau}|T(f, b)|^2db$$

ウェーブレットパワースペクトルはフーリエパワースペクトルに比して不鮮明な周波数分布を示す場合がある。しかしウェーブレットスペクトルに関しては、ウェーブレットそれ自体の形式こそが信号の解析で重要なパラメタとして機能する。そのためウェーブレットスペクトルは、単なるフーリエスペクトルの劣化版という訳ではない。ウェーブレットの中には、信号に特徴的な性質とより高い相関を有した形式もある。そのため、ウェーブレットパワースペクトルは、当該信号の特徴抽出とその認識において、発見探索的な機能を提供している。

形式としての複素ウェーブレット

複素ウェーブレットは実部と虚部を持つウェーブレットである。あるウェーブレット複素ウェーブレットに変換するには、フーリエ変換が用いられる。複素ウェーブレットは、フーリエ領域において、負の周波数成分をゼロにした上で逆フーリエ変換することで得られる。そのため、メキシカンハットウェーブレットのような様々なウェーブレットから複素ウェーブレットを得ることもできる。

一般的に利用されている複素ウェーブレットは、モルレーウェーブレット(Morlet wavelet)である。それは次のように定義される。

$$\psi (t) = \pi ^{-\frac{1}{4}}\left(e^{i2\pi f_0t}-e^{-\frac{(2\pi f_0)^2}{2}}\right)e^{-\frac{t^2}{2}}$$

この$$f_0$$はマザーウェーブレットの中心周波数意味する。括弧で括られている中の第二項は、第一項の複素正弦波のゼロではない平均値を調整するための修正項として導入されている。実際この項は、$$f_0 \gg 0$$の場合には無視できる。この時モルレーウェーブレットは次のようになる。

$$\psi (t) = \frac{1}{\pi^{\frac{1}{4}}}e^{i2\pi f_0t}e^{-\frac{t^2}{2}}$$

ここで、$$\frac{1}{\pi^{\frac{1}{4}}}$$はウェーブレットが1に大きさを持つための正規化定数として機能する。また$$e^{-\frac{t^2}{2}}$$はガウスの釣鐘型の曲線を意味する。そして複素正弦波は単に$$e^{i2\pi f_0t}$$となる。このようにガウス曲線と複素正弦波を区別すれば明らかなように、マザーウェーブレットは言わば複素波形をガウス関数の包経線の内部に「閉じ込めている」ような形式を示している。だからその標準偏差も1となっている。

尤もこの単純化された形式としての複素ウェーブレットは、アドミッシブル条件を満たしていない。つまり平均値が非ゼロとなるウェーブレットではないのである。しかしながら実用上は、$$f_0 \gg 0$$の場合にアドミッシブル条件が誤差最小で成立するため、マザーウェーブレットとして機能的に利用することが可能になる。

尚、上述したガウス関数との関連は、モルレーウェーブレットフーリエ変換結果によってより浮き彫りとなる。

$$\hat{ \psi }(t) = \pi^{\frac{1}{4}}\sqrt{2}e^{-\frac{1}{2}(2\pi f-2 \pi f_0)^2}$$

これは$$f_0$$だけ周波数軸上で動かしたガウス関数形式である。

ウェーブレットの場合と同様に、複素ウェーブレットの場合も、こうしたフーリエ変換によって得られた振幅の二乗によって、エネルギースペクトルを得ることもできる。

$$|\hat{ \psi }(f)|^2 = 2\pi^{\frac{1}{2}}e^{-(2\pi f – 2\pi f_0)^2}$$

以上のような複素ウェーブレットマザーウェーブレットとして利用するには、ウェーブレットの場合と同じように、拡張パラメタaと位置パラメタbの区別を導入することになる。

$$\psi \left(\frac{t-b}{a}\right) = \frac{1}{\pi^{\frac{1}{4}}}e^{i2 \pi f_0\left(\frac{(t-b)}{a}\right)}e^{-\frac{1}{2}\left(\frac{(t-b)}{a}\right)^2}$$

機能的等価物の探索:離散ウェーブレット変換

連続時間信号x(t)のウェーブレット変換において、スケールa、位置bにおけるウェーブレット関数は次のようになる。

$$\psi_{a,b}(t) = \frac{1}{\sqrt{a}}\psi \left(\frac{t-b}{a}\right)$$

離散ウェーブレット変換(discrete wavelet transform: DWT)は、このパラメタaとbを離散的にサンプリングした場合に適用される。この場合、スケールaは対数的に離散化され、この離散化されたaと位置bの間に置かれるステップの大きさを順次リンクする方法が採用される。この離散化を前提としたウェーブレット関数は次のように再記述できる。

$$\psi_{m, n}(t) = \frac{1}{\sqrt{a_0^m}}\psi \left(\frac{t-nb_0a_0^m}{a_0^m}\right)$$

整数mとnは、ウェーブレット拡張と平行移動をそれぞれ調節するパラメタである。これらのパラメタは、全ての整数の数号に含まれている。$$a_0$$は拡張ステップを指定する1よりも大きな値を持つ固定パラメタである。一方$$b_0$$は位置パラメタであって、必ず0よりも大きくなければならない。また$$\Delta b = b_0a_0^m$$は$$a_0^m$$に正比例する。

以上を前提とすれば、離散ウェーブレット関数を利用した連続時間信号x(t)のウェーブレット変換は、次のように再記述できる。

$$T_{m, n} = \int_{-\infty}^{\infty}x(t) = \frac{1}{a_0^{\frac{m}{2}}}\psi (a_0^{-m}t – nb_0) dt$$

離散ウェーブレット変換では、この値を特に「ウェーブレット係数(wavelet coefficient)」や「詳細係数(detail coefficient)」と呼ぶ。上記の定式化からも明らかなように、この係数は、添え字mとnにおけるスケール-位置の格子(scale-location grid)となる。しかし離散ウェーブレット係数によって格子上の区別を導入したとしても、その区別が如何に「良い」のか、あるいは如何に有用なのかがわからない。そこで離散ウェーブレットの性質を研究するための理論プログラムである「ウェーブレットフレーム理論(wavelet frame theory)」が導入されることになる。

ウェーブレットフレーム理論は、離散ウェーブレットの定量的な評価を可能にする理論プログラムである。ここでいうウェーブレットフレームは、連続ウェーブレット変換時間スケールのパラメタを離散的にサンプリングすることで構築される。フレームを構成するウェーブレット関数の族(Family)は、以下のように、算出されたウェーブレット係数エネルギーが原信号のエネルギーによって有界な範囲で確定的に制御される。

$$AE \leq \sum_{m=-\infty}^{\infty}\sum_{n=-\infty}^{\infty}|T_{m,n}|^2 \leq BE$$

ここでいうAとBは「フレーム境界(frame bounds)」を意味する。これらの値は解析時に選択されたaとbの値とウェーブレット関数に依存する。一方Eは原信号のエネルギーである。すなわち、

$$E = \int_{-\infty}^{\infty}|x(t)|^2dt = ||x(t)||^2$$

そのためここでの連続信号x(t)も有限エネルギーを持たなければならないという条件で想定されている。

もしフレーム境界を成すAとBが同値である場合、有界な範囲は狭まれることになるため、このフレームは緊密なフレーム(tight frame)となる。とはいえ範囲が限りなく限定されるために、次のような無限級数展開によって、単純な再構成公式が得られる。

$$x(t) = \frac{1}{A}\sum_{m=-\infty}^{\infty}\sum_{n=-\infty}^{\infty}T_{m, n}\psi_{m,n}(t)$$

A = B > 1の場合、緊密なフレームは冗長となる。この意味でAとBは冗長性の定量的な指標として機能する。しかしA = B = 1の場合は、フレームによって規定されたウェーブレットの族は正規直交基底(orthonormal basis)を成す。AとBが一致しない場合でも、再構成公式は次のように記述できる。

$$x'(t) = \frac{2}{A + B}\sum_{m=-\infty}^{\infty}\sum_{n=-\infty}^{\infty}T_{m, n}\psi_{m,n}(t)$$

故にx(t)とx'(t)の再構成誤差は、フレーム境界の値に依存することになる。だがこの再構成誤差は、AとBの比が1に近付けば実用上無害として処理することもできる。例えばメキシカンハットウェーブレット関数の場合は、以下の条件を満たすならばほぼ緊密なフレームになると見做されている。

$$a_0 = 2^{\frac{1}{v}}, v \gg 2, b_0 \leq 0.5$$

例えばvに2を代入した場合、$$a_0 = 2^{\frac{1}{2}}, b_0 = 0.5$$となるので、$$A = 13.639, B = 13.673$$となる。AとBの比は1.002となる。この比が1に近付くほど緊密なフレームとなる。そのためこのスケールと位置のパラメタを利用したメキシカンハットウェーブレット変換の離散化は、結果的に信号を冗長化して表現する計算となる。x(t)とx'(t)の再構成誤差は限りなく小さくなる。

離散二進格子ウェーブレットにおける正規直交ウェーブレット基底の構築機能

離散ウェーブレットのパラメタaとbには、一般的にそれぞれ2と1が選ばれる。2のべき乗の対数的なスケール化を拡張と平行移動の双方のステップに利用する方法は、「二進格子配列(dyadic grid arrangement)」と呼ばれている。二進格子という形式的な配列化は、実用上効果的な離散化を可能にする。その機能正規直交ウェーブレット基底の構築と言える。

二進ウェーブレット関数は次のようになる。

$$\psi_{m,m}(t) = \frac{1}{\sqrt{2^m}}\psi \left(\frac{t-n2^m}{2^m}\right)$$

よりコンパクトに再記述するなら、次のようになる。

$$\psi_{m,n}(t) = 2^{-frac{m}{2}}\psi (2^{-m}t-n)$$

これは一般的な離散ウェーブレット関数において、$$a_0 = 2, b_0 = 1$$の代入を施した形式となる。以下では表記を単純化するために、二進ウェーブレット関数のみを前提に離散ウェーブレット関数を記述していく。

離散二進格子ウェーブレットは通常正規直交となるように設計される。これらのウェーブレットは互いに直交し、尚且つ単位エネルギーを持つように正規化される。

$$
\int_{-\infty}^{\infty}\psi_{m,n}(t)\psi_{m’, n’}(t)dt=\begin{cases}
1 & m = m’ \ and \ n = n’\\
0 & otherwise\\
\end{cases}
$$

言い換えれば、それぞれのウェーブレットと同一の二進系における他のウェーブレットtの内積は0となる。互いに拡張あるいは平行移動したウェーブレット同士の内積が0になるということである。そのためこの定式は、ウェーブレット係数に記録された情報は他では反復され得ないということを保証すると共に、原信号の完全な再構成が冗長性を排除した状態で可能になるということを指し示している。

正規直交ウェーブレットが単位エネルギーを有するように正規化されているのも、理由の無いことではない。m = m’かつn = n’の場合に左辺の積分が1と等価なウェーブレット関数エネルギーとなることからも容易に理解できるであろう。正規直交ウェーブレットはフレーム境界がA = B = 1となる場合のウェーブレットである。このウェーブレットに対応する族は、正規直交基底となる。ここでいう基底は信号x(t)を規定するベクトルの集合に他ならない。正規直交基底は信号x(t)を規定するのみならず、互いに直交していることを表す構成要素のベクトルである。

このような二進格子ウェーブレットを前提とした場合、離散ウェーブレット変換は次のようになる。

$$T_{m,n} = \int_{-\infty}^{\infty}x(t)\psi_{m,n}(t)dt$$

正規直交基底として$$\psi_{m,n}(t)$$を選ぶことで、原信号は「逆離散ウェーブレット変換(inverse discrete wavelet transform)」によって、次のように記述できる。

$$x(t) = \sum_{m=-\infty}^{\infty}\sum_{n=-\infty}^{\infty}T_{m,n} \psi_{m,n}(t)$$

このウェーブレット係数を用いた再構成形式は、フレーム境界であるAとBが同値である緊密なフレームにおける無限級数展開を用いた再構成公式と構造的に類似している。それもそのはずで、二進格子ウェーブレットを前提とした逆離散ウェーブレット変換で得られる再構成形式は、$$x(t) = \frac{1}{A}\sum_{m=-\infty}^{\infty}\sum_{n=-\infty}^{\infty}T_{m,n} \psi_{m,n}(t)$$において、A = 1の場合であるためだ。

ウェーブレットフレーム理論によれば、$$AE \leq \sum_{m=-\infty}^{\infty}\sum_{n=-\infty}^{\infty}|T_{m,n}|^2 \leq BE$$である。二進格子ウェーブレットを前提とした場合はA = B かつ A = 1であるため、信号エネルギーは次のように単純化できる。

$$\int_{-\infty}^{\infty}|x(t)|^2dt = \sum_{m=-\infty}^{\infty}\sum_{-\infty}^{\infty}|T_{m,n}|^2$$

この離散ウェーブレット変換は、連続ウェーブレット変換の離散近似からは強調して区別されなければならない。連続ウェーブレット変換は、実装水準問題から、スケールaと位置bの離散格子状で計算された積分結果の離散近似、つまり総和の計算を必要としてしまう。逆連続ウェーブレット変換もまた同様の理由から離散近似を必要とする。離散近似を前提とした場合、再構成誤差は離散化の解像度に依存する。一方離散ウェーブレット変換と逆離散ウェーブレット変換方法では、積分計算は連続を前提としたまま進められる。それはスケールaと位置bの離散格子状のみで決定される。そしてウェーブレット係数を加算していくことによって、正確に原信号を再構成することが可能になる。

正規直交二進離散ウェーブレットにおけるスケーリング関数による多重解像度表現

正規直交二進離散ウェーブレットは「スケーリング関数(scaling function)」と関連する。スケーリング関数機能は、信号のスムージングであると考えられる。それはウェーブレット関数と同一の形式を有している。

$$\phi _{m,n}(t) = 2^{-\frac{m}{2}}\phi (2^{-m}t-n)$$

ウェーブレット関数の積分が0になるのと同じように、このスケーリング関数もまた次のような性質を有している。

$$\int_{-\infty}^{\infty}\phi _{0, 0}(t)dt = 1$$

mとnが共に0の場合、上記の関数は「ファザーウェーブレット(father wavelet)」と呼ばれる。スケーリング関数は自己自身の平行移動に関しては直交性を持つのに対して、自己自身の拡張については直交性を持たない。

スケーリング関数と信号の畳み込み積分を実行すると、次のような「近似係数(approximation coefficient)」を得る。

$$S_{m,n} = \int_{-\infty}^{\infty}x(t)\phi_{m,n}(t)dt$$

近似係数は$$2^{\frac{m}{2}}$$で割った連続信号の重み付け平均を表す。あるスケールmにおける近似係数は、そのスケールにおける信号の離散近似の集合となる。

離散近似は連続近似から区別されなければならない。連続近似は任意のスケールにおけるスケーリング関数近似係数を掛けた数列の和から生成される。

$$x_m(t) = \sum_{n=-\infty}^{\infty}S_{m,n}\phi_{m,n}(t)$$

この連続近似はmが0に近付くに連れてx(t)に近付く。

以上を前提とすると、原信号は近似係数ウェーブレット係数区別することができる。と言うのも任意のスケールを前提とした場合、マイナス無限大から当該スケールまでの間の信号の詳細(detail)と、当該スケールにおけるそれ自体の近似の和であるためだ。したがって、近似係数ウェーブレット係数を組み合わせた級数展開により、信号x(t)は次のように記述できる。

$$x(t) = \sum_{n=-\infty}^{\infty}S_{m_0, n}\phi_{m_0,n}(t) + \sum_{m=-\infty}^{m_0}\sum_{n=-\infty}^{\infty}T_{m,n}\psi _{m,n}(t)$$

ここでいう信号の詳細(detail)は、次のように定義できる。

$$d_m(t) = \sum_{n=-\infty}^{\infty}T_{m,n}\psi_{m,n}(t)$$

したがって上記の級数展開結果は次のように再記述できる。

$$x(t) = x_{m_0}(t) + \sum_{-\infty}^{m_0}d_m(t)$$

$$x_{m-1}(t) = x_m(t) + d_m(t)$$

これを前提とすれば、任意のスケールmにおける信号の詳細を同一スケールでの信号の近似に加算すれば、より小さいスケールm-1の、より詳細な解像度で信号の近似を得られることになる。これを特に「多重解像度表現(multiresolution representation)」と呼ぶ。

正規直交二進ウェーブレットにおけるスケーリング方程式の形式

正規直交二進ウェーブレットは「スケーリング方程式(scaling equation)」とも関連する。スケーリング方程式スケーリング関数をそれ自体で縮小して平行移動した形式となる。

$$\phi(t) = \sum_{k}^{}c_k\phi (2t-k)$$

2t-kは縮小を表す。時間軸に沿って、整数ステップだけ平行移動させることを意味する。これに掛け合わされている$$c_k$$は「スケーリング係数(scaling coefficient)」である。

このスケーリング方程式が言い表しているのは、あるスケールでのスケーリング関数が、数個の一段階細かいスケールスケーリング関数によって構成することが可能であるという点である。この二つのスケールにおける差分方程式を解くことで、スケーリング関数が得られる。単純化して、非ゼロなスケーリング係数有限長となるウェーブレットを想定する場合、スケーリング方程式の両辺を積分すると、スケーリング係数が次のような制約を満たさなければならないことが明らかとなる。

$$\sum_{k}^{}c_k = 2$$

直交系であることも加味するなら、次のように条件付けられる。

$$
\sum_{k}^{}c_kc_{k+2k’} =\begin{cases}
2 & k’ = 0 \\
0 & otherwise\\
\end{cases}
$$

したがってスケーリング関数の二乗和は2に等しい。そして同じ係数で順序を逆転し、符号を反転させた定式が、ウェーブレット方程式の差分を生成する機能を持つ。

$$\psi (t) = \sum_{k}^{}(-1)^kc_{1-k}\phi(2t-k)$$

かくしてウェーブレットとそれに対応するスケーリング関数の直交性が保証される。尤も、より単純化して、非ゼロなスケーリング関数有限調となるウェーブレットのみを想定するなら、ウェーブレット関数は次のように再記述できる。

$$\psi(t) = \sum_{k}^{}(-1)^kc_{N_k-1-k}\phi(2t-k)$$

スケーリング係数の個数が有限ではない場合は、この順序の入れ替えによる再記述は無効となる。この場合は上述したウェーブレット方程式の差分生成機能に立ち返る必要がある。

上述したスケーリング係数が$$c_0 = c_1 = 1$$となる場合、ハールウェーブレットという最も単純な形式となる正規直交ウェーブレットが得られる。

$$\phi(t) = \phi(2t) + \phi(2t-1)$$

このスケーリング係数は容易に計算できる。$$c_0 = c_1 = 1$$であり、かつ$$\sum_{k}^{}c_k = 2$$の条件を満たす必要があるために、$$c_0 + c_1 = 2$$となる。更に直交系を構築するために、$$c_0c_0 + c_1c_1 = 2$$となる。

ハールスケーリング方程式の解は、単一のブロックパルスとなる。

$$
\psi(t) =\begin{cases}
1 & 0 \leq t < 1 \\ 0 & elsewhere\\ \end{cases} $$

高速ウェーブレット変換のアルゴリズム設計とその機能

正規直交二進ウェーブレットにおける近似係数スケーリング関数、そしてスケーリング方程式を組み合わせると、「高速ウェーブレット変換(fast wavelet transform)」のアルゴリズムを確認することができる。このアルゴリズムは、後述するように、「分解アルゴリズム(decomposition algorithm)」と「再構成アルゴリズム(reconstruction algorithm)」に区別される。

正規直交二進ウェーブレットにおける近似係数は次のようにスケーリング関数と信号の畳み込み積分によって計算されるのであった。

$$S_{m, n} = \int_{-\infty}^{\infty}x(t)\phi_{m,n}(t)dt$$

したがって、スケールm+1における近似係数は次のようになる。

$$S_{m+1, n} = \int_{-\infty}^{\infty}x(t)\phi_{m+1,n}(t)dt$$

スケーリング関数は次のように記述できる。

$$\phi _{m,n}(t) = 2^{-\frac{m}{2}}\phi (2^{-m}t-n)$$

更にスケーリング方程式は次のようになる。

$$\phi(t) = \sum_{k}^{}c_k\phi (2t-k)$$

これらを組み合わせると、任意のスケールmについて、次の定式が成り立つ。

$$2^{-\frac{(m+1)}{2}}\phi\left(\frac{t}{2^{m+1}}-n\right) = 2^{-\frac{m}{2}}2^{-\frac{1}{2}}\sum_{k}^{}c_k\phi \left(\frac{2t}{2 \times 2^m} – 2n -k\right)$$

故に$$\phi_{m+1, n}(t) = \frac{1}{\sqrt{2}}\sum_{k}^{}c_k\phi_{m, 2n+k}(t)$$となる。

同様の操作から、ウェーブレット関数についても、次の定式が成り立つ。

$$\psi_{m+1, n}(t) = \frac{1}{\sqrt{2}}\sum_{k}^{}b_k\phi_{m, 2n+k}(t)$$

上記のスケーリング関数近似係数に代入すると、$$S_{m+1, n} = \int_{-\infty}^{\infty}x(t) \left\{\frac{1}{\sqrt{2}}\sum_{k}^{}c_k \phi_{m, 2n+k}(t) \right\}dt$$

$$S_{m+1, n} = \frac{1}{\sqrt{2}}\sum_{k}^{}c_k \left\{\int_{-\infty}^{\infty}x(t)\phi_{m, 2n+k}(t)dt \right\}$$

$$S_{m+1, n} = \frac{1}{\sqrt{2}}\sum_{k}^{}c_k S_{m, 2n+k}$$

$$S_{m+1, n} = \frac{1}{\sqrt{2}}\sum_{k}^{}c_{k-2n}S_{m,k} \tag{1}$$

したがって、スケールm+1における近似係数は、一つ前のスケールmのスケーリング係数を利用することが生成することが可能になることが明らかとなる。同様にウェーブレット係数に関しても、スケーリング係数$$b_k$$を利用することで、一つ前のスケール近似係数から計算することが可能になる。

$$T_{m+1,n} = \frac{1}{\sqrt{2}}\sum_{k}^{}b_kS_{m, 2n+k}$$

$$T_{m+1, n} = \frac{1}{\sqrt{2}}\sum_{k}^{}b_{k-2n}S_{m,k} \tag{2}$$

(1)と(2)の計算を繰り返し実行していくことにより、任意のスケールにおける近似係数がわかれば、そのスケールよりも大きい全てのスケールにおける近似係数ウェーブレット係数を算出することが可能になる。この機能を利用するなら、もはや根底にある連続信号x(t)が何であるのかを正確に知る必要は無くなる。ただ近似係数がわかっていれば良いのだ。

一連の繰り返しの計算を特に多重解像度表現の「分解アルゴリズム(decomposition algorithm)」という。(1)と(2)の計算観察すれば、双方とも入力値に対する「ハイパスフィルタ(highpass filter)」と「ローパスフィルタ(lowpass filter)」として機能していることがわかる。出力値はこれらのフィルタリング結果となる。

より具体的に観察すれば、ローパスフィルタとして機能している部分となるのは、$$\frac{1}{\sqrt{2}}c_k$$である。この形式は、低周波信号を通すことで、原信号を滑らかにする。一方、ハイパスフィルタとして機能している部分は、$$\frac{1}{\sqrt{2}}b_k$$である。これは信号の詳細に対応する高周波信号を通す。

スケールmにおける信号の詳細は$$d_m(t) = \sum_{n=-\infty}^{\infty}T_{m,n}\psi_{m,n}(t)$$であるため、$$x_{m-1}(t) = x_m(t) + d_m(t)$$となる。したがって、一つ前のスケーリング関数ウェーブレット関数を利用することで、次のように計算できる。

$$x_{m-1}(t) = \sum_{n}^{}S_{m,n}\phi_{m,n}(t) + \sum_{n}^{}T_{m,n}\psi_{m,n}(t)$$

$$x_{m-1}(t) = \sum_{n}^{}S_{m,n}\frac{1}{\sqrt{2}}\sum_{k}^{}c_k\phi_{m-1, 2n+k}(t) + \sum_{n}^{}T_{m,n}\frac{1}{\sqrt{2}}\sum_{k}^{}b_k\phi_{m-1, 2n+k}(t)$$

$$x_{m-1}(t) = \sum_{n}^{}S_{m,n}\frac{1}{\sqrt{2}}\sum_{k}^{}c_{k-2n}\phi_{m-1, k}(t) + \sum_{n}^{}T_{m,n}\frac{1}{\sqrt{2}}\sum_{k}^{}b_{k-2n}\phi_{m-1, k}(t) \tag{3}$$

一方、スケールm-1における近似係数による展開に準拠するなら、次のようにも計算できる。

$$x_{m-1}(t) = \sum_{n}^{}S_{m-1, n}\phi_{m-1, n}(t) \tag{4}$$

厳密に言えば、(3)におけるnと(4)におけるnは等価ではない。(3)のnはスケールmに対応するために、離散的な区別の間隔が$$2^m$$となる。(4)のnはスケールm-1に対応するために、離散的な区別の間隔が$$2^{m-1}$$となる。単に離散的に区別するといっても、その密度には2倍の差異がある。故にnは区別されなければならない。ここで(3)と(4)を等号で結ぶためにできる最も単純な代数操作となるのは、(3)におけるkとnを交換することである。こうして形式的な演算を進めると、$$S_{m-1, n}$$に関して、以下のような定式が得られる。

$$S_{m-1,n} = \frac{1}{\sqrt{2}}\sum_{k}^{}c_{n-2k}S_{m,k}+\frac{1}{\sqrt{2}}\sum_{k}^{}b_{n-2k}T_{m,k}$$

これを特に「再構成アルゴリズム(reconstruction algorithm)」と呼ぶ。

有限長離散信号に対する離散ウェーブレット変換の形式

連続信号x(t)の離散正規直交ウェーブレット変換は、連続信号が全てのスケールと位置におけるウェーブレット関数級数展開、あるいはスケーリング関数ウェーブレット関数の組み合わせに対する級数展開によって表現できることを言い表している。一方、整数間隔で区別される離散信号を前提とした場合、離散ウェーブレット変換における多重解像度問題設定の枠組みに合致させるために、離散信号はスケールm=0における信号近似係数として再記述されなければならない。

$$S_{0, n} = \int_{-\infty}^{\infty}x(t)\phi (t-n)dt$$

正規直交二進ウェーブレットを前提とした場合と同様に、これによりm=0より大きいスケールにおける一連の近似係数ウェーブレット係数を生成することが可能になる。

現実問題としては、離散信号は有限長Nである。Nは2の整数乗であるため、$$N= 2^M$$となる。故に観測可能なスケールの範囲は$$0 < m < M$$である。 連続信号x(t)は近似係数ウェーブレット係数の組み合わせに対する級数展開表現できるのであった。

$$x(t) = \sum_{n=-\infty}^{\infty}S_{m_0, n}\phi_{m_0,n}(t) + \sum_{m=-\infty}^{m_0}\sum_{n=-\infty}^{\infty}T_{m,n}\psi _{m,n}(t)$$

これにスケールm = 0とm = Mの双方を代入すると、スケールm = 0の信号近似は、以下のように、スケールMにおける滑らかな信号に信号の詳細を足し合わせた形式として記述できる。

$$\sum_{n=0}^{2^{M-m}-1}S_{0, n}\phi_{0,n}(t) = S_{M,n}\phi_{M,n}(t) + \sum_{m=1}^{M}\sum_{n=0}^{2^{M-m}-1}T_{m,n}\psi _{m,n}(t)$$

以上が、有限長の離散信号に対する離散ウェーブレット変換の基本的な形式となる。ただしこの形式は、観測する信号の区分を周期信号の1周期として仮定している。言い換えればこの形式では、信号の終端をその最初に戻って貼り付けることによる影響を受けることになる。信号が周期的ではない場合、この形式では信号の境界に人工的な特異点を造り出すことになる。結果的に境界付近のウェーブレット係数は大きくなる。

離散信号のウェーブレットパワースペクトル

離散ウェーブレット変換における分解アルゴリズムによって完全に分解された後で、それぞれのスケールの係数中に含まれるエネルギーは次のように与えられる。

$$E_m = \sum_{n=0}^{2^{M-m}-1}(T_{m,n})^2$$

スケール依存のエネルギーを利用すれば、ウェーブレットに基づいた信号のパワースペクトルを生み出すことができるようになる。そのためには、ウェーブレット拡張に反比例するような周波数の水準が必要になる。その一例となるのが、ウェーブレットパワースペクトルの通過帯域中心である。すると、信号に対するウェーブレットパワースペクトルが生成できるようになる。それは信号のフーリエパワースペクトルや連続ウェーブレットでのパワースペクトルと同様に比較可能となる。

これを前提とすれば、離散信号の総エネルギーは次のようになる。

$$E = \sum_{n=0}^{N-1}(S_{0,n})^2$$

これは全てのスケールウェーブレット係数と最後の近似係数$$S_{M,0}$$の二乗和となる$$E = (S_{M,0})^2 + \sum_{m=1}^M\sum_{n=0}^{2^{M-m}-1}(T_{m,n})^2$$と等価となる。

実際、多重解像度分解の全ての段階で、変換ベクトルの中に含まれるエネルギーは一定である。そのため、エネルギーの保存をより一般的に次のように記述することができる。

$$E = \sum_{i=0}^{N-1}(W_i^{(m)})^2$$

ここで、$$W_i^{(m)}$$は変換ベクトル$$W^{(m)}$$の個々の成分を意味する。m=0の場合、この定式は信号の成分エネルギーの総和に対応する。m=Mの場合は完全分解での係数にあるエネルギーの総和に対応する。

多重解像度アルゴリズムによる離散信号のウェーブレット分解

離散ウェーブレット変換における多重解像度アルゴリズムは、離散信号のウェーブレット分解も可能にする。これに準じて、入力信号の解像度で信号の近似成分と詳細成分を離散的に表現することも可能になる。

離散信号$$x_i$$は、有限の長さNを持つ。$$i = 0, 1, 2, …, N-1$$

離散時間間隔を$$\Delta t$$とするなら、離散時間信号は、$$x(t_i): i = 0, 1, 2, …, N-1$$となる。

信号のサンプリングは、抽出された信号に対して有限の解像度を与える。この連続信号の離散化は、サンプリング間隔が1に正規化された離散信号$$x_i$$への写像となっている。この場合、例えば信号の周波数計算する場合などには、$$\Delta t$$を思い出し、それを追加しなければならない。

頻繁に活用される方法として挙げられるのは、サンプリングされた実験信号をスケールm = 0での近似係数として直接離散的に入力してから多重解像度解析を実行するという方法である。しかしこうしてサンプリングされた時系列を直接使用するのは不当である。多重解像度アルゴリズムに入力される離散信号は、スケールm = 0における信号近似係数でなければならない。すなわち、$$S_{0,n} = \int_{-\infty}^{\infty}x(t) \psi (t-n)dt$$によって得られる近似係数を用いるべきなのである。尤も現実的にはx(t)がどうなっているのかを正確に知ることができない。近似係数はnの付近でのx(t)の重み付き平均なのであった。そのためもし信号の変化がこのスケールのサンプリング間隔で緩やかであるのならば、離散信号をこの近似係数として入力するのは不合理ではない。したがって、$$S_{0,n} = x_n$$となる。ただし、ここでいうスケールの添字はm=0である。また係数の位置添字nと信号の離散化の添字となるiは同一の範囲であり、また同値でもあるとする。

現実問題として、多重解像度解析を実行したところで、信号の連続的な近似$$x_m(t)$$と信号の詳細となる$$d_m(t)$$が構築されることはまず無い。信号をスケールm = 0における近似係数として入力する場合には、特にこのことが該当してしまう。代替案として選択されているのは、近似係数$$S_{m,n}$$とウェーブレット係数$$T_{m,n}$$のいずれにおいても、それぞれそれ自体の本来のスケール表現する策や、あるいは入力された信号のスケールでの信号の表現構成するといった策である。

双直交ウェーブレット

実数かつ対称なウェーブレットが必要になる場合、対称なウェーブレットを取得する方法となるのは、双直交ウェーブレットの二つの組み合わせを$$\psi_{m, n}$$と$$\hat{\psi}_{m, n}$$を構成することである。片方は信号の分解に利用する。もう片方はそれを再構成する場合に利用する。

信号の分解は次のようになる。

$$T_{m,n} = \int_{-\infty}^{\infty}x(t)\psi_{m,n}(t)dt$$

逆変換による再構成は次のようになる。

$$x(t) = \sum_{m=-\infty}^{\infty}\sum_{n=-\infty}^{\infty}T_{m,n}\hat{\psi}_{m,n}(t)$$

双直交ウェーブレットの二つの組み合わせは、次のように交換することもできる。

$$\widetilde{T}_{m,n} = \int_{-\infty}^{\infty}x(t)\hat{\psi}_{m,n}(t)dt$$

$$x(t) = \sum_{m=-\infty}^{\infty}\sum_{n=-\infty}^{\infty}\widetilde{T}_{m,n}\psi_{m,n}(t)$$

双直交ウェーブレットは次のように双直交条件を満たす。

$$\int_{-\infty}^{\infty}\psi_{m,n}(t)\hat{\psi}_{m’,n’}(t)dt =\begin{cases}
1 & if m = m’ and n = n’ \\
0 & otherwise\\
\end{cases}
$$

ウェーブレットパケット分解

離散ウェーブレット変換一般化すると、時間周波数平面をより柔軟に分轄する方法である「ウェーブレットパケット分解(Wavelet Packet Decomposition)」を導入することができる。ウェーブレットパケットウェーブレットの特定の線形結合を含意している。ウェーブレットパケット分解は、離散ウェーブレット変換に準じた多重解像度アルゴリズム類似した手順で実行される。多重解像度アルゴリズムウェーブレットパケット分解差異は、その分解区別再帰性にある。多重解像度アルゴリズムの場合、当の信号は近似係数ウェーブレット係数区別される。これに対してウェーブレットパケット分解の場合には、この区別された近似係数ウェーブレット係数が、更に分解されることによって、一種のツリー構造構成する。

ウェーブレット分解によって得られるツリー。V側が近似係数を、W側がウェーブレット係数ないし詳細係数を意味する。Ting, W., Guo-zheng, Y., Bang-hua, Y., & Hong, S. (2008). EEG feature extraction based on wavelet packet decomposition for brain computer interface. Measurement, 41(6), 618-625., p.619. より掲載。

ウェーブレット分解によって得られるツリー。V側が近似係数を、W側がウェーブレット係数ないし詳細係数を意味する。Ting, W., Guo-zheng, Y., Bang-hua, Y., & Hong, S. (2008). EEG feature extraction based on wavelet packet decomposition for brain computer interface. Measurement, 41(6), 618-625., p.619. より掲載。

離散ウェーブレット変換多重解像度アルゴリズムの各段階では、ウェーブレット係数再帰的な分解の対象にならない。一方、ウェーブレットパケット分解アルゴリズムでは、各段階の全ての係数が再帰的に分解される。そのため最終的には、それぞれN係数を有したM個の水準で構成されたウェーブレットパケット係数行列が生成される。

ウェーブレットパケット分解によるツリー。同じくV側が近似係数を、W側がウェーブレット係数ないし詳細係数を意味する。Ting, W., Guo-zheng, Y., Bang-hua, Y., & Hong, S. (2008). EEG feature extraction based on wavelet packet decomposition for brain computer interface. Measurement, 41(6), 618-625., p.620より掲載。

ウェーブレットパケット分解によるツリー。同じくV側が近似係数を、W側がウェーブレット係数ないし詳細係数を意味する。Ting, W., Guo-zheng, Y., Bang-hua, Y., & Hong, S. (2008). EEG feature extraction based on wavelet packet decomposition for brain computer interface. Measurement, 41(6), 618-625., p.620より掲載。

上図のように、ウェーブレットパケット分解は完全なウェーブレットパケットツリーを生成する。ここで$$U_{j,n}$$はスケールjにおけるn個のサブ空間意味すると共に、nは$$n = 0, 1, 2, …, 2j-1$$であるので、正規直交基底に照応する。すなわち、$$U_{j,k}^n = 2^{-\frac{j}{2}}u^n(2^{-j} – k)$$となる。ここでkはシフト因子(shift factor)となる。偶数と奇数の区別を導入するなら、nが偶数の場合には、$$U_{j, 0}^n(t) = \sum_{k}^{}h_0(k)u_{j-1, k}^i$$となり、nが奇数の場合には$$U_{j, 0}^n(t) = \sum_{k}^{}h_1(k)u_{j-1,k}^j$$となる。ただし、$$j, k \in Z, n = 0, 1, 2, …, 2^j-1, h_0(k), h_1(k)$$は「四倍ミラーフィルタ(quadruple mirror filters; QMF)」の組み合わせとなる。これは$$h_1(k) = (-1)^{1-k}h_0(1-k)$$を満たすスケールとは無関係である。スケールが十分確保されている時、$$f(t)(f(k \Delta t))$$のサンプリングの系列は、直接的に近似における$$U_0^0(d_0^0(k))$$の係数として利用される。jの水準とkのスケールにおけるウェーブレットパケット分解の係数は、四倍のウェーブレットパケット変換を前提とするなら、次のようになる。

$$d_j^n(k) = \sum_{m}^{}h_0(m-2k)d_{j-1}^{\frac{n}{2}}(m) (n \ is \ even)$$

$$d_j^n(k) = \sum_{m}^{}h_1(m-2k)d_{j-1}^{\frac{i-1}{2}}(m) (n \ is \ odd)$$

したがって、jの水準における分解時の係数は、j-1の水準によって抽出することが可能になる。この操作を再帰的に反復していけば、最終的には全ての水準における係数を抽出することができる。

ローパスフィルタとハイパスフィルタの再帰

以上のようなウェーブレットパケット分解の有用性は、ローパスフィルタハイパスフィルタ区別を再び導入することによって、明確化する。例えば上図の$$U_3^1(W_3)$$は、ローパスフィルタを2回通した後にハイパスフィルタを1回通した結果と見做すことができる。$$U_3^5$$は、ハイパスフィルタを1回、ローパスフィルタを1回、そしてもう一度ハイパスフィルタを通した結果と見做すことができる。つまりウェーブレットパケット分解機能は、ローパスフィルタハイパスフィルタのいずれか一方を任意の手順で再帰的に適用させることを可能にする点にある。

近似係数と詳細係数ないしウェーブレット係数区別で言い換えれば、離散ウェーブレット変換は、比較低周波な領域であれば、近似係数と詳細係数の区別の内部にこの区別そのものを再導入(re-entry)することを可能にする。だが比較高周波な領域では、この限りではない。これに対してウェーブレットパケット分解は、比較高周波な領域でもこの再導入を実現する。ウェーブレットパケット分解によって得られる完全なウェーブレットパケットツリーは、比較高周波な領域であっても、近似係数と詳細係数の区別の再導入を可能にしていることの表われなのである。

脱パラドックス化の形式としての情報量

しかしこう述べただけでは、ウェーブレットパケットツリー無限後退パラドックスを招くのではないかという意味論的な疑念が浮上してくる。ウェーブレットパケット分解方法では、この無限後退パラドックス情報量の観点から脱パラドックス化される。つまりウェーブレットパケットツリー複合性の縮減とその保存は、エントロピーによって形式化されるのである。

信号の観察者は、こうして区別されたj×kの行列から得られる種々のウェーブレットパケット係数を、信号を表現する特徴として抽出することが可能になる。

分解の各段階で、ウェーブレットパケット分解アルゴリズムは、時間周波数平面を一定の縦横比を有した矩形へと分割する。これらは分解が進むに連れて、時間軸上では広く、かつ周波数軸上では狭くなる。信号の観察者は、ウェーブレットパケット係数を抽出することで、時間周波数平面の多様な「タイル」を得ることができる。信号の特徴表現するための最良なウェーブレットパケット係数は、事前に形式化された基準によって選択される。通常この基準は、可能な限り少ない係数でより多くの情報を保つことを目的とした情報コスト関数に準拠する。一般的に利用されている指標は、エントロピーの測定指標である。この指標は、離散分布$$p_i, i = 0, 1, …, N-1$$に対して、$$S(p) = ― \sum_{i}^{}p_i \log(p_i)$$と定義される。

ここでいう$$p_i$$は、ウェーブレットパケットの正規化されたエネルギー意味する。エントロピーは、大きいウェーブレットパケット係数エネルギーが少数の離散位置にのみ集中するほど低くなる。起こり得る最小のエントロピーは0である。これは、一つのiの値に対してのみ確率が1になると共に、他の確率が0となる場合に起こる。この場合、信号を表現するために必要な全ての情報は単一のウェーブレットパケット係数の中に凝縮されている。エントロピー最大となるのはウェーブレットパケット係数エネルギーが一様分布を形成する場合に起こる。信号を表現する特徴は、全てのウェーブレットパケット係数に均等に割り振られる。

問題再設定:有限の中の無限、あるいは「全体」を凌駕する「部分」

フーリエ変換は、フーリエ展開の区間幅を無限大にした極限である。言い換えれば、基本周波数無限小にした極限を求めることが、フーリエ変換機能だ。もとより、ゴットフリート・ヴィルヘルム・ライプニッツを引き合いに出すまでもなく、積分は無限小の和であると素朴に定義することができる。この定義に有限近似や有限和などのような制約条件を課すことは、ここでは二次的な問題として扱って構わないであろう。我々の参照問題は、リーマン和による非周期関数複素フーリエ級数表現で表した区分的に滑らかで絶対可積分な非周期関数f(x)のフーリエ変換と、その機能的等価物となるウェーブレット変換ウェーブレットパケット分解を、「意味」を構成するシステム形式振動の解析に応用することである。我々は、この意味形式の解析が如何にして可能になるのかを問わなければならない。

フーリエ変換は、微小な周期振動している概念の複合性を縮減する。そうすることで、言わばパラドックスを細分化した上で観察することを可能にする。フーリエ変換によって顕在化された複数の波の中にも、周波数差異がある。高周波数で振動している概念ほど、Aと非Aの「同時」性が高い。つまり周波数の落差が、記述すべきパラドックスの選択をも可能にするのである。逆に言えば、観察した時点でパラドックス化していない形式は、周波数が低いということになる。そうした区別に対しては、区別の中に区別を再導入することによって、周期無限小になるほどまで狭めることによるパラドックス化が可能になるということがわかる。

以上の認識を前提とすれば、形式振動周期は、パラドックスを探索する深層強化学習エージェントに付与すべき報酬値となり得るであろう。周期の低い形式を発見するほど、その探索が準拠した状態-行動に対する報酬を高めるのである。あるいはこの周期という形式は、パラドックス化すべき形式脱パラドックス化すべき形式の分類問題においても機能する。こうしたアルゴリズム設計実装されたエージェントは、誕生した時点で既に、ある概念をパラドックス化するということが、その形式振動周期無限小にまで狭めることであるということを、予め知っていることになる。

こうして観ると、パラドックス化脱パラドックス化の循環を「観察するシステム」は、サイバネティクス的なフィードバック・ループとして設計することが可能であることがわかる。「固有値」や『不思議の環』のような概念が物語っているように、セカンドオーダー・サイバネティクスを前提とした場合であっても、このフィードバック・ループの重要性は変わらない。「もう卒業した」とは言わずにもう一度ノーバート・ウィナーのサイバネティクス理論を確認して観ると、もとより彼の著作ではライプニッツがサイバネティクスの「守護聖人(partron saint)」として召喚されていることを再認識できる。ウィナーによれば、ライプニッツの哲学を特徴付けているのは、普遍的な記号論(universal symbolism)と推論の微分積分法(calculus of reasoning)の関連である。現代の数学的な記号法と記号論理学は、これらの概念の関連付けによって生み出されている。算術が算盤や卓上型の計算機を経て超高速計算を可能にするコンピュータへと結実したように、ライプニッツの微分積分学には推論機械の兆候が見て取れた。実際、ライプニッツ自身、金属部品で計算機械を開発することに興味を持っていたという。

ライプニッツの数学的な思想の背景にあるのは、単なる合理主義ではない。多くのライプニッツ研究者たちが追究してきたように、彼の思想の背景には一種の神秘主義が潜んでいる。それは数や記号についての神秘主義に他ならない。ゲルショム・ショーレムから深い影響を受けている宗教学者アリソン・クダートも述べているように、ライプニッツの思想はユダヤ教的なグノーシス主義の秘境的な体系である「カバラ(kabbalah)」との親縁性を有している。

ピタゴラス学派以来、数の中にこそ最深の意義があると考えられてきた。この思想をギリシャにもたらしたのは、ピタゴラスであると考えられる。しかし、真理の扉を開く鍵は万人に配られていた訳ではない。そのため、好奇心に突き動かされているだけの者たちは、無駄な詮索や迷信に陥っていった。それ故に俗流のカバラ主義者たちは後を絶たなかった。しかし、ライプニッツも考えるように、しばしば真のカバラ主義者たちは、驚くべき発見を数や記号によって実現する新たな名称言語ーー「アダム語(lingua Adamica)」の可能性を信じ続けていた。

しかしロバート・クージンも述べているように、カバラ主義がライプニッツの神秘主義に決定的な影響を与えたことを理解するには、モナド論との関連を把握しておく必要がある。ライプニッツのモナド概念は、ミクロコスモスとマクロコスモスの照応関係を表している。モナド論は、ミクロコスモスにおける自然の真なる原子論である。モナドは、究極的には不可分な個体である。だが、そうであるにも拘らず、それぞれのモナドはそれぞれの内部に宇宙の全体を表現している。それはミクロコスモスとマクロコスモスの区別ミクロコスモスの内部に「再導入(re-entry)」する形式であるという点で、カバラ主義とライプニッツの思想の親縁性を指し示している。カバラ主義者たちもまた、マクロコスモスとしての宇宙ミクロコスモスとしての人間身体照応していると考えてきたのである。

しかしながらこの再導入は、パラドックス以外の何物でもない。だがライプニッツは、伝統的な論理学では解決できないこの神秘主義的な形象を数と記号によって叙述してみせた。そうして構成されたのが、「無限(infinitum)」という理念である。

ライプニッツの数学には「無限」の概念が相次いで登場する。この概念は主に、「カテゴレマティック(catégorématique)な無限」と「サンカテゴレマティック(syncatégorématique)な無限」と「ハイパーカテゴレマティック(hypercategorematicum)な無限」の区別によって導入されている。カテゴレマティックな無限とは、真の全体として存在する無限数を意味する。それは数学的な実無限を表す。一方、サンカテゴレマティックな無限は、潜在的な無限意味する。カテゴレマティックな無限がそれ自体として存立し得るのに対して、サンカテゴレマティックな無限は他を伴わせることでしか存立し得ない無限である。他方、ハイパーカテゴレマティックな無限は、全知全能のそのものによって可能となる無限である。被造物によって可能となる無限が部分的で制約された無限であるのに対して、この無限は絶対的である。ハイパーカテゴレマティックな無限は、あらゆる被造物の無限に対して論理的に先行する。

の絶対的な無限を前にすれば、人間が成し得る無限仮象に過ぎない。だからこそライプニッツは、自身が無限小の解析を実践していたにも拘らず、如何なる真なる無限数も容認しなかったのだ。彼が無限の概念を導入していたのは、ひとえに、それが無限小の解析において有用であったためである。ライプニッツにとっての無限とは、虚構であるものの、解析のために機能する操作的な概念であったのだ。

サイバネティクス理論においても、この無限の概念は、機能する虚構として再記述されている。無限小無限大といった概念は、ライプニッツ以来も、数学的な主題として記述されてきた。だがウィナーも述べているように、そうした無限についての証明それ自体は、無限ではない。有限の段階を超える証明は許容されないのである。実際ウィナーも例示する通り、例えば数学的帰納法による証明は、無限の段階を包含しているかのように見える。だが、それは虚構なのだ。

「数学の証明が我々の到達し得るものであるとするなら、それは有限個の記号で記述できるものであるはずだ。これらの記号法は、無限の概念を用いることがあるかもしれない。だがそれは、例えば数学的帰納法の場合のように、実際には有限個の過程を積み重ねれば済むものである。数学的帰納法においては、パラメタnに依存する定理をまずn = 0について証明する。次にn + 1の場合がnの場合から導かれることを指し示す。それにより、nの全ての自然数に対してその定理が成立することを証明するのである。また、演繹法の推論の規則は有限個に限定される。あるいは無限の概念を利用することによって、これらの諸規則が無限にあるかのように見えるかもしれない。だが無限の概念それ自体は有限個の用語で表される。」
Wiener, Norbert. (1961). Cybernetics or Control and Communication in the Animal and the Machine (Vol. 25). MIT press., 引用はpp.12-13.より。

証明とは、有限個の段階の中で明確な結論に到達するための論理過程である。しかし、こうした微分積分をはじめとする数学によって設計された推論機械には、その作動が一定の諸規則に従うことはあれど、一つの結論に到達する必要が全く無い。その作動は、絶え間なく複合性を増大させていく一定の周期パターンを指し示す場合もあれば、あるいは永久にチェックを繰り返すチェスの終盤戦のような反復状態を指し示す場合もあるはずだ。いずれにせよこの作動は、異なる状態や行動の段階を循環するために、決して停止しないという可能性すらある。ウィナーは、こうした循環状態が「ラッセルのパラドックス」のような場合に成り立つと明確に指摘している。つまり、自己言及のパラドックスが発現している状況では、有限個の記号操作が無限の循環を成立させる可能性否定できなくなるのである。

この時、パラドックス化脱パラドックス化の循環を「観察するシステム」は、自己自身もまたパラドックス化脱パラドックス化の対象になり得るという自己言及によって、パラドックス化脱パラドックス化無限の循環に包含されることになる。パラドックスを探索するエージェントは、かくして自己論理的な推論により、パラドックス化脱パラドックス化の循環に対するシステム合理性を確保する。

参考文献

ベイズ主義に関する参考文献

Cooper, Gregory F., Herskovits, Edward. (1992) A Bayesian Method for the Induction of Probabilistic Networks from Data, Machine Learning, 9, pp309-347.
Cowles, M., & Davis, C. (1982) On the origins of the .05 level of statistical significance. American Psychologist, Vol. 37, No. 5, pp553-558.
Fisher, Ronald Aylmer. (1926) “The arrangement of field experiments,” Journal of the Ministry of Agriculture of Great Britain 33, pp503-513.
Lehmann, E. L. (1993) The Fisher, Neyman-Pearson theories of testing hypotheses: One theory or two? Journal of the American Statistical Association, 88, pp1242-1249.
Mayer-Schonberger, Viktor., Cukier, Kenneth. (2013) Big Data: A Revolution That Will Transform How We Live, Work and Think, John Murray Publishers Ltd.
Pearl, Judea. (1986) “Fusion, Propagation, and Structuring in Belief Networks,” Artificial Intelligence, 29, pp241-288.
Ronald L. Wasserstein & Nicole A. Lazar (2016): The ASA’s statement on p-values: context, process, and purpose, The American Statistician, DOI: 10.1080/00031305.2016.1154108.
Simon, Herbert Alexander. (1976) Administrative behavior: a study of decision-making processes in administrative organization, 3th Edition, Free Press.
本村陽一、岩崎弘利 (2006) 『ベイジアンネットワーク技術: ユーザ・顧客のモデル化と不確実性推論』東京電機大学出版局。

強化学習とバンディットアルゴリズムに関する参考文献

Agrawal, S., & Goyal, N. (2011). Analysis of Thompson sampling for the multi-armed bandit problem. arXiv preprint arXiv:1111.1797.
Bubeck, S., & Cesa-Bianchi, N. (2012). Regret analysis of stochastic and nonstochastic multi-armed bandit problems. arXiv preprint arXiv:1204.5721.
Chapelle, O., & Li, L. (2011). An empirical evaluation of thompson sampling. In Advances in neural information processing systems (pp. 2249-2257).
Kaufmann, E., Cappe, O., & Garivier, A. (2012). On Bayesian upper confidence bounds for bandit problems. In International Conference on Artificial Intelligence and Statistics (pp. 592-600).
Mnih, V., Kavukcuoglu, K., Silver, D., Graves, A., Antonoglou, I., Wierstra, D., & Riedmiller, M. (2013). Playing atari with deep reinforcement learning. arXiv preprint arXiv:1312.5602.
Richard Sutton and Andrew Barto (1998). Reinforcement Learning. MIT Press.
Watkins, C. J. C. H. (1989). Learning from delayed rewards (Doctoral dissertation, University of Cambridge).
Watkins, C. J., & Dayan, P. (1992). Q-learning. Machine learning, 8(3-4), 279-292.
White, J. (2012). Bandit algorithms for website optimization. ” O’Reilly Media, Inc.”.

統計的機械学習問題の枠組みと深層学習に関する参考文献

Ackley, D. H., Hinton, G. E., & Sejnowski, T. J. (1985). A learning algorithm for Boltzmann machines. Cognitive science, 9(1), 147-169.
Hinton, G. E. (2002). Training products of experts by minimizing contrastive divergence. Neural computation, 14(8), 1771-1800.
人工知能学会, 嶌敏弘(編)『深層学習』近代科学社、2015
Le Roux, N., & Bengio, Y. (2008). Representational power of restricted Boltzmann machines and deep belief networks. Neural computation, 20(6), 1631-1649.
Salakhutdinov, R., & Hinton, G. E. (2009). Deep boltzmann machines. InInternational conference on artificial intelligence and statistics (pp. 448-455).
S. Kullback and R. A. Leibler. (1951). “On Information and Sufficiency,” The Annals of Mathematical Statistics, Vol. 22, No. 1 (Mar., 1951), pp. 79-86.
Wainwright, M. J., & Jordan, M. I. (2008). Graphical models, exponential families, and variational inference. Foundations and TrendsR in Machine Learning, 1(1-2), 1-305.
Y Rubner (2000) “The Earth Mover’s Distance as a Metric for Image Retrieval,” International Journal of Computer Vision
November, Volume 40, Issue 2, pp. 99-121.

深層学習に関する参考文献

Baroni, M., Dinu, G., & Kruszewski, G. (2014, June). Don’t count, predict! A systematic comparison of context-counting vs. context-predicting semantic vectors. In ACL (1) (pp. 238-247).
Bengio, Y. (2009). Learning deep architectures for AI. Foundations and trendsR in Machine Learning, 2(1), 1-127.
Rumelhart, D.E., Hinton. G.E., Williams, R.J. (1986). “Learning representations of back-propagation errors,” Nature, 323, 533-536.
Boulanger-Lewandowski, N., Bengio, Y., & Vincent, P. (2012). Modeling temporal dependencies in high-dimensional sequences: Application to polyphonic music generation and transcription. arXiv preprint arXiv:1206.6392.
Cho, K., Van Merriënboer, B., Gulcehre, C., Bahdanau, D., Bougares, F., Schwenk, H., & Bengio, Y. (2014). Learning phrase representations using RNN encoder-decoder for statistical machine translation. arXiv preprint arXiv:1406.1078.
Chung, J., Gulcehre, C., Cho, K., & Bengio, Y. (2014). Empirical evaluation of gated recurrent neural networks on sequence modeling. arXiv preprint arXiv:1412.3555.
Gers, F. A., Schmidhuber, J., & Cummins, F. (2000). Learning to forget: Continual prediction with LSTM. Neural computation, 12(10), 2451-2471.
Goldberg, Yoav & Levy, Omer. (2014). word2vec explained: deriving Mikolov et al.’s negative-sampling wordembedding method. arXiv preprint arXiv:1402.3722.
Lyu, Q., Wu, Z., Zhu, J., & Meng, H. (2015, June). Modelling High-Dimensional Sequences with LSTM-RTRBM: Application to Polyphonic Music Generation. In IJCAI (pp. 4138-4139).
Lyu, Q., Wu, Z., & Zhu, J. (2015, October). Polyphonic music modelling with LSTM-RTRBM. In Proceedings of the 23rd ACM international conference on Multimedia (pp. 991-994). ACM.
Mikolov, T., Kombrink, S., Burget, L., Černocký, J. H., & Khudanpur, S. (2011, May). Extensions of recurrent neural network language model. In Acoustics, Speech and Signal Processing (ICASSP), 2011 IEEE International Conference on (pp. 5528-5531). IEEE.
Mikolov, T., & Zweig, G. (2012, July). Context dependent recurrent neural network language model. In SLT (pp. 234-239).
Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., & Dean, J. (2013). Distributed representations of words and phrases and their compositionality. InAdvances in neural information processing systems (pp. 3111-3119).
Niu, L. Q., & Dai, X. Y. (2015). Topic2Vec: Learning Distributed Representations of Topics. arXiv preprint arXiv:1506.08422.
Song, F., & Croft, W. B. (1999, November). A general language model for information retrieval. In Proceedings of the eighth international conference on Information and knowledge management (pp. 316-321). ACM.
Sundermeyer, M., Schlüter, R., & Ney, H. (2012, September). LSTM Neural Networks for Language Modeling. In INTERSPEECH (pp. 194-197).
Sutskever, I., Hinton, G. E., & Taylor, G. W. (2009). The recurrent temporal restricted boltzmann machine. In Advances in Neural Information Processing Systems (pp. 1601-1608).
Werbos, P. J. (1990). Backpropagation through time: what it does and how to do it. Proceedings of the IEEE, 78(10), 1550-1560.
人工知能学会, 嶌敏弘(編)『深層学習』近代科学社、2015

統計力学と変分法に関する参考文献

Mezard, M., & Montanari, A. (2009). Information, physics, and computation. Oxford University Press.
Mooij, J. M., & Kappen, H. J. (2005). On the properties of the Bethe approximation and loopy belief propagation on binary networks. Journal of Statistical Mechanics: Theory and Experiment, 2005(11), P11012.
Yedidia, J. S., Freeman, W. T., & Weiss, Y. (2001). Generalized belief propagation. In Advances in neural information processing systems (pp. 689-695).
Yedidia, J. S., Freeman, W. T., & Weiss, Y. (2003). Understanding belief propagation and its generalizations. Exploring artificial intelligence in the new millennium, 8, 236-239.
Yedidia, J. S., Freeman, W. T., & Weiss, Y. (2005). Constructing free-energy approximations and generalized belief propagation algorithms. IEEE Transactions on information theory, 51(7), 2282-2312.
鈴木譲, 植野真臣(著)『確率グラフィカルモデル』共立出版、2016

自然言語処理とテキストマイニングに関する参考文献

Kamp, H., & Partee, B. (1995). Prototype theory and compositionality.Cognition, 57(2), 129-191.
Kamp, H., & Reyle, U. (2013). From discourse to logic: Introduction to modeltheoretic semantics of natural language, formal logic and discourse representation theory (Vol. 42). Springer Science & Business Media.
工藤拓 (2005)『形態素周辺確率を用いた分かち書きの一般化とその応用』言語処理学会第11回年次大会発表論文集。
工藤拓 (2011) Mecab: Yet another part-of-speech and morphological analyzer. chasen. aist-nara.ac.jp.
石田基広 (2008) 『Rによるテキストマイニング入門』森北出版。

周波数解析に関する参考文献

Addison, P. S. (2017). The illustrated wavelet transform handbook: introductory theory and applications in science, engineering, medicine and finance. CRC press.
Heisenberg, W. (1927). Über den anschaulichen Inhalt der quantentheoretischen Kinematik und Mechanik. Zeitschrift fur Physik, 43, 172-198.
Heisenberg, W. (1984). The development of quantum mechanics. In Scientific Review Papers, Talks, and Books Wissenschaftliche Übersichtsartikel, Vorträge und Bücher (pp. 226-237). Springer Berlin Heidelberg.
Hilgevoord, Jan and Uffink, Jos, “The Uncertainty Principle”, The Stanford Encyclopedia of Philosophy (Winter 2016 Edition), Edward N. Zalta (ed.), URL = <https://plato.stanford.edu/archives/win2016/entries/qt-uncertainty/>.
Lighthill, M. J. (1958). An introduction to Fourier analysis and generalised functions. Cambridge University Press.
Luhmann, Niklas. (1995) Die Kunst der Gesellschaft, Suhrkamp Verlag, Frankfurt.
Ting, W., Guo-zheng, Y., Bang-hua, Y., & Hong, S. (2008). EEG feature extraction based on wavelet packet decomposition for brain computer interface. Measurement, 41(6), 618-625.
Tolstov, G. P. (2012). Fourier series. Courier Corporation.

無限に関する参考文献

Coudert, A. P. (1995). Leibniz and the Kabbalah (Vol. 142). Springer Science & Business Media.
Couzin, R. (1970). Leibniz, Freud and Kabbala. Journal of the History of the Behavioral Sciences, 6(4), 335-348.
Leibniz, G. W. (1996). New essays on human understanding, P. Remnant & J. Bennett, Eds. and Trans. New York: Cambridge University Press
Wiener, Norbert. (1961). Cybernetics or Control and Communication in the Animal and the Machine (Vol. 25). MIT press.
ゴットフリート・ヴィルヘルム・ライプニッツ(1987) 『人間知性新論』米山優 訳、みすず書房。

スポンサーリンク