ランダムウォークの社会構造とダウ理論の意味論、再帰的ニューラルネットワークの価格変動モデルから敵対的生成ネットワーク(GAN)へ | Accel Brain

ランダムウォークの社会構造とダウ理論の意味論、再帰的ニューラルネットワークの価格変動モデルから敵対的生成ネットワーク(GAN)へ

Accel Brain; Console×

派生問題:ランダムウォークの歴史的意味論

顕微鏡で水面に浮かべた花粉を観測してみると、花粉粒子は時間と共にアトランダムな動作を繰り返しながら拡散していくことがわかる。この現象は、その発見者であるロバート・ブラウンに因んで、「ブラウン運動(Brownian motion)」と名付けられた。

熱力学的に言えば、ブラウン運動とは、運動している他の多くの粒子から不規則な衝撃を受けている粒子の運動である。粒子と粒子の衝突が一つ一つ識別できるほどに時間間隔を大きく取れば、この運動は微分不可能となる。ブラウン運動では、ある時間内で任意に規定した一定方向の運動の成分の二条平均が、その時間長さに比例する。尚且つ、互いに重なり合わない時間内に生じる運動は、確率論的に独立である。

ブラウン運動における時間幅を任意に定めて、運動のある座標成分xだけを想定する。この時、t=0に対するx(t)を0とする場合、粒子が時間$$t_1$$で$$x_1$$と$$x_1 + dx_1$$の間に位置して、尚且つ時間$$t_n$$で$$x_n$$と$$x_n + dx_n$$の間に位置する確率は、次のようになる。

$$\frac{\exp{ \left(\frac{-x_1^2}{2t_1} – \frac{(x_2 – x_1)^2}{2(t_2 – t_1)} – … – \frac{(x_n – x_{n-1})^2}{2(t_n – t_{n-1})}\right)}}{\sqrt{(2\pi)^nt_1(t_2 – t_1) … (t_n – t_{n-1})}}dx_1 …d_{x_n}$$

ただし、 $$0 < t_1 < t_2 < ... < t_n$$である。この確率系を利用すれば、様々なブラウン運動に相当する系列や経路のアンサンブルが、0と1の間にあるパラメタαで表現することが可能になる。つまり、アンサンブルの諸要素は関数$$x(t, \alpha)$$で表現されることで、xは時間tと分布のパラメタαに関連する。一つの系列や経路がαの空間に位置する集合Sに属する確率は、Sの測度に等しくなるように設定できる。この時、ほとんど全ての系列や経路は連続ではあるが、微分可能ではなくなる。

1905年、アルバート・アインシュタインは衝突する気体分子の研究からブラウン運動理論的な解説を加えた。量子力学統計力学はこの研究を契機に深化され始めたとも考えられる。しかしアインシュタインのブラウン運動に関する研究は、既に1900年の時点で、フランスの数学者ルイ・バシュリエの博士論文によって先取りされていたとも言われている。特筆すべきなのは、この博士論文の主題が『投機理論(Théorie de la spéculation)』であるという点だ。つまり根源的にブラウン運動は、運動する粒子ではなく、金融市場の営みの中から発見されていたのである。

証券取引の動きを決定付ける影響は無数(innombrables)に存在する。過去、現在、あるいは数え切れないほどの事象が、しばしば如何なる明確な関連を持つこともないまま、証券取引の方向に波及効果をもたらす。

諸変化の自然な方向に加えて、人為的原因(des causes factices)もまた存在する。証券取引はそれ自体に作用する。そして、現在の動きは事前の動きのみならず場所の位置の関数(fonction)でもある。

これらの動きは、無数の要因に左右される。したがって、数学的な予測(la prévision mathématique)に望みを託すことは不可能である。」
Bachelier, L. (1900). Théorie de la spéculation. In Annales scientifiques de l’École normale supérieure (Vol. 17, pp. 21-86)., 引用はp21より。

周知のように、近代のファイナンス理論では、株価は基本的にブラウン運動に従うと想定されている。投資家投機は、この株価ブラウン運動を「ランダムウォーク(random walk)」という概念で再記述している。それは、金融市場社会構造を前提とした上で、市場における金融商品価格は予測不可能であることを指し示す意味論として機能している。バシュリエの博士論文は、この予測不可能性主題とする先駆的な貢献であった。この論文が提出された1900年という時代には、主にオプション取引や先物取引をはじめとする金融市場活性化していた。株価のアトランダムな運動を確率過程として分析する方法は、バシュリエの理論的な貢献なくして語ることができない。

確率の計算(Le Calcul des probabilités)は、恐らく相場の動きには決して適用されない。株式市場力学(dynamique)は、決して厳密な科学(science exacte)にはなり得ないのである。

しかし、所与の瞬間における市場の静的状態を数学的に研究することは可能である。つまり、市場が現時点で容認している価格変動に関する確率法則を確立するのである。」
Bachelier, L. (1900). Théorie de la spéculation. In Annales scientifiques de l’École normale supérieure (Vol. 17, pp. 21-86)., 引用はpp21-22より。

量子力学統計力学決定的な契機となったブラウン運動の解明が、既に金融市場によって先取りされていたのならば、統計的機械学習問題の枠組み観点に立つ設計者の立場からても、金融市場社会構造ランダムウォークの関連を分析する取り組みは、実り多き発見可能にする探索となり得る。統計的機械学習問題統計力学の後史であるなら、バシュリエ論文に始まるランダムウォーク意味論統計力学の前史に該当する訳だ。

問題解決策:リスクと収益の区別

ノーベル経済学賞を受賞したハリー・マーコウィッツの投資の「分散化(diversification)」に始まり、ウィリアム・シャープの「資本資産評価モデル(Capital Asset Pricing Model: CAPM)」を経由した近代のファイナンス理論は、投資家合理性を前提とした理論として記述されている。投資家であれば誰でも、リスク(risk)と収益(return)の区別を導入している。

バシュリエの1900年論文においても、「リスク(le risque)」の概念は、「収益(bénéfice)」や「利点(avantages)」との差異を前提に記述されている。近代ポートフォリオ理論におけるポートフォリオ最適化問題では、このリスク収益率の「分散(variance)」で、収益収益率の「期待値(expected value)」で記述する。分散が小さければ、期待値からの逸脱は小さく、リスクも小さいと見積もれる。

類似した発想は、バシュリエ論文からも抽出できる。バシュリエによれば、価格変動の幅(intervalle)は、時間長さの平方根に比例するという。素朴に考えれば、価格変動の幅が大きければ、分散も大きいと考えられる。だがこの幅の概念をそのまま「リスク」として再記述する場合には、注意しなければならない。と言うのも、この幅の概念は年率換算を想定していないためである。バシュリエに倣い、価格変動の幅をリスクとして捉えるならば、長期投資は短期投資に比してリスクが大きいということになる。年率換算したリスクに関して言えば、この限りではない。年率換算を度外視するなら、価格変動の幅と分散は、いずれも市場価格の予測不可能性測定する意味論である点で機能的に等価であるという認識を持つことができる。

問題解決策:偶然との比較

アルフレッド・コールズ三世が1933年に提出した「株式市場の予測者たちは予測できているのか」と題する論文は、最も早期に提起されたランダムウォーク仮説の実証研究の一つである。この論文の参照問題もまた価格変動の予測不可能性に他ならない。この論文では、株価の予測者たちの投資情報サービスを精査することにより、その通りに株式を売買した場合のパフォーマンスが詳細に検証されている。

株価予測の代理人たちの平均的なパフォーマンスは、純粋な偶然(pure chance)に基づくあらゆる投資のパフォーマンスの平均値を約4%下回ると結論付けられる。」
Cowles 3rd, A. (1933). Can stock market forecasters forecast?. Econometrica: Journal of the Econometric Society, 309-324., 引用はp.318より。

モーリス・ケンドールの1953年に提出した論文もまた、「偶然(chance)」を比較観点に採用している実証研究となっている。

「もし時系列が均質ならば、ある週から次の週への価格の変化は、その週からその次の週への変化とは実質的に独立しているように思われる。これだけでも、時系列それ自体から週ごとの価格を予測することが不可能である点を指摘するのは十分である。加えて、もし当の時系列現実的に彷徨っている(wandering)のならば、そうした時系列の中で『観測される』であろうトレンド(trends)や周期(cycles)のような体系的な運動は、いずれも幻想(illusory)となる。そうした時系列は『彷徨っている』ように見える。恰も偶然の悪魔(the Demon of Chance)が、その分散が一定となる対称的な母集団から一つの数値を週に1回アトランダムに抽出して、それを今週の価格に加算し、来週の価格決定しているかのようである。」
Kendall, M. G., & Hill, A. B. (1953). The analysis of economic time-series-part i: Prices. Journal of the Royal Statistical Society. Series A (General), 116(1), 11-34., 引用はp13より。

これらの実証研究の報告は、チャートを用いたテクニカル派の分析の可能性を一掃すると共に、ランダムウォーク仮説を強調する事例として注目を集めた。ケンドール論文では「悪魔(the Demon)」の形象叙述されていた「偶然(Chance)」という概念は、後の1959年、ハリー・ロバーツによる「モデル化」の対象となった。

「ケンドールが発見したのは、証券価格の変化は、それが適切に設計されたルーレットによって生成されたかのように振る舞うということである。そのルーレットの結果はいずれも過去の歴史からは統計的に独立しており、それらの相対的な頻度時間を通じて合理的に安定化している。このことが意味するのは、一度ルーレットの異なる結果に関する相対的な頻度確率)についての良き測定可能にする十分な根拠を蓄積したなら、プレイヤーはこれらの相対的な頻度のみに基づいて予測を実行し、現在のルーレットにおけるスピンパターンには何ら注意を払わないということである。現在のスピンがプレイヤーの予測に関連付くのは、このスピンによって相対的な頻度をより精確に測定できるようになる場合に限られる。このギャンブル表現で言えば、ルーレットは『記憶を持たない』。」
Roberts, H. V. (1959). Stock-market “patterns” and financial analysis: methodological suggestions. The Journal of Finance, 14(1), 1-10., 引用はp3より。

この関連からロバーツはコンピュータを利用することで価格変動のシミュレーションを実行した。その際、相場の水準(levels)は、「偶然モデル(chance model)」によって出力された結果の累積によって生成されたかのように変動するモデルとして記述されている。例えばガウス分布を仮定するなら、そのサンプリングは、週ごとの変化の平均とその標準偏差が与えられることで可能になる。価格変動のシミュレーションは、この株価の変化値を累積的に加算していくことによって実現する。チャート分析ではお馴染みの「三尊天井(head-and-shoulders)」や、ダウ平均の水準の推移までも人工的に再現することができる。ロバーツの研究が指し示しているのは、株価の週ごとの変化は乱数で生成された時系列と識別が付かないという点である。それはテクニカル派方法論的陥穽を主張すると共に、ランダムウォーク仮説を肯定する有力な動機を提供している。

派生問題:ダウ理論の歴史的意味論

投機は「偶然のゲーム(a game of chance)」ではないというのが、ランダムウォーク仮説に対する投機たちの反論であった。かの「ダウ理論(Dow’s Theory)」を世に広めたS・A・ネルソンの”The ABC of Stock Speculation”によれば、運や偶然に委ねるだけの賭けは「ギャンブル(gambling)」なのであって、投機からは区別される。投機には、この場合のギャンブルとは異なり、知的な努力が必要になるのだという。

テクニカル派チャーティストたちの振る舞いに表れているように、ここでいう知的な努力とは、未来の株価を予測することなのだと思われるかもしれない。実際、テクニカル派チャーティストたちが実践している未来予測は、このダウ理論から影響を受けて成り立っている。彼ら彼女らは自らがチャールズ・ダウの訓えから予測の方法を学んだと考えている。「ダウ理論(Dow’s Theory)」は、テクニカル派教義の一つになっている。彼らの語る知的な努力とは、未来予測のための理論武装なのである。

しかし、テクニカル派チャーティストたちの振る舞いは、ダウ理論を知る上ではミスリードとして働いている。「ダウ理論(Dow’s Theory)」がチャールズ・ダウの記述した理論であると考える時点で、既に誤った歴史認識を抱いてしまっている。ダウが自身の理論を書籍として出版したことは一度も無い。ダウはただ、ウォール・ストリート・ジャーナルに連載していた論説で株式市場の動向を考察していただけである。ダウの後、1903年、これらの論文はS・A・ネルソンによって編集され、”The ABC of Stock Speculation”として出版された。「ダウ理論」という用語が普及し始めたのはこの時である。1922年になるとウィリアム・ピーター・ハミルトンの『株式市場のバロメータ(The Stock Market Barometer)』が出版され、1932年にはロバート・レアのまさに『ダウ理論(The Dow Theory)』と題される書籍が出版され、次々とダウ理論が再記述された。ダウは自身の理論を工業株と鉄道株の領域で応用していた。だがその理論は他の領域でも再利用できる。ハミルトンが整理しているように、ダウの理論は幾つかの抽象的理念として整理することができる。その理念は、様々な市場価格変動が、長期的でリズミカルな周期(rhythmical cycle)を描いているという内容である。レアはこの関連からダウ理論を三つの仮説に落とし込んでいる。

  1. 主要トレンド(primary trend)は不可侵(inviolate)である。
  2. 平均は全てを織り込んで(discount)いる。
  3. ダウ理論は百発百中(infallible)ではない。

これら三つの仮説は、一見すると現代の通俗的なテクニカル派チャーティストたちの仮説と類似しているように視える。テクニカル派の分析者たちは、ダウの先見の明を主張すると共に、彼の理論普遍的かつ永続的であると主張する。例えばチャールズ・D・カークパトリックによれば、平均には全てが織り込まれているというダウの信念意味しているのは、平均株価が産業の形状(shape)を予告(foretold)しているということである。故に平均株価は、経済健全性を理解する上で有益な指標になるという。

価格が、事象を予測するものにさえ到達するあらゆるもの、というのはつまり期待(expectations)も含めたあらゆるものを織り込んでいるという概念は、ダウの仮説の中でも最も革命的な仮説である。」
Kirkpatrick II, C. D., & Dahlquist, J. A. (2010). Technical analysis: the complete resource for financial market technicians. FT press., p77.より引用

問題は、こうしたテクニカル派チャーティストたちが語るダウ理論が、ダウの理論それ自体であるか否かだ。

問題解決策:形式としてのトレンド

ダウ理論によれば、平均株価は全てを織り込んでいる。株式市場における取引の総体と傾向をれば、ウォール街にある過去、現在、未来に関するあらゆる知見の大部分が織り込まれている。一部の統計分析者が実施しているように、市場平均にコモディティ指数、銀行決算額、市場変動率、あるいは国内外の取引量などのような指標を追加する必要は無い。何故ならウォール街は、こうした情報を全て知っているためである。

市場が知り得る情報の中には、人為情報のみならず自然情報も含まれる。たとえ突発的な自然災害が発生したとしても、市場はそうした想定外の出来事も素早く取り込み、価格という形式で反映させるためである。

したがって、市場の状態を俯瞰する上で、平均株価は代表的な概念として観察できる。その際ダウ理論は、この価格観察を通じた市場状態の記述の補助線として、「トレンド(trend)」という概念を形式的に導入している。ダウ理論は、市場の「トレンド」を「主要トレンド(primary/major trend)」、「中間トレンド(intermediate trend)」、「末梢的トレンド(minor trend)」の三つに区別している。この三つのトレンドはそれぞれ「波(wave)」の比喩で記述される。主要トレンドは潮流を表す一方で、中間トレンドは潮流の中で派生する波を意味する。他方、末梢的トレンドは波の上に生じる小波を意味する。

ダウは作用反作用の法則が物理的な世界のみならず市場にも適用されると確信していた。株価が「天井」に達すれば、多くの場合、そこから緩やかな下落が伴う。それから天井付近にまた戻る。もしこの後に株価が下落すれば、ある程度のところまで下落し易くなる。

物理現象としての「波」と同じように、トレンドには様々な周期がある。数分や数時間の短いトレンドもあり得れば、50年から100年の長期的なトレンドもあり得る。無数のトレンドが相互作用を繰り返すために、株価の時系列データは高度な複合性構成する。ダウ理論では形式上、1年以上持続するトレンド主要トレンドと定義している。だがトレーダーは短期的な時間幅で売買するために、その都合から主要トレンドの期間は半年間であると定義される場合もある。極端な話、デイトレーダー観点から主要トレンドは2,3日である場合もある。

つまりトレンドという概念は、観測者が存在して初めて定義されることになる。これは注意を要する論点である。何故なら、観察者次第によって、トレンド区別別のあり方でもあり得るということになるからだ。トレンド偶発的な概念なのであって、定義の上での必然性が無い。そうなると、同じ「トレンド」を主題としていても、ダウの観察テクニカル派観察の間には差異があるという点にも注意を払わざるを得なくなる。

ダウとテクニカル派の差異

ダウ理論を継承したと自覚しているテクニカル派チャーティストたちは、単に上昇トレンド(Uptrend)と下降トレンド(Downtrend)の区別を導入する場合がある。この前提にあるのは高値と安値の差異だ。上昇トレンドが高値と安値の上昇と定義されるのに対して、下降トレンドはこの反対の構造を成す。一方、この高値と安値がほぼ水平に移動している場合は、「横ばい」となる。この「横ばい」は特にトレンドの無い状態と定義される。

価格連続的な高値と安値を形成しながら変動する。トレンドは、その高値と安値の方向によって規定される。この高値と安値の区別は、抵抗線と支持線の区別によって形式化される。安値に対応するのが支持線だ。支持線は買いの勢いが売りの勢いを上回る状態を表現する。多くのテクニカル派チャーティストたちは、この支持線が以前反発した下値と見做している。つまり直近の支持線は過去の抵抗線が指し示す高値と同値となるという訳だ。

抵抗線は支持線の対概念となる。支持線とは逆に、抵抗線は売りの勢いが買いの勢いを上回る状態を表現する。抵抗線を介して、価格は上昇しなくなり、下落に転じる。チャーティストたちは抵抗線を過去に反落した高値と捉えている。

抵抗線と支持線は相互に逆転する場合がある。何故なら、頂点で売り損なった人々は、再度同じ機会に直面すれば売りたいと考えると期待されるためである。それまで下がり続けていた相場が再び上昇し始めて、以前のピークに到達しつつあるその瞬間、チャーティストたちは抵抗線を「テスト(test)する」。それは、言うなれば審判の時なのである。もし相場の水準が抵抗線を突破(break)すれば、以前の抵抗線は支持線と化す。その後しばらくは上昇が持続すると期待される。逆に、相場が抵抗線を突破しなかった場合や、これまでの支持線となっていた安値を下回った場合、投資家投機たちは売りを推奨されることになる。

チャーティストたちの目線では、支持線と抵抗線の区別が、上昇トレンド下降トレンド区別の前提となる。上昇トレンドが持続している限り、次に到来する支持線の水準は、以前の支持線水準よりも高くなければならない。抵抗線水準についても同様である。もしこの条件が満たさなかった場合、上昇トレンド終焉に近付いていることになる。チャーティストたちはここから警告のシグナル判読しようとする。下降トレンドの分析では、これらの逆の関連が着目される。

問題解決策:経済指標としての株価平均

これを前提とすれば、ダウ理論とは、戦略上基本的に相場が直近のピークよりも高くなった時には買いを、直近のボトム(bottom)を下回った時には売りを採ることを推奨する理論であるということになる。それは買いと売りのタイミングを予測する理論である。

しかし、このダウ理論は、ダウ理論それ自体ではなく、チャーティストたちによって再記述されたダウ理論である。ダウ自身はトレンドの予測を意図していた訳ではない。ダウの観点は、大きな上昇相場や大きな下降相場から中間部分を分析することに向けられていた。ダウ理論株式相場のトレンド方向を予測するために応用されるなどと、ダウ自身はにも思わなかったであろう。むしろダウが目指していたのは、平均株価の概念からもわかるように、株式相場の方向経済一般の状態を知るための指標(index)として活用することなのである。

ダウ理論投機ゲームで勝利するために考案された体系ではないということを心に留めておこう。確かに平均は一意専心に判読されなければならない。願望が思想の父である時、平均は我々を欺くようになる。聞いたことがあると思うが、魔術師の杖に手を出してしまう新規参入者は、悪魔を育ててしまう傾向にある。」
Hamilton, W. P. (1922). The Stock Market Barometer; a Study of Its Forecast Value Based on Charles H. Dow’s Theory of the Price Movement. Harper & Bros., p133.より引用

ダウは、工業株と鉄道株を区別した上で、双方の関連を指摘している。前者は工業の領域で、後者は鉄道の領域で、それぞれの利益期待の傾向を表象している。ダウの観点では、これら双方は互いに一致していなければならなかった。例えば、工業は継続的に商品を生産しているだろう。だがそれは、鉄道による商品の出荷があってこそである。さもなければ工業の利益期待は減衰するはずだ。生産された商品が顧客に出荷されなければ、工業の利益は生み出され得ない。鉄道は、生産された商品が売買されていることを確認しなければならない。

現代社会では無論、この鉄道の平均は輸送の平均に代替されるべきであろう。飛行機やトラックなど、商品の輸送手段は多様化している。こうした社会構造に応じて、バロメータとなる株式の銘柄も変えていく必要がある。要するにダウ理論とは、株価経済指標として観察する場合の意味処理規則なのであって、その意味論社会構造との関連から変異し得るのである。

ダウ理論の脱テクニカル化

バートン・マルキールが明言しているように、ダウ理論機構が指し示すシグナルは、株価の未来予測には何の役にも立たない。売りのシグナルが生じた後のパフォーマンスは、買いのシグナルが生じた後のパフォーマンスと何ら変わらないのである。ランダムウォーク仮説を支持するマルキールは、それ故に市場平均を構成している代表的な銘柄のバイ・アンド・ホールド戦略の方が、テクニカル派ダウ理論的な戦略よりも優れていると指摘する。何故ならこのバイ・アンド・ホールド戦略では、先に取り上げたボーグルの指摘の通り、余分な手数料を支払わずに済むためである。テクニカル派チャーティストたちの未来予測は、我々を「勝者のゲーム」ではなく「敗者のゲーム」へと導くのである。

したがってダウ理論は、ダウ自身の観点からても、テクニカル派チャーティストたちのパフォーマンスからても、チャーティストたちが想定する意味での未来予測としては機能しないことがわかる。先述したように、全ての未来予測が直面する根本的なパラドックスは、「予言の自己成就」と「予言の自己破壊」の偶発性である。予言が当たるという予言が外れるという予言が当たるという……予言の無限後退に対して、テクニカル派チャーティストたちは為す術を持ち得ない。テクニカル派チャーティストたちが実践している未来予測は、金融市場としての経済システム再帰的な自己言及によって構成されている。そうした未来予測は、経済システムを超複合的(Hyperkomplex)な状態にしてしまうが故に、ますます未来予測の不可能性を高めていく。

<考え得るもの全て>のパラドックス

金融市場経済システム再帰的な自己言及によって構成されているという社会システム理論的な概念は、実はハミルトンの記述の中からも伺える論点である。

ウォール街をその内側からわかり易く考察することは困難で、多くの観察者たちによって不可能であると証明されている。丁度市場がそのマニピュレータ(manipulator)よりも大きいこと、あらゆる金融機関が集約しているものよりも大きいことが示されるように、株式市場のバロメータは株式市場それ自体よりも大きいということは事実である。」
Hamilton, W. P. (1922). The Stock Market Barometer; a Study of Its Forecast Value Based on Charles H. Dow’s Theory of the Price Movement. Harper & Bros., pp15-16.

しかし、そうした市場のバロメータもまた、経済システムの諸要素となる経済的なコミュニケーションによって記述されている。故にそれは、経済システム自己言及を超える概念ではない。未来予測が未来予測として機能し得るのは、この自己言及パラドックス脱パラドックス化されている場合に限られる。

ハミルトンは、株価の平均に<考え得るものの全て(every conceivable thing)>が反映されていると主張する。しかし等価機能主義的な社会システム理論観点かられば、我々はこの概念を全体社会――あるいは世界社会――として再記述することで、パラドックス化させざるを得なくなる。株式市場のバロメータは、あくまで全体社会機能的なサブシステムである経済システム自己言及によって構成されている。故にこのバロメータが言及しているのは、経済システムの内部に過ぎない。つまり株式市場のバロメータは、経済システムの内部で自己言及的構成された<考え得るものの全て>に言及しているのであって、全体社会の<考え得るものの全て>に言及している訳ではないのである。

それでも尚、ダウ理論意味論に方向付けられた経済システム社会構造は、株式市場のバロメータが全体社会の<考え得るもの全て>を指し示しているかのように規範的な期待システム信頼構成するであろう。それは、金融市場経済システム再帰的な自己言及によって構成されていることからもわかるように、このバロメータの自己言及が、<自己言及>と<外部言及>を自己言及的区別することで形式化されているためである。経済システム内部の<考え得るものの全て>からは区別される全体社会の<考え得るもの全て>が、経済システムの内部に再導入(re-entry)されることによって、株式市場のバロメータは疑似的な全体社会の<考え得るもの全て>と化す。

株価平均「線」による変化「点」検知

このように、株式市場のバロメータが言及している<考え得るもの全て>という概念は、社会システムにおける自己言及パラドックスを孕んでいる。このパラドックス脱パラドックス化しているのは、ハミルトンが記述している「線(line)」という形式である。ここでいう平均の「線」とは、限られた範囲内における十分な日数の取引の終値の連続である。「線」は、累積(accumulation)や分布(distirbution)を指し示す形式である。この形式としての「線」は、平均価格の上昇または下降の移動も描写する。それは一時的な、あるいは二次的であっても、市場一般の方向の変化を表現している。つまりハミルトンにとって平均の「線」とは、変化「点」検知(Change-point detection)として機能しているのである。

「双方の平均値によって構成された過去の最低値や最高値は、市場の転換を表現するもの(representing the turn of the market)と見做すのが最である。」
Hamilton, W. P. (1922). The Stock Market Barometer; a Study of Its Forecast Value Based on Charles H. Dow’s Theory of the Price Movement. Harper & Bros., p158.より引用

この引用文の直後にハミルトンは、平均に「絶対的な数学的精度(absolute mathmatically accuracy)」を期待する必要は無いとも補足している。つまりダウ理論を未来予測的なユースケースで応用したハミルトンの理論は、株価平均線の変化点検知に基づく発見探索的な姿勢の理論であるということになる。ダウ理論意味処理規則に準拠したハミルトンの観察社会システムにおける自己言及パラドックスから遠ざけることを可能にしていたのは、この発見探索的な姿勢である。と言うのも、脱パラドックス化において重要となるのは、パラドックス不可視化であるためだ。発見探索的な姿勢は、パラドックスとは別様の対象を発見することによって、当のパラドックス不可視盲点に位置付ける意味処理規則なのである。

社会システム理論的に言えば、システムパラドックス自己言及の「展開(Entfaltung; developing)」によって回避する。「展開」とは、自己言及の肯定的あるいは否定的な循環性(Zirkularität; circularity)が中断されて、それが最終的には説明し得ないある種の不当なやり方で解釈(interpretiert; interpreted)されるということだ。こうした脱パラドックス化の過程は、根底にあるシステム機能と問題の「不可視性(Invisibilisierung; invisiblity)」を必要とする。そうしたシステムの作動とその過程が潜在的である場合にのみ、システム自己言及可能となるのである。

問題解決策:モメンタム理論としてのダウ理論

テクニカル派チャーティストたちからダウ理論を剥奪すると共に、ハミルトンの発見探索的な姿勢に焦点を当てるなら、我々は経済指標の意味処理規則としてのダウ理論機能を未来予測からは区別した上で分析することが可能になる。

上述したコールズの1933年論文はランダムウォークに従う金融市場を前提とした効率的市場仮説発展に大きな貢献を果たした。ダウ理論は彼の批判的な意識に基づいた検証の対象にもなった。コールズはダウ理論の検証の際に、ハミルトンの社説における市場予測を「強気(Bullish)」と「弱気(Bearish)」と「中立(Neutral)」の区別を導入している。弱気のシグナル(signal)と強気のシグナル区別は、丁度市場のショート(short)とロング(long)の区別に対応する。弱気ならばショートを、強気ならばロングを、それぞれ推奨するのである。一方、ニュートラルなシグナルにおいては、無リスク資産に投資することが推奨される。

コールズは、ダウの指標を株式分割と株式配当、そして見積もり取引費用に応じて調性した上で、ダウ理論が提供するタイミング戦略に対する総収益を計算した。コールズがこのハミルトンの戦略の比較対象として選定したのは、同期間の株式市場に100%投資する戦略である。そして彼は、ダウ理論の戦略に準拠した場合には年率12%の利回りになるのに対して、100%の株式ポートフォリオに準拠した場合は年率15.5%の利回りになると結論付けている。コールズはこの結果ダウ理論機能不全の根拠として指し示す。

しかしこのコールズの注意深い検証の盲点となったのは、相対リスク(relative risk)の差異を調整することである。コールズによれば、ハミルトンは、検証期間中の26年間のうち、55%がロング、16%がショート、市場外は29%であった。これらの数値は、ハミルトンの戦略のシステマティック・リスクが100%から程遠いことを言い表している。実際、平均ベータ$$0.55 – 0.16 = 0.39$$の粗い近似を利用すると、ダウ戦略はリスク調整後の収益$$0.12 – [0.05 + 0.39 (0.155 – 0.05)] = 0.029$$を得る。つまりハミルトンの戦略に対するコールズの解釈は、リスク調整後の水準で、年間290ベーシスポイント(basis point)を獲得するように思われる。

コールズはまたハミルトンの推奨に対するノンパラメトリックな分析も実施している。それは、強気と弱気の市場を正確に言い当てている頻度の報告となっている。255の予測のうち、彼はハミルトンによる推奨事項の変更のみをデータとして抽出した。そして彼は29の強気の予測、23の弱気の予測、そして38の中立の予測を分析することになる。これらの分析からコールズは、ポジションの変化の半分は利益をもたらし、もう半分は無益となっていると結論付ける。この分析から不可避的に到達する帰結は、予測の的中率は、投資家が自身でコイントスしたのと同様に、0.5になるということである。つまり予測とその誤差の分布は一様になってしまうという訳だ。

しかしながらコールズは、株価が上昇している市場における強気の予測の反復と、株価の下落している市場における弱気の予測とを区別する際、その予測の反復の有効を考慮している訳ではない。例えば新興国市場で肯定的なコールが連続的に発生したとしても、コールズの検証においては、それが一つのデータとして還元されてしまう。ダウ理論モメンタム戦略を採用していることを踏まえるなら、強気の反復は更なる強気を喚起し、弱気の反復は更なる弱気を換気する。

ダウ理論のニューラルネットワーク

ダウ理論とは何か」という問いは、1900年代から金融市場のアナリストたちを悩ませてきた。だがハミルトンの呼び掛けと近代発展した非線形的な統計的な方法を組み合わせれば、このダウ理論の基礎を理解することが可能になる。ダウ理論とは、「モメンタム理論(momentum theory)」である。それは非線形の時系列的な相互作用によって駆動されるシステム複合性を記述した理論なのであって、単なる段階的回帰(stepwise regression)の手続きに終始する理論なのではない。

1998年、このことに気付いていたステファン・ブラウンらは、そのレビュー論文において、このモメンタム理論としてのダウ理論を同時代のニューラルネットワーク発展に接続させて次のように述べている。

「近年の人工知能を基盤としたニューラルネットワーク(artificial intelligence–based neural net)の発展により、理論(theory)に入力できると考えられるデータのあらゆるパターン探索することが可能になっている。こうした手続きはまた、ハミルトンの時代と彼が社説を記述するのを辞めた後の双方において、ダウ理論質を調査するために利用できるハミルトンのオートマトン(Hamilton automaton)を構築することをも可能にする。」
Brown, S. J., Goetzmann, W. N., & Kumar, A. (1998). The Dow theory: William Peter Hamilton’s track record reconsidered. The Journal of finance, 53(4), 1311-1333., p1323より引用

この時代の人工知能は、金融市場で生成(generate)された時系列データに潜在化している反復のパターンを識別しようとする実務の間で注目を集めていた。人工知能発見したパターンは、市場力学を反映させていると同時に、未来の市場の動向を予測することも可能にするというのが、彼ら実務たちの信念となっていた。そうしたパターンは、「取引のルール(trading rules)」を生成(generate)すると考えられていた。ブラウンらはこの関連から、「特徴ベクトル分析(Feature Vector Analysis)」を導入することで、ハミルトンの推奨事項の予測を試みている。特徴ベクトル分析はハミルトンの意思決定過程のモデル化に適している。この分析は、過去の価格系列力学特徴を「トレンドの形状(trend shapes)」に変換する。この分析の機能は、データセットの「位相的(topological)」な特増幅させる。市場における活動としては、上昇傾向、下降傾向、三尊天井(head and shoulders)、そして抵抗の水準などが挙げられる。再帰的ニューラルネットワーク(recurrent neural net)は、こうした形状を入力として参照することで、1902年から1929年までの期間の訓練を通じて、任意の時点におけるハミルトンの推薦事項の状態に関連する系列特徴を識別することを可能にする。そしてこのアルゴリズムは、非線形的な関数による特徴写像展開する。

「前処理されたデータに対するクラスタリングにより、データの中の有意なパターンを識別することが可能になる。一般的にニューラルネットワークによって識別されるモデル解釈することは困難だ。しかし、ニューラルネットワークによって学習された予測の関数解釈することは可能である。我々の方法論を他のモデリング技術から区別するのは、特徴ベクトル分析によるトレンド形状の識別なのである。」
Brown, S. J., Goetzmann, W. N., & Kumar, A. (1998). The Dow theory: William Peter Hamilton’s track record reconsidered. The Journal of finance, 53(4), 1311-1333., p1325より引用

ブラウンらによれば、特徴ベクトル分析の方法論は、「最適な」取引ルール(“optimal” trading rules)を特定する方法へと拡張できる。この分析のアプローチに追従していけば、もはや事前に取引ルールを指定する必要は無い。探索パターンの領域で直接的に実行される。ニューラルネットワークアルゴリズムは、縮減された関数形式データへと適合させるための統計的な処理である。それは柔軟な非線形の仕様を提供するという点で、段階的回帰の手続きからは厳密に区別される。入力に対するアフィン変換を介する以上、ニューラルネットワークは、ロバーツが設計したような「偶然モデル」でもない。ブラウンらの主張を要すれば、ハミルトンの1902年から1929年までの市場予測にニューラルネットワークによる推定を適用した結果は、ダウ理論が社説の編集者によるアトランダムな意思決定過程を超えるものであったことを指し示している。

派生問題:価格変動の予測は如何にして可能になるのか

ランダムウォーク歴史意味論ブラウン運動の「偶然モデル」という統計力学統計的機械学習の前史へと接続されている一方で、ダウ理論歴史意味論再帰的ニューラルネットワークモデルへと接続されている。この双方の歴史意味論深層学習理論に接続させれば、これら双方を包摂した価格変動モデリング可能になると期待することができる。

こうした深層学習モデルは、ランダムウォーク仮説の「偶然モデル」から区別される必要がある。確かに、先に示した近代ポートフォリオ理論におけるアノマリー研究や行動ファイナンス学派たちの実証研究は、株価が必ずしもランダムウォークに従っているとは限らないことを示している。マルキールも述べているように、利益や配当が株価影響を与える可能性もあり得る。群衆心理もまた然りだ。だがマルキールが主張するように、たとえ市場が非合理的群衆心理によって支配される期間があり得るとしても、その価格変動ランダムウォーク近似することが可能である。しかしこの近似の可能性は、逆向きに考えても成り立つことがわかる。つまり、ランダムウォークの分布を非ランダムウォークの分布に近似することも不可能ではないのである。ベイズ主義的に言い換えれば、ランダムウォーク事前分布から非ランダムウォーク事後分布へと更新することも不可能ではないということだ。

この逆向きの近似可能性を記述すれば、ランダムウォーク仮説が提供している「偶然モデル」の機能的拡張性が明確になってくる。価格変動の分析を「偶然」で済ませることには、何ら必然性が無いのである。ランダムウォークの分布は偶然の産物である一方で、非ランダムウォークの分布は必然の分布であるとも見做せる。だがこの偶然と必然区別は、それ自体必然的ではない。偶然と必然区別は、偶発的である。観察者はしばしば、<予測できなかった必然>を偶然の産物であると事後的に錯覚する。未知のルール、不完備な前提条件、あるいは目に見えない投資家たちの群衆心理などのように、観察者の視点かられば、必然性は潜在化している。偶然と必然の素朴な区別は、顕在的な必然と潜在的な必然区別によって棄却されるべきであろう。

統計的機械学習問題の枠組みでは既に、この潜在的な必然性を記述するための意味処理規則が提供されている。「可視変数(visible variable)」と「隠れ変数(hidden variable)」の区別は、このための典型的な形式として導入されている。可視変数は「観測変数(observable variable)」とも呼ばれ、また隠れ変数は「潜在変数(latent variable)」とも呼ばれる。とりわけ価格変動のような時系列データに対しては、こうした形式は「観測系列(sequence of observations)」と「潜在確率過程(latent stochastic process)」の区別によって代替されている。こうした隠れ変数、潜在変数、そして潜在確率過程といった概念には、観測時は未知の諸要素が代入される。これにより、観測者にとっては潜在化している必然的なパターンを計算可能にしている。

ロバーツの「偶然モデル」は、株価の水準の変動を累積的に加算していくことでシミュレートしていた。これに対して、統計的機械学習問題の枠組みでは、「生成モデル(Generative model)」を設計することによって、価格変動の真の分布をシミュレートする。「偶然モデル」が累積的な計算によって予測を成り立たせていたのに対して、時系列データ生成モデル再帰的(recursive/recurrent)な学習推論によって予測を成り立たせる。「偶然モデル」が基本的にガウス分布を仮定した乱数生成を実行するのに対して、生成モデルはあくまで真の分布を再現した分布によって乱数を生成する。

この生成モデルもまた再帰的ニューラルネットワークに接続することが可能である。この接続は後述する通り、統計力学平均場近似推論理論可能にする。それはベイズ主義的な確率分布の更新によって、当初ランダムウォークとして観測されていたデータに対して<ランダムウォークの分布>と<非ランダムウォークの分布>の区別を導入するモデルとなる。

この統計的機械学習に準拠した再帰的ニューラルネットワークの予測は、誤った歴史認識からダウ理論を応用してきたテクニカル派チャーティストたちの未来予測から区別されなければならない。その決定的な差異は、学習能力にある。ニューラルネットワークは、「人間」の眼には「偶然」に視えるデータの中からも、パターン発見することができる。そしてこのモデルは、微小な予測誤差すら追従することによって、株価についての学習を進行させることができる。それは「人間」の予測誤差に対する学習能力の比ではない。

流石にテクニカル派チャーティストたちも、自らの予測誤差から何も学習していないという訳ではないであろう。だがそれ以前の問題として、生成モデルとしての再帰的ニューラルネットワークの直接的な機能は、未来予測ではなく、真の分布の推論である。そもそもの問題設定において、このモデルテクニカル派チャーティストたちの延長線上に位置付けられる訳ではないのである。

問題解決策:価格変動モデル

深層学習のとりわけ再帰的ニューラルネットワーク理論は、統計的機械学習問題の枠組みとの関連から、この再帰的な学習推論を介した価格変動の予測モデル可能にしている。いわゆる「価格変動モデル(Volatility models)」は、この予測モデルの一種として、価格変動過程の力学特徴を反映させて設計される。このモデル機能は、時系列における変動(fluctuation)を測定して予測することにある。モデリングではまず、価格変動がそれまでの歴史に依存しているという前提から、ヒストリカルデータの条件付き分散(conditional variance)を仮定する。その主導的差異は、決定論的(deterministic)な条件付き分散確率論的(stochastic)な条件付き分散区別によって構成される。

GARCHモデル

決定論的な価格変動モデルの代表例となるのは、1994年にロバート・エングルらが提案した「一般化自己回帰的条件付き分散不均一過程(Generalised autoregressive conditional heteroscedastic processes; GARCH processes)」である。GARCHモデルは線形モデルを備えたモデルとして知られている。このモデルでは、現在における条件付き分散が過去からの観測分散の線形関数として定式化されている。

$$\sigma_t^2 = \alpha_0 + \sum_{i=1}^{p}\alpha_ix_{i-1}^2 + \sum_{j=1}^{q}\beta_j\sigma_{t-j}^2$$

$$x_t \sim \mathrm{N}(0, \sigma_t^2)$$

$$x_t$$の観測は平均が0で分散が$$\sigma_t^2$$のガウス分布のサンプリングに基づいている。この条件付き分散は前回の観測分散に準拠した線形関数によって決定論的に規定される。q=0の場合、このモデルは特にGARCHの前身に当たるARCHのモデルとなる。

確率的変動モデル

スティーブン・ヘストンの確率的変動モデル(stochastic volatility models)は、一変量過程の連続時間における確率的変動モデルとして1993年に導入されている。

$$d\sigma(t) = -\beta \sigma(t)dt + \delta dw^{\sigma}(t)$$

$$dx(t) = (\mu – 0.5 \sigma^2(t))dt + \sigma (t) dw^x(t)$$

ここで、$$x(t) = \log s(t)$$は時間tにおける株価$$s_t$$の対数にほかならない。また$$w^x(t)$$と$$w^{\sigma}(t)$$は二つの相関のあるウィナー過程(Wiener processes)である。そして$$dw^x(t)$$と$$dw^{\sigma}(t)$$は$$\mathbb{E}[dw^x(t) \cdot dw^{\sigma}(t)] = \rho dt$$となる。

実用化の観点では、こうした確率的変動モデルは、離散時間を想定して様々な亜種へと改良されている。

観測系列と潜在確率過程の差異

この関連から指摘しておくべきなのは、確率論的なモデルにおいては、観測データ点が前回までのヒストリカルデータに準じた条件付き分散のみならず潜在確率過程(latent stochastic process)にも依存しているということである。この潜在確率過程離散時間におけるガウシアンのホワイトノイズによって生成されると想定されていた。後にワン・シュンらが2018年に提出した「確率的ニューラル価格変動モデル(A neural stochastic volatility model)」の論文では、この潜在確率過程観測系列区別を導入することにより、「決定論的」と「確率論的」の区別棄却すると同時に、価格変動モデル一般化が試みられている。

観測系列を$$\{x_t\}$$、潜在確率過程を$$\{z_t\}$$と表記するなら、上述した価格変動モデル力学は次のように抽象化された上で再記述される。

$$\sigma_t^2 = f(\sigma_{ < t}^2, x_{ < t}, z_{\le t}) = \sum_{}^x(x_{ < t}, z_{\le t})$$ この定式が表すのは、全ての時点$$\tau < t$$において、$$f(\sigma_{ < \tau}^2, x_{ < \tau}, z_{\le \tau})$$を伴わせた$$\sigma_{\tau}^2$$を再帰的に代替することができる。GARCHをはじめとした決定論的なモデルでは、$$\sum_{}^x(x_{ < t}, z_{\le t})$$における$$z_{\le t}$$を捨象することになる。一方確率論的なモデルでは、代わりに$$x_{ < t}$$を無視することになる。双方のモデルを汎化させる場合、$$x_t$$は平均ゼロから時変平均(time-varying mean)へと制約を緩めることで、モデルはより柔軟な拡張性を獲得する。

自己回帰の力学

確率論的な価格変動モデルでは、潜在確率過程はガウシアンのホワイトノイズで設定されていた。一方、一般化された価格変動モデルでは、自己回帰的力学(autoregressive dynamics)に準拠した上で拡張される。ヒストリカルデータにおいて、平均$$\mu^z(z _{>t})$$と分散 $$\Sigma^z(z_{ < t})$$は自己回帰的形式関数となる。そのため、一般化されたモデルは次のように定式化される。

$$z_t\mid z_{ < t} \sim \mathrm{N}(\mu^z(z_{ < t}), \Sigma^z(z_{ < t})$$ $$x_t \mid x_{ < t}, z_{\le t} \sim \mathrm{N}(\mu^x(x_{ < t}, z_{\le t}), \Sigma^x (x_{ < t}, z_{\le t})$$ ここで、観測変数 $$x_t$$と潜在変数$$z_t$$は共にガウス分布に基づいてサンプリングされる。また、$$\mu^z(z_{\le t}) \equiv 0$$で、かつ$$\Sigma^z(z_{\le t}) \equiv \sigma_z^2$$の時、この自己回帰的モデル確率論モデル同様にホワイトノイズを生成する。潜在変数$$z_t$$の自己回帰的構造が強調されているのは、ファイナンス様相観測する上で、ホワイトノイズを仮定している確率論的なモデルよりも、自己回帰的形式から生成されたデータの方がより現実に適合し得ると信じられているためである。ある株式価格変動は、それ自体の歴史だけではなく、環境による影響結果でもある。そうした環境には、競争者、産業、市場における関連する他企業など、様々な要因が潜在化している。潜在変数を設定することの機能は、こうした内的な要因と外的な要因を区別することを可能にする点にある。

問題解決策:確率論的ニューラル価格変動モデル

ワン・シュンらが2018年論文において、「確率的ニューラル価格変動モデル(neural stochastic volatility model; NSVM)」は、この一般化されたモデル拡張することで導入されている。時間tにおける観測変数$$x_t$$と潜在変数$$z_t$$の確率分布をそれぞれ$$p_{\phi}(x_t \mid x_{ < t}, z_{\le t})$$と$$p_{\phi}(z_t \mid z_{\le t})$$とするなら、両系列$$\{x_t\}, \{z_t\}$$の結合分布には次のような因数分解を施すことができる。

$$p_{\phi}(Z) = \prod_{t}^{}p_{\phi}(z_t\mid z_{ < t}) = \prod_t^{}\mathcal{N}(z_t; \mu_{phi}^z(z_{ < t}), \Sigma_{\phi}^z(z_{ < t}))$$ $$p_{\phi}(X\mid Z) = \prod_t^{}p_{\phi}(x_t \mid x_{ < t}, z_{\le t}) = \prod_t^{}\mathcal{N}(x_t;\mu_{\phi}^x(x_{ < t}, z_{\le t}), \Sigma_{\phi}^x(x_{ < t}, z_{\le t}))$$ ここで、$$X = \{x_t\}_{1:T}, Z = \{z_t\}_{1:T}$$は、それぞれ観測変数と潜在変数の系列表現である。また$$\phi$$は生成モデルのパラメタの集合意味する。非条件付き生成モデルは次のような結合分布で表される。

$$p_{\phi}(X, Z) = \prod_t^{}p_{\phi}(x_t\mid x_{ < t}, z_{\le t}) p_{\phi}(z_t \mid z_{\le t})$$ この場合、平均と分散は条件付きで決定論的になる。ヒストリカルデータ情報から潜在変数系列$$\{z_{ < t}\}$$が得られるなら、その現在における平均と分散はそれぞれ$$\mu_t^z = \mu_{\phi}^z(z_{ < t})$$と$$\Sigma_{t}^z = \Sigma_{\phi}^z(z_{ < t})$$で表される。これら二つの情報があれば、$$\mathcal{N}(z_t; \mu_t^z, \Sigma_t^z)$$は規定される。この分布からのサンプリングが済めば、観測変数系列$$\{x_t\}$$との関連付けが可能になる。その現在における平均と分散はそれぞれ$$\mu_t^x = \mu_{\phi}^x(x_{ < t}, z_{\le t})$$と$$\Sigma_t^x = \Sigma_{\phi}^x(x_{ < t}, z_{\le t})$$となる。これにより$$\mathcal{N}(x_t; \mu_t^x, \Sigma_t^x)$$も規定される。

生成ネットワークとしての再帰的ニューラルネットワーク

この再帰的(recurrent)な表現形式自然で利便的になるのは、その自己回帰的質のためである。再帰的ニューラルネットワークが任意の再帰的な形式関数に対する関数近似として機能するために、複合性の高い非線形力学によって駆動されているその分布の平均と分散は、再帰的ニューラルネットワークによって効率的に計算され得る。

非条件付き生成モデル再帰的ニューラルネットワークと多層パーセプトロンによって構成されている。潜在変数に対応するのはで、観測変数に対応するの$$RNN_{G}^x$$と$$MLP_{G}^x$$である。これら二種類のモデルは、観測変数と潜在変数における因果的な依存に基づいて積層(stacked)される。形式化するなら、こうした非条件付き生成モデルはある種の「生成ネットワーク(generative network)」として実装される。

$$\{\mu_t^z, \Sigma_t^z\} = MLP_G^z(h_t^z; \phi)$$

$$h_t^z = RNN^z_G(h_{t-1}^z, z_{t-1}; \phi)$$

$$z_t \sim \mathcal{N}(\mu_t^z, \Sigma_t^z)$$

$$\{\mu_t^x, \Sigma_t^x \} = MLP_G^x(h_t^x; \phi)$$

$$h_t^x = RNN_G^x(h_{t-1}^x, x_{t-1}, z_t; \phi)$$

$$x_t \sim \mathcal{N}(\mu_t^x,\Sigma_t^x)$$

ここで、$$h_t^z$$と$$h_t^x$$はそれぞれRNN隠れ層の状態を意味する。MLPの機能はこのRNN隠れ層の状態を平均と分散へと特徴写像する点にある。パラメタ集合$$\phi$$はRNNとMLPの重み行列として設定される。こうしてニューラルネットワークモデルに組み込むことにより、価格変動モデルは潜在変数$$z_t$$がガウス分布$$\mathcal{N}(0, 1)$$からサンプリングされるという制約からも解放される。潜在変数はもはや「ノイズ(Noise)」ではない。それは自己発展的な質を有する外部過程からの時変信号として再記述される。

潜在変数が推論(inference)によって得られた場合、条件付き分布$$p_{\phi}(X \mid Z)$$は結合分布$$p_{\phi}(X, Z)$$の代わりとして、観測変数$$x_t$$を生成することになる。この生成によって、モデルは過去の歴史から未来のシナリオを予測することが可能になる。この兼ね合いからていけば、もはや非条件付き生成モデルと条件付き生成モデル区別棄却して構わなくなる。これは単に「生成モデル(generative model)」と呼んで構わない。

生成モデルの定式には潜在変数$$z_t$$が含まれている。故に観測者は、単に$$x_t$$を観測しただけではその真の分布を参照したことにならない。それ故、周辺分布$$p_{\phi}(X)$$はモデルデータを橋渡しするための鍵となる。しかしながらそのためには積分の計算複合性が高まってしまう。$$\log p_{\phi}(X)$$の微分からも、真の事後分布を通じた潜在変数の推論からも、パラメタを学習することはできない。したがって、近似事後分布に接続できる扱い易い分布$$q_{\psi}(Z \mid X)$$の制約を導入することによって、事後分布$$p_{\phi}(Z\mid X)$$の近似を試みる必要がある。

平均場近似の推論ネットワーク

いずれの$$1 \le t \le T$$においても、観測系列$$X = \{x_{1:T}\}$$が得られるなら、$$z_t$$は観測系列全体に依存する。そのため、平均場近似に基づく推論モデルを導入することが可能になる。ここで近似事後分布はガウス分布に従う。それは次のような因数分解を可能にしている。

$$q_{\psi}(Z \mid X) = \prod_{t=1}^T q_{\psi}(z_t \mid z_{ < t}, x_{1:T})$$ $$= \prod_{t}^{}\mathcal{N}(z_t; \tilde{\mu}_{\psi}^z(z_{ < t}, x_{1:T}), \tilde{\Sigma}_{\psi}^z(z_{ < t}, x_{1:T}))$$ ここで、$$\tilde{\mu}_{\psi}^z(z_{t-1}, x_{1:T})$$と$$\tilde{\Sigma}_{\psi}^z(z_{t-1}, x_{1:T})$$は、得られた観測系列$$\{x_{1:T}\}$$の関数である。それは潜在変数$$z_t$$の近似平均と近似分散を表す。また$$\psi$$は推論モデルのパラメタ集合意味する。

このモデルニューラルネットワークとしての実装系を「推論ネットワーク(inference network)」と呼ぶ。このモデル自己回帰的RNNや双方向的RNN(bidirectional RNN)の直列の深層アーキテクチャを備えて設計される。双方向的RNN観測全体に対する順伝播と逆伝播を実行する一方で、自己回帰的RNNは潜在変数に対する時間依存をモデル化する。

$$\{\tilde{\mu}_t^z, \tilde{\Sigma}_t^z\} = MLP_I^z(\tilde{h}_t^z; \psi)$$

$$\tilde{h}_t^z = RNN_I^z(\tilde{h}_{t-1}^z, z_{t-1}, [\tilde{h}_t^{\rightarrow}, \tilde{h}_t^{\leftarrow}];\psi)$$

$$\tilde{h}_t^{\rightarrow} = RNN_I^{\rightarrow}(h_{t-1}^{\rightarrow}, x_{t-1}; \psi)$$

$$\tilde{h}_t^{\leftarrow} = RNN_I^{\leftarrow}(\tilde{h}_{t+1}^{\leftarrow}, x_{t+1}; \psi)$$

$$z_t \sim \mathcal{N}(\tilde{\mu}_t^z, \tilde{\Sigma}_t^z; \psi)$$

ここで、$$\tilde{h}_t^{\rightarrow}$$と$$\tilde{h}_t^{\leftarrow}$$は双方向的RNNの順伝播と逆伝播における隠れ層の状態を表す。また隠れ層の状態 $$\tilde{h}_t^z$$を持つ自己回帰的RNNは双方向的RNN結合状態 $$[\tilde{h}_t^{\rightarrow}, \tilde{h}_t^{\leftarrow}]$$と前回の値である$$z_{t-1}$$を入力として受け取る。推論された平均$$\tilde{\mu}_t^z$$と分散$$\tilde{\Sigma}_t^z$$は自己回帰的RNN隠れ層の状態$$\tilde{h}_t^z$$を観測するMLPによって計算される。生成モデルの定式ではGの下付き文字使用していたのに対して、この推論モデルではIの下付き文字使用している。

自己回帰的な生成分布

未来の観測を予測することがこの生成ネットワークと推論ネットワークの協働によって如何にして可能になるのかを知るには、まず1ステップ前方の予測(1-step-ahead prediction)から吟味しなければならない。ヒストリカルデータから観測$$\{x_{1:T}\}$$が得られている場合、$$\Sigma_{T+1}^x$$や$$x_{T+1}$$の1ステップ前方の予測は、条件付きの予測分布によって網羅的に記述することができる。

$$p(x_{T+1} \mid x_{1:T}) = \int_{z}^{} p(x_{T+1} \mid z_{1:T+1}, x_{1:T}) \cdot p(z_{T+1} \mid z_{1:T})p(z_{1:T} \mid x_{1:T}) dz$$

ここで、右辺の分布は生成パラメタ$$\psi$$を省略した生成モデルに言及している。上記の定式において、真の事後分布$$p(z_{1:T} \mid x_{1:T})$$は扱い易い訳ではない。条件付きの予測分布$$p(x_{T+1} \mid x_{1:T})$$の正確な評価は困難である。

この問題に対する直接的な問題解決策となるのは、真の事後分布$$p(z_{1:T} \mid x_{1:T})$$を近似分布 $$q(z_{1:T} \mid x_{1:T})$$に代替すると共に、$$q(z_{1:T}\mid x_{1:T})$$を利用することで、ヒストリカルデータ観測変数$$\{x_{1:T}\}$$に基づいてS個の潜在変数のサンプルパス$$\{z_{1:T}^{\langle 1:S \rangle}\}$$を推論することである。良質な学習済みモデルによって得られる近似事後分布は、真の事後分布の良き近似となる。そのため、このサンプルパスは真の事後分布模倣(mimics)でありながら観測可能なサンプルパスとなる。このサンプルパスは、自己回帰的な生成分布$$p(z_{T+1} \mid z_{1:T})$$を利用することによって、TからT+1へと拡張することができる。条件付きの予測分布は、したがって、次のように近似される。

$$\tilde{p}(x_{T+1} \mid x_{1:T}) \approx \frac{1}{S}\sum_{s}^{} p(x_{T+1} \mid z_{1:T}^{\langle s \rangle}, x_{1:T})$$

この近似された分布は本質的にS個のガウス分布の混合となる。多ステップの予測の場合には、実用上共通問題解決策再帰的に導入される。つまり、1ステップ前方の予測を新しい観測データ点が入力されるたびにモデルを更新していくように再帰的に適用するのである。

機能的等価物の探索:Encoder/Decoder based on LSTM

RNNを用いた価格変動の予測モデル短期記憶長期記憶区別の導入を可能にしたLong-Short Term Memory Networks(LSTM Networks)へと構造的に拡張させるのは、ファイナンスの領域でも道理と見做されている。例えばウェイ・バーらが2017年に発表した「積層自己符号化器とLong-Short Term Memoryを利用した金融系列のための深層学習フレームワーク(A deep learning framework for financial time series using stacked autoencoders and long-short term memory)」と題される論文では、ウェーブレット変換(wavelet transforms)、積層自己符号化器、そしてLSTMを組み合わせた時系列の予測モデルが提案されている。

Bao, W., Yue, J., & Rao, Y. (2017). A deep learning framework for financial time series using stacked autoencoders and long-short term memory. PloS one, 12(7), e0180944., Fig 1. The flowchart of the proposed deep learning framework for financial time series. より掲載。

このフレームワークでは、金融系列の予測が三つの段階に区別される。第一に、ノイズ排除するために、株価の時系列ウェーブレット変換によって分解する。加えて第二に、積層自己符号化器によって、株価の予測のために高次元の特徴点を生成する。そして第三に、ノイズ除去が施された高次元の特徴点LSTMに入力することで、1ステップ前方の、つまり翌日の株価を予測する。

このフレームワークが注目を集めたのは、金融系列に対する特徴選択(feature selection)とフィッティング(fitting)の代わりに積層自己符号化器を援用した特徴抽出(feature extracting)を実施した先駆的な研究であったためだ。だが表現学習観点からていけば、特徴抽出機能を担うのがこの積層自己符号化器である必然性は無い。あるいは再帰的ニューラルネットワークEncoder/Decoderのネットワーク構造結合させることによっても、機能的等価物を設計できる。

ジョナサン・レバンらは2018年、暗号通貨(Cyrptocurrency)の一つであるビットコイン(Bitcoin)の価格(price)を予測するために、再帰的ニューラルネットワークの一つであるGated Recurrent Units(GRU)の統計的方法を検証している。その際、短期と長期の観点から、RNNEncoder/Decoderとして構造化させた学習モデルの一種であるSequence-to-Sequence(Seq2Seq)に基づいた予測モデルと、自己回帰的モデルの標準的な「自己回帰和分移動平均(Autoregressive, Integrated and Moving Average; ARIMA)」とを、精度の面で比較している。結果としてSeq2Seqモデルは、Bitcoin USD予測において、ARIMAのモデルよりも高い精度を発揮した。だが価格下落が発生した直後の時点からは、このSeq2Seqでもパフォーマンスが低下したという。これは、このモデルが過去の不安定な下落に関するヒストリカルデータを用いて訓練されていなかったことの論理的帰結であると結論付けられている。

しかし暴落や高騰を想定した機械学習の訓練は、通常難易度が高い。何故ならそうしたヒストリカルデータは、暴落や高騰を境にして、異なる確率分布を示す可能性があるためだ。それ故に、訓練とテストで入力するヒストリカルデータは、事前にウェーブレット変換をはじめとしたノイズ除去を施しておくことが有用となる。あるいはEncoder/Decoderのネットワーク構造を前提とすれば、このモデルEncDec-AD異常検知モデルとしても機能的再利用できる。モデルの利用次第では、暴落や高騰のような確率分布が変異する時点を異常と見立てて検知することも不可能ではないであろう。

機能的等価物の探索:敵対的生成ネットワーク

確率的ニューラル価格変動モデルで導入されている「生成ネットワーク」と「推論ネットワーク」の区別は、「敵対的生成ネットワーク(Generative Adversarial Nets; GANs)」のフレームワークでも設計することができる。敵対的生成ネットワークの定式は、生成器(Generator)と識別器(Discriminator)の区別を導入するところから始まる。GANのフレームワークでは、まず生成器の分布$$p_g$$を観測データ点$$x$$のもとで学習するために、事前分布として、入力ノイズ変数$$p_z(z)$$を定義する。そしてデータ空間写像を$$G(z; \theta_g)$$として表現する。ここで、$$G$$は、微分可能関数で、パラメタ$$\theta_g$$に基づいた多層パーセプトロンによって表現できる。更に、第二の多層パーセプトロンとして、単一のスカラを出力する識別機のモデル$$D(x; \theta_d)$$を定義する。$$D(x)$$は、$$x$$が生成器によって出力された$$p_g$$ではなく観測データ点それ自体である確率を表す。

このGANのフレームワークを価格変動モデルとして機能的再利用するなら、そのネットワーク構造は以下のようになる。

Zhou, X., Pan, Z., Hu, G., Tang, S., & Zhao, C. (2018). Stock market prediction on high-frequency data using generative adversarial nets. Mathematical Problems in Engineering, 2018., p3.より掲載。

ここで、真の分布のサンプラーはヒストリカルデータを、生成器は疑似的なヒストリカルデータを、それぞれ出力する。識別器はこれら双方を観察することで、真のヒストリカルデータと偽のヒストリカルデータを識別することになる。ここまでの着想自体は、フレームワークの諸概念に価格変動モデルの諸要素を代入するだけの素朴な応用に留まる。むしろ着目するべきなのは、株価やその変動の予測にGANのフレームワークを応用した場合の、敵対的な訓練において得られる誤差(loss)の概念の意味するところである。

「何故敵対的誤差を利用するのかに関する我々の主な直観(intuition)は、それが金融トレーダーの運用の習慣をシミュレートできるためだ。経験豊富なトレーダーは、通常、生成モデルGに操作された利用可能な指標データを介して株価を予測してから、識別モデルDと同様に、事前の株価を利用し、自身の予測が正しい確率を判断する。」
Zhou, X., Pan, Z., Hu, G., Tang, S., & Zhao, C. (2018). Stock market prediction on high-frequency data using generative adversarial nets. Mathematical Problems in Engineering, 2018., 引用はp3.より。

つまり、GANのフレームワークを株価やその変動の予測に応用した場合、シミュレート対象として強調されるべきなのは、株価というよりはむしろトレーダーなのである。そしてこのシミュレーションは、生成器のみならず、生成器識別器の組み合わせによって可能になる。一方で生成器は、投資家投機たちと同じように、生起する見込みのある株価の変動を推論する。他方で識別器は、その株価の生成データが真に迫る内容であるか否かを判断する。この推論から意思決定までの過程は、株価観察者が株式取引に至るまでの過程を反映させている。この意味GANのフレームワークは、単に株価をシミュレートするだけで留まっていた従来の方法とは一線を画している。

機能的等価物の探索:C-RNN-GAN

系列データに対するGANsの応用例は、特に音楽の自動作曲との関連から提案されている。その一例となる「敵対的訓練による連続的再帰的ニューラルネットワーク(continuous recurrent network with adversarial training; C-RNN-GAN)」は、2016年にオロフ・モグレンによって提案されたモデルで、二つの異なる再帰的ニューラルネットワーク生成器識別器に割り当てるモデルである。通常のGANsのフレームワークと同様に、これら二つの再帰的ニューラルネットワークはゼロサムゲームを実践する。そして最終的な平衡状態に達した時、生成器は真の分布と遜色の無いデータを生成できるようになる。具体的な再帰的ニューラルネットワークとしては、特に双方向的RNNが採用される場合もあれば、LSTMが採用される場合もある。

Mogren, O. (2016). C-RNN-GAN: Continuous recurrent neural networks with adversarial training. arXiv preprint arXiv:1611.09904., p2.

機能的等価物の探索:MidiNet

C-RNN-GAN生成器に入力される事前分布のサンプルは、一様分布などからサンプリングされたアトランダムなノイズとなる。しかしその結果としてこのモデルは、先行するメロディコード系列に追従して音楽を生成する機構を喪失している。例えば即興演奏や単純なメロディの連想などのように、ある音楽から別の音楽を生成することができない。

これに対して2017年にリー・チア・ヤングらによって提案されたMidiNetでは、深層アーキテクチャ生成器識別器区別するだけではなく、更に調整器(Conditioner)を設計することで、ある音楽から別の音楽を生成する機構を実現している。MidiNet生成器識別器、調整器として採用されているのは、LSTMをはじめとする再帰的ニューラルネットワークではない。このモデルでは畳み込みニューラルネットワークが採用されている。GANのフレームワークに準拠した画像生成の場合、生成を条件付けるために利用できる事前知識を導入される傾向がある。この事前知識生成器に入力される事前分布を条件付けるのである。


Yang, L. C., Chou, S. Y., & Yang, Y. H. (2017). MidiNet: A convolutional generative adversarial network for symbolic-domain music generation. arXiv preprint arXiv:1703.10847., p3.

MidiNetにおける調整器と生成器の関連は、「畳み込み自己符号化器(Convolutional Auto-Encoder; CAE)」における符号化復号化の関連と類似している。CAEにおける復号化が転置畳み込み(Transposed convolution)であるのと同じように、MidiNet生成器もまた転置畳み込みを実行する。転置畳み込みの対象となるのは、調整器によって出力されたベクトルである。調整器は、既存のMIDIファイルから生成した作曲済みデータを対象とした畳み込みを実行している。ただし畳み込み自己符号化器との差異は、復号化に対応する生成器への入力にある。MidiNet生成器に対しては、調整器の出力とアトランダムなノイズが入力される。したがって生成器の出力は、調整器への入力とは微妙に異なるベクトルになる。

形式としての小節

MidiNet特徴は、MIDIのデータ特徴工学にも見受けられる。MidiNetでは原理的に観測する全てのMIDIのデータを「小節(bar)」に分解した上で、それらを観測データ点として調整器や識別器に入力する。小節とは、基礎的な作曲の単位である。それはコード(chord)などのような高調波の変化が常に各小節の境界上で生起するという前提に基づいた特徴工学である。歌を作曲している時の人間は、しばしば小節を構築するブロックとして利用することがある。

MidiNet生成器は、事前の小節から事後の小節を生成するモデルである。この小節の特徴工学が、MIDIのデータ畳み込みニューラルネットワークに入力できる二次元の行列の構成可能にしている。仮に縦が小節のサイズであるなら、横が系列に対応する。この表現を前提とすれば、再帰的ニューラルネットワークではなくとも、各ニューラルネットワーク系列学習することが可能になる。

機能的等価物の探索:MuseGAN

2017年、2018年にハ・ウェン・ドンらによって提案されたMuseGAN(multi-track sequential generative adversarial network)は、マルチトラック(multi-track)の多声音楽(polyphonic music)の生成を目指したMidiNet拡張案である。このモデルは、MidiNetにおける小節の特徴工学を「マルチトラック・ピアノロール表現(the multiple-track piano-roll representation)」へと拡張している。ピアノロール表現は、異なる時間ステップのノートの存在表現するスコアシートに類似した二値の行列である。この表現において、マルチトラック・ピアノロールは異なるトラックのピアノロール表現集合として定義できる。

定式化すれば、M個のトラックのピアノロール表現は、次のようなテンソルになる。

$$x \in \{0, 1\}^{R \times S \times M}$$

ここで、RとSはそれぞれ、一個の小節における時間ステップの個数とノート数を指す。T個の小節におけるM個のトラックのピアノロールは、次のようなベクトル表現になる。

$$\vec{x} = \{\vec{x}^{(t)}\}_{t=1}^T$$

ここで、$$\vec{x}^{(t)} \in \{0, 1\}^{R \times S \times M}$$

は、小節tにおけるマルチトラック・ピアノロール表現を表す。各小節と各トラックのピアノロール表現は、真の分布からサンプリングした場合でも、生成したデータであっても、固定長の行列となる。これは畳み込みニューラルネットワークへの入力を可能にするための制約となる。

作曲家と混信の差異

マルチトラックの音楽構成するからには、各トラック間の相互依存関連(Interdependency)を明確化しなければならない。MuseGANではこの関連を「作曲家モデル(Composer Model)」と「混信モデル(Jamming Model)」に区別している。

Dong, H. W., Hsiao, W. Y., Yang, L. C., & Yang, Y. H. (2018, April). MuseGAN: Multi-track sequential generative adversarial networks for symbolic music generation and accompaniment. In Thirty-Second AAAI Conference on Artificial Intelligence., p36.より掲載。

作曲家モデル」では、単一の生成器がマルチチャネルのピアノロールを生成する。各チャネルは特定のトラックに対応する。このモデルでは、単一のランダムベクトルzと、観測した音楽の真偽を識別するためにM個のトラックを集合的に観測する一つの識別器が必要になる。Mに拘わらず、このモデルでは常に単一の生成器と単一の識別器要求される。尚、zはランダムベクトルではあるものの、このモデルにおいては「作曲家の意図(intention of the composer)」と見做すことも可能であるという。

一方「混信モデル」では、複数の生成器が相互に独立して動作する。各生成器は各自のプライベートなランダムベクトル$$z_i (i = 1, 2, …, M)$$から各トラックの音楽を生成する。ここでMは生成器あるいはトラックの個数を指す。これらの生成器は、それぞれ異なる識別器によって観測される。したがってM個の生成器を評価するには、同様にM個の識別器が必要になる。学習時、各逆伝播はこのM個の生成器識別器の組み合わせごとに実行される。

MuseGANモデリングでは、「作曲家モデル」と「混信モデル」のハイブリッド型も提案されている。ここで重要となるのは、「トラック間(inter-track)」と「トラック内(intra-track)」の区別である。M個の生成器のそれぞれは入力として「トラック間」のランダムベクトルzと「トラック内」のランダムベクトル$$z_i$$を受け取る。このトラック間のランダムベクトルは、異なる音楽の生成、すなわち$$G_i$$の調整を丁度作曲家が実践するかのように実現すると期待される。加えて、MuseGANモデリングでは、これらM個のトラックを単一の識別器集合的に評価する。それはつまり、M個の生成器に対して一個の識別器しか必要にならないということである。

作曲家モデル」とハイブリッドモデル決定的な差異は、その柔軟(flexibility)にある。ハイブリッドモデルでは、層数やフィルタサイズなどのような要因から異なる深層アーキテクチャと異なるM個の生成器に対して異なる入力を利用することができる。したがって、例えばトラック間の相互依存関係を崩すことなく一つの特定のトラックを変更することもできる。

「スクラッチからの生成」と「トラック条件付き生成」の差異

MidiNetモデルでは、生成器識別器区別ではなく、調整器と識別器生成器区別が導入されていた。これに対してMuseGANの概念では、調整器に位置付けられる概念が生成器の中に包含されている。そしてMuseGANモデルでは、これとはまた別様の区別として、「スクラッチからの生成(Generation from Scratch)」と「トラック条件付き生成(Track-conditional Generation)」の区別が導入されている。

Dong, H. W., Hsiao, W. Y., Yang, L. C., & Yang, Y. H. (2018, April). MuseGAN: Multi-track sequential generative adversarial networks for symbolic music generation and accompaniment. In Thirty-Second AAAI Conference on Artificial Intelligence., p36.より掲載。

「スクラッチからの生成」は、生成器を成長させるための別の次元として小節の進行を観察することによって、固定長の音楽フレーズを生成することを目的としたモデルである。この方法では、生成器が更に二つのサブ生成器へ特別される。一つが「時間構造生成器(temporal structure generator)」で、もう一つが「小節生成器(bar generator)」である。時間構造生成器ノイズベクトルzの特徴写像として幾つかの潜在ベクトルを出力する。この潜在ベクトルを特に$$\vec{z} = \{\vec{z}^{(t)}\}_{t=1}^T$$と表す。この潜在ベクトルは時間的な情報を処理した結果であると考えられる。この潜在ベクトルが小節生成器に入力されると、この生成器は時系列的にピアノロール表現特徴点を出力する。このような機能を有した時間構造生成器と小節生成器をそれぞれ $$G_{temp}, G_{bar}$$とするなら、生成器Gの機能は次のようになる。

$$G(z) = \{G_{bar}(G_{temp}(z)^{(t)})\}_{t=1}^T$$

一方、「トラック条件付き生成」では、一つのトラックの小説系列$$\vec{y}$$が人間によって与えられると想定される。モデルはこのトラックによって時間構造学習すると共に、残りのトラックを生成する。これにより、人間が与えた部分的な小説系列から、音楽を完成させる。トラック条件付き生成器を$$G^{\circ}$$とするなら、この生成器は条件付き小節生成器$$G_{bar}^{\circ}$$によって、ある小節から別の小説を生成することになる。小節tにおける残りの小説のマルチトラック・ピアノロール表現は、したがって$$G_{bar}^{\circ}$$から出力される。この生成器は二つの入力を受け取る。一つが$$\vec{y}^t{($)}$$で、もう一つが時間依存(time-dependent)のランダムベクトル$$\vec{z}^{(t)}$$である。高次元の条件付き生成を可能にするために、「トラック条件付き生成」では、新たなもう一つの符号化器(Encoder)が導入されている。この符号化器Eは、$$\vec{y}^{(t)}$$の特徴写像として$$\vec{z}^{(t)}$$を出力する。以上の定式化から生成器機能は、次のようになる。

$$G^{\circ}(\vec{z}, \vec{y}) = \{G_{bar}^{\circ}(\vec{z}^{(t)}, E(\vec{y}^{(t)}))\}_{t=1}^{T}$$

トラック内の特徴は他のトラックを生成する上では有用ではない。そのため符号化器は、所与のトラックからトラック内の特徴抽出するのではなく、トラック間の特徴抽出することが期待される。

MuseGANのネットワーク構造

MuseGANは以上の生成モデルを統合することで設計されている。MuseGANへの入力は$$\bar{z}$$と表記される。これは「トラック間」の時間に依存しない(time-independent)ランダムベクトル$$z$$、「トラック内」の時間に依存しないランダムベクトル$$z_i$$、「トラック間」の時間に依存するランダムベクトル$$z_t$$、そして「トラック内」の時間に依存するランダムベクトル$$z_{i, t}$$によって構成される。

Dong, H. W., Hsiao, W. Y., Yang, L. C., & Yang, Y. H. (2018, April). MuseGAN: Multi-track sequential generative adversarial networks for symbolic music generation and accompaniment. In Thirty-Second AAAI Conference on Artificial Intelligence., p37.より掲載。

M個のトラックのうち、i番目のトラックにおいて、$$G_{temp}$$とプライベートな時間構造を表す$$G_{temp, i}$$は、それぞれ$$z_t$$と$$z_{t, i}$$を処理する。そしてこれらの生成器はそれぞれ「トラック間」と「トラック内」の時間情報圧縮した潜在ベクトルを出力する。$$G_{bar}$$に入力されるのは、$$z$$と$$z_i$$を結合したベクトルである。これを前提とすれば、ピアノロール表現は次のようになる。

$$G(\bar{z}) = \{G_{bar, i}(z, G_{temp}(z_t)^{(t)}, z_i, G_{temp, i}(z_i, t)^{(t)})\}_{i,t=1}^{M,T}$$

派生問題:音楽の形象は如何にして可能になるのか

ここまでの等価機能分析は、音楽作曲を見据えて設計されているGANsモデルが、価格変動モデル機能的等価物となり得ることを指し示している。これは、音楽に対する表現学習能力と汎化能力が、価格変動の真の分布を学習する上でも有用になり得るという発想である。価格変動が常に音楽的な構造を示すとは限らない。だが音楽的な構造を示した場合にも対応できるようにモデルとその機能的等価物を配備しておくことは、有意義な発見探索可能にする。

価格変動音楽の比喩で記述する取り組みは、テクニカル派チャーティストたちからも提案されている。しかしその尽くは、「人間」によって観測可能パターンの描写でしかない。

「これらの振動にはある種の規則があるのであろうか。もしそうであると信じるなら、サイクル分析は価格を複合的なハーモニーや波の形式(a form of complex harmonics or waves)として見ることになる。(物理学では、倍音(harmonic)は周波数が他の波の周波数の整数倍である波である。)最も標準的なパターンは、サイクルの層に落とし込まれられている可能性がある。例えば、三尊天井(the head-and-shoulders)のパターンは、頭と肩を形成する幾つかの短期的なサイクルをピークとして伴わせた長期的なサイクルの組み合わせとなる。三角保合い(Triangles)は、小さい周期の振幅が減少してから拡大する時における上昇トレンド内の期間となる。パターンハーモニーとして細分化することにより、これらの分析者たちは、固有振動はやや規則的な周期になるが故に予測可能であると信じることとなる。」
Kirkpatrick II, C. D., & Dahlquist, J. A. (2010). Technical analysis: the complete resource for financial market technicians. FT press., p449.より引用

価格変動の中から音楽物理学的な形象を見出す記述は、既にハミルトンが取り組んでいたことである。ハミルトンは四半世紀の市場の傾向を観察することで、その運動に「大まかな周期(rough periodicity)」を見出している。また彼は別の個所で次のようにも主張することで、ダウ理論の未来予測的なユースケースを肯定している。

市場の運動は全て利用可能な真の知識(real knowledge)を反映させている。そして日々の取引は良いものといものを分ける。(略)ケプラーやニュートンになることのできる者は少ない。しかし、人々が必然的にその人生を形作らなければならない将来についての未来予測において、誰もを助け保護するように働く規則を定式化することは可能である。」
Hamilton, W. P. (1922). The Stock Market Barometer; a Study of Its Forecast Value Based on Charles H. Dow’s Theory of the Price Movement. Harper & Bros., p127.より引用

しかし、実際ハミルトンは市場の運動に物理学的な理論を導入することには慎重であった。何故なら彼にとってそれは、科学的な主題としてのみならず、宗教的教義主題、すなわち祭儀(cult)にもなり得たためである。

「私は本質的に科学的に取り扱われている主題一般的に興味深い主題にすることを試みているものの、実際には勿論、説教(sermons)がこれまでにも人気があるのならば、私はこのことについて独断(dogmatize)したくはない。あらゆる教示における問題、そしてあらゆる教師にとっての倫理的な危機となるのは、教師たちに必然的に伴う権威によって、その教師取引を何らかのめいたものにしてしまうということである。そうした教師の恥ずかしい競争を排除したいという無意識の欲望によって、その教師がその主題についての正しい知識を習得する上で遭遇することになる困難が誇張されることになる。短時間で、人間に関する事柄が急に襲い掛かってくるように、そこにはそれが無ければ別の単純な命題を増幅して複合化させるような一種の祭儀(cult)が生じるであろう。あらゆる宗教権(priesthood)を授与する。そこにおいては、聖職の継承はより重要となる。少なからずそれは、単なる救済(salvation)よりも、嫉妬深く擁護される。」
Hamilton, W. P. (1922). The Stock Market Barometer; a Study of Its Forecast Value Based on Charles H. Dow’s Theory of the Price Movement. Harper & Bros., pp124-125.より引用

そして同時にハミルトンは、物理学的な理論の限界も指摘する。

株式市場のバロメータは流動が高く不定で計り知れない諸要素、つまり人間質そのものを含めた、考え得るものの全て(every conceivable thing)を取り扱っている。したがって我々は、物理科学の力学的な正確期待することはできない。」
Hamilton, W. P. (1922). The Stock Market Barometer; a Study of Its Forecast Value Based on Charles H. Dow’s Theory of the Price Movement. Harper & Bros., p152.より引用

ここでハミルトンが指摘する「考え得るものの全て(every conceivable thing)」という概念は、あくまで力学的な正確制約可能性だけを指し示している。上述した通り、株式市場のバロメータが言及している<考え得るもの全て>という概念は、社会システムにおける自己言及パラドックスを孕んでいる。人間質を含めた流動的かつ不定で計り知れない諸要素が力学的な正確を制約するのではなく、ただこのパラドックスが、物理学的な観察を遮断させてしまうのである。

だがパラドックスによって遮断されるのは、本来物理学的な観察だけではない。価格変動の中から音楽物理学的な形象を見出す観察パラドックスによって遮断されてしまう一方で、ダウ理論意味処理規則に準拠したハミルトンの観察が遮断されずにいたのは、株価平均「線」による変化「点」検知という発見探索的な姿勢が、潜在的な脱パラドックス化形式として機能していたためである。この発見探索的な姿勢を――まさにそれ自体発見探索的な姿勢によって――物理学的な観察においても機能的再利用すれば、社会システムにおける自己言及パラドックス脱パラドックス化した上で、物理学的な観察に注力することが可能になる。

音楽物理学的な形象が重視されるべきなのは、未来予測に拘るテクニカル派チャーティストたちの認識とは異なり、その諸々がハミルトンにおける株価平均「線」の機能的等価物として導入された場合である。つまり音楽物理学的な形象価格変動モデルの設計に資する意味論となり得るのは、発見探索的な姿勢による変化点検知機能として導入された場合なのである。

参考文献

  • Bachelier, L. (1900). Théorie de la spéculation. In Annales scientifiques de l’École normale supérieure (Vol. 17, pp. 21-86).
  • Bao, W., Yue, J., & Rao, Y. (2017). A deep learning framework for financial time series using stacked autoencoders and long-short term memory. PloS one, 12(7), e0180944.
  • Bollerslev, T., Engle, R. F., & Nelson, D. B. (1994). ARCH models. Handbook of econometrics, 4, 2959-3038.
  • Brown, S. J., Goetzmann, W. N., & Kumar, A. (1998). The Dow theory: William Peter Hamilton’s track record reconsidered. The Journal of finance, 53(4), 1311-1333.
  • Cowles 3rd, A. (1933). Can stock market forecasters forecast?. Econometrica: Journal of the Econometric Society, 309-324.
  • Dong, H. W., Hsiao, W. Y., Yang, L. C., & Yang, Y. H. (2017). MuseGAN: Demonstration of a convolutional GAN based model for generating multi-track piano-rolls. In Late Breaking/Demos, 18th International Society for Music Information Retrieval Conference (ISMIR).
  • Dong, H. W., Hsiao, W. Y., Yang, L. C., & Yang, Y. H. (2018, April). MuseGAN: Multi-track sequential generative adversarial networks for symbolic music generation and accompaniment. In Thirty-Second AAAI Conference on Artificial Intelligence.
  • Engle, R. F. (1982). Autoregressive conditional heteroscedasticity with estimates of the variance of United Kingdom inflation. Econometrica: Journal of the Econometric Society, 987-1007.
  • Hamilton, W. P. (1922). The Stock Market Barometer; a Study of Its Forecast Value Based on Charles H. Dow’s Theory of the Price Movement. Harper & Bros.
  • Heston, S. L. (1993). A closed-form solution for options with stochastic volatility with applications to bond and currency options. The review of financial studies, 6(2), 327-343.
  • Hollis, T., Viscardi, A., & Yi, S. E. (2018). A Comparison of LSTMs and Attention Mechanisms for Forecasting Financial Time Series. arXiv preprint arXiv:1812.07699.
  • Kendall, M. G., & Hill, A. B. (1953). The analysis of economic time-series-part i: Prices. Journal of the Royal Statistical Society. Series A (General), 116(1), 11-34.
  • Kirkpatrick II, C. D., & Dahlquist, J. A. (2010). Technical analysis: the complete resource for financial market technicians. FT press.
  • Malkiel, B. G. (1996). A Random Walk Down Wallstreet (6. edition). New York.
  • Mogren, O. (2016). C-RNN-GAN: Continuous recurrent neural networks with adversarial training. arXiv preprint arXiv:1611.09904.
  • Nelson, S. A. (1912). The ABC of Stock Speculation (Vol. 5). Doubleday, Page.
  • Rebane, J., Karlsson, I., Denic, S., & Papapetrou, P. (2018). Seq2Seq RNNs and ARIMA models for cryptocurrency prediction: A comparative study.
  • Roberts, H. V. (1959). Stock-market “patterns” and financial analysis: methodological suggestions. The Journal of Finance, 14(1), 1-10.
  • Robert, R. (1932). Dow Theory. Baron’s: New York, NY.
  • Wiener, Norbert. (1961). Cybernetics or Control and Communication in the Animal and the Machine (Vol. 25). MIT press.
  • Yang, L. C., Chou, S. Y., & Yang, Y. H. (2017). MidiNet: A convolutional generative adversarial network for symbolic-domain music generation. arXiv preprint arXiv:1703.10847.
  • Zhou, X., Pan, Z., Hu, G., Tang, S., & Zhao, C. (2018). Stock market prediction on high-frequency data using generative adversarial nets. Mathematical Problems in Engineering, 2018.
  • 竹田聡(著)『証券投資理論と実際 ―MPTの誕生から行動ファイナンスへの理論史―』学文社、2009