探偵の機能的等価物としての異常検知モデル、謎解きの推論アルゴリズム | Accel Brain

探偵の機能的等価物としての異常検知モデル、謎解きの推論アルゴリズム

Accel Brain; Console×

派生問題:探偵の推論は如何にして可能になるのか

ポーは群衆の姿を暗号として叙述している。人間が暗号であるというのは、大都市の集団について市民階級が抱く歪んだ歴史経験である。実際、都市人間は見ず知らずの間柄で社会化されている。だからこそ大衆は、反社会的な人間を迫害者たちから守る避難所として機能している。隣に住む者の顔と名前すら知らない社会関係は、都市生活に対する不安や脅威を生み出す。

密集し、大衆化した諸個人は、皆見ず知らずの関係であり、それ故に恥を知る必要が無い。ボードレールが述べていたように、群衆観察者としての遊歩者は、至る所でお忍びを楽しむ王侯である。それは匿名を楽しむということである。都市においては誰もが共謀のように映る。それ故にまた、誰もが探偵役割を演じる立場になり得る。このことへの期待を最も膨らませるのが、遊歩者である。

遊歩者が不意に探偵と化す時、都市の匿名的な人間関係は好都合な関連となる。遊歩者の周囲に対する無頓着な身振りは見掛け上の振る舞いに過ぎない。実際遊歩者には、犯者を見失うことの無い観察者としての注意深さがある。探偵には、自分の注意深さにかなりの自信を持つようになる。探偵は、大都市速度テンポに相応しいような反応形式学習し、習熟しているためである。

探偵は、事物を一瞬で把握する。それにより、自分は芸術に近い存在だと想することができる。スケッチする画の迅速な筆捌きは、誰もが称賛するところである。だが探偵物語は犯者を化している訳ではない。厳密には、探偵物語は犯者と渡り合う者たちを化している。それは特に、探偵が犯者を追い掛ける光景を狩場として化している。

問題解決策:ショック経験としての推論

ポーの『モルグ街の殺人事件』では、「モルグ街の悲劇」と称された異常な殺人事件が、明け方に発生している。その出来事の叙述は、恐ろしい悲鳴によって住民が眠りから目覚めさせられるところから始まる。殺人現場は恐怖驚異を植え付ける光景であった。部屋の中は乱雑の限りを尽くしていた。具は破壊され、四方八方に散乱していた。椅子の上には血塗れの剃刀が置かれていた。炉には人間の灰色の髪の毛が切り落とされていたが、その髪の毛にも血が付着していた。床の上にはナポレオン銀貨が数枚置かれていた。一方、大机の抽斗は開いたままで、隈なく捜索された痕跡があった。

事件現場の叙述の後に展開されているのは、関係者の証言である。証言者たちの証言は、群衆に対する観察の一種である。証言ができるということは、目覚めていたということである。証言ができるということは、想起できるということでもある。無論証言者の記憶は曖昧である。複数の証言が矛盾する場合もある。とりわけ『モルグ街の殺人事件』の証言者たちの矛盾点は、時間感覚に現われていた。

C・オーギュスト・デュパンの観察の観察

だが推論(inference)と推理(ratiocination)を担うC・オーギュスト・デュパンは、警察新聞による事件の叙述に対して批判的であった。殺人現場の異様な光景を強調するあまりに、稀有なことと難解であることとを混同してしまっているのである。事件の捜査では、「何が起きたのか」ではなく、「今までに起きたことの無い何が起きたのか」が問題にならなくてはならない。

デュパンによれば、正しい推論とは、唯一の正確な推論であって、推論されたその疑念はそこから唯一の結果として必然的に生じる。帰納的に明白な結論を前提とすることで、探索の範囲を徐々に狭めていくのが、デュパンの推理の一つである。見せ掛けの不可能性が実際には存在しないということを証明するのも、推理の務めである。

デュパンは警察の操作方法批判しつつ、その失敗の要因を認識論的に論じている。

「彼は対象をあまりにも近くから見詰めるせいで、よく視えなくなるのですよ。尤も、部分的には一つか二つ、明確に視える点もあるでしょうが、そうなれば必然的に全体を見失うことになる。つまり、深く考え過ぎてしまうという訳です。真理は必ずしも井戸の底にある訳ではない。それに、真理よりも大切な知識となると、これは常に表面的なものだと僕は信じている。深さがあるのは、僕たちが真理や知識を探す谷間の方なので、それを見付け出せる山頂には、深さなんてものは無い。こういった類の失敗は、天体を見詰める時によくわかります。星はちらっと見る方が、つまり網膜の外側を向ける方が、明確に視ることになる――網膜は外側の方が内側よりも光の微かな印象を感じ易いのだから――星の輝きが一番よくわかるのです。眼を星に真正面に向けていると、星の光はぼんやりとしてしまう。実際、こうした方がより沢山の光が目に入る訳だけど、ちらっと見る方が、光を捕らえる能力という点では上なのです。」
Poe, Edgar Allan. (1887) The Murders in the Rue Morgue: and other tales. Worthington Company. 引用はpp.15-16より。

推理を披露する際のデュパンの放心したような身振りは、目の前の人物を話し相手にしていながらも、何処か遠くにいる誰かに語り掛けるかのような調子であった。その語りの内容は、この推論物語の冒頭で展開されたポー自らの認識論と照応している。

分析者の知は、その持ち主にとって、この上なく溌剌とした愉しみの源泉である。丁度身体の強健な人間が肉体的な有能感を誇らしく思い、筋肉を動かす運動で満足を味わうのと同じように、分析者は錯綜した物事を解決する知的活動を悦ぶのである。分析者は、自分の才能を発揮することのできる出来事ならば、どれ程退屈なものにでも快楽を見出す。分析者はを好み、判じ絵を好み、秘密の暗号を好む。そしてそれらの解決において、凡人には超自然的とさえ思わせるような鋭利さを示す。実際、分析者の結論は、一定の推論方法から導出されるのだが、一見して直観としか思えないような飛躍的な雰囲気を伴わせている。

事実続編となる『マリー・ロジェの謎(The Mystery of Marie Rogêt)』の冒頭では、事件後のデュパンが描写されている。そこではデュパンは、既にその解き終えたについては興味関心を失っており、周囲から推理内容を質問されても、それを詳細に説明することは無かったという。その結果、分析力が物を言う解決方法が、周囲には直観的な方法であるかのように誤認されていた。

派生問題:探偵の蒐集は如何にして可能になるのか

街路における謎解きは、都市迷宮探索することによって成り立つ。遊歩者迷宮を彷徨い歩く身振りは、探索アルゴリズムが組み込まれたエージェントの振る舞いのモデルとなる。Webクローラ人工知能は、遊歩者機能的等価物としてのエージェントであるが故に、まだ見るものが必ずあると考える。探索アルゴリズムは常に、まだ何か探索すべき対象が潜在化しているのではないかと推論しなければならない。さもなければ、Webクローラ人工知能たちのコミュニケーションは、そのシステム作動のオートポイエーシスを停止させてしまうからだ。

この「悪しき無限」の探索アルゴリズムが、「模倣」の一端を成す。この理念は探究に終わりなど無いという謎解きの探究者の発想にも結び付けられる。Webクローラエージェントにとっても、知るに値することの蒐集は完結不可能であるためだ。そうした蒐集は、専ら知覚メディアから得られる情報蒐集として実行される。だとすればエージェントは、WWW上の情報に対して、と非区別を導入していることになる。

問題解決策:推理の物語

ポーが描くデュパンは新聞という知覚メディアから情報蒐集する最初期の探偵の一人であった。実際、新聞は出来事に関する情報を複製することで、その脱アウラ化を果たす。だがそれによって読み手が享受することになるのは、経験性格を失った体験のみである。言い換えれば、新聞には物語が無い。それが何らかの物語叙述しているように見えても、実際に記述されているのは物語についての情報である。新聞には「物語の語り手(Erzähler)」が登場しないのである。

しかしポーは探偵小説を「推理の物語(tales of ratiocination)」として叙述していた。新聞情報から展開されるデュパンの推理は、ショック体験としての殺人事件を見事に「物語っている」。それは、探偵の中では既にこのショック体験ショック経験へと変換できていることの表現である。物語の語り手は、物語ることを経験から抽出している。それは自分自身の経験の場合もあれば、報告された経験の場合もある。そして語ったものを自身の話に耳を傾ける人々の経験にしていくのである。これが経験の交換である。

確かに物語情報区別を導入すると、複製技術知覚メディアによるショック体験もまた、物語の語り手の衰退と関連していることが判明する。新聞をはじめとした複製技術は、伝達の新しい形式として、情報を生み出した。情報という伝達形式は、脱アウラ化を前提としている。情報物語よりも優位に立つのは、人々が遠くから伝達される知らせよりも、身近な出来事に判断の拠り所を与えてくれる情報の方に耳を傾ける傾向があるためである。異国から伝達された知らせには空間的な遠さがある。伝承によって伝達された知らせには時間的な遠さがある。こうした遠さは、アウラが宿るために、かつては権威形成されていた。この権威によって、物語られた知らせは真偽の検証を経ることなく受容されていた。しかし、脱アウラ化された複製技術時代では、即座に検証可能である情報要求されるようになる。この検証可能性においては、情報がそれ自体として理解可能であることが重要となる。

情報は、まさに新奇性を備えている間にこそ重視される。情報は伝達されたその瞬間にのみ活性化している。情報は、それ自体の全てを完全にその瞬間に指し示している。これに対して物語は、決してそれ自体を出し尽くしてしまうことが無い。物語は、長い時間を経た後でも尚「展開」される能力を持つ。フランツ・カフカの物語がそうであったように、物語は、それ自体ではない他の何かを指し示す比喩を用いても全く問題にはならない。物語はそれ自体、伝達の言わば手仕事的な形式である。物語は、情報のように出来事を純粋にそれ自体のみとして伝達することを狙っているのではない。物語は、出来事を、一旦報告者の生の中に深く刻み込み、その後再びそこから抽出する。故に物語には、出来事それ自体ではなく、語り手記憶の痕跡が付着している。

しかし探偵の口から発せられる推論物語的になるのは、まさにこうした情報が事件簿として蒐集された後である。つまりそのショック体験となる事件のが解明された時、それは物語を伴わせたショック経験となる。物語の「伏線」は、謎解き媒介する情報に他ならない。探偵推論はこの伏線の蒐集によって成り立っている。そしてこの伏線が、文字通り線的な経験可能にする。伏線となる出来事と謎解きの出来事との間には、論証や心証を経由した連続性が担保されるからである。

近代の武装、武器庫としての『悪の華』

問題志向型の等価機能主義者が考えるように、あらゆる問題解決策問題設定を前提とする。これと同じように、あらゆる謎解きを前提とする。探偵謎解きを実践できるのは、ある出来事を解決すべき事件として認識することで、解くべき抽出できるためである。日常の些末な出来事に疑問を持てないような探偵では、そもそも事件を事件として認識することすらできない。

したがって探偵推論展開するには、まずを記述する必要がある。寓意はそのために機能する寓意的な観察は、謎解きの前提となる観察対象から捕捉する形式である。まるでジグソーパズルのピースを掴み取るかのように寓意は対象を複数の<断片>へと切断する。そのピースがとして抽出されるのである。

この関連から、蒐集する探偵人格には、寓意家ならではの破壊的な性格が宿っていることが指摘できるようになる。実際、例えば寓意は「近代の武装(die Armatur der Moderne)」であるというベンヤミンの一句は、寓意家ボードレールの破壊的な性格を前提とした叙述である。『悪の華』は「武器庫(Arsenal)」に他ならない。ボードレールは自らの詩をそれまでの詩を破壊するために叙述してきた。それは既存の秩序や既成概念を破壊する寓意機能を前提としている。しかしその破壊に至るまでの中継的な身振りとして観察できるのが、大都市におけるボードレールの遊歩者的な性格である。

このことを理解する上で決定的に重要となるのは、大都市における売春(Prostitution)の機能である。ボードレールの詩において、売春が最も重要な主題の一つであるのは、間違いない。ベンヤミンが述べたように、売春は大都市の成立と共に幾つかの新しい秘密を所有することとなる。その一つが、都市それ自体の迷宮(Labyrinth)のような性格である。この性格遊歩者身体に染み付いている。売春は、この迷宮に多彩に着色されることとなる。この意味で、売春所有している第一の秘密は、迷宮としての大都市神話(mythische)的な側面に関わる。この迷宮の中心にはあのギリシア神話の怪物ミノタウルス(Minotaurus)の形象が宿っている。決定的に重要なのは、この怪物が人間を与えることなどではない。そうではなく、ミノタウルスによって具象化された「致命的な力の形象(das Bild der todbringenden Kräfte)」こそが重要なのだ。

「世の成り行きを中断させること(Den Weltlauf zu unterbrechen)」こそが、寓意家ボードレールの内面に潜む最も深い意志であった。ベンヤミンが判読するように、ボードレールの意志からは、彼の暴力や焦燥感、怒りが生じていた。そしてその意志は、世界の心臓を貫こうとする、あるいは子守唄で世界を寝かし付けようとする、絶え間無く更新される試みが生じていた。故にこそボードレールは、に駆動され、の仕事に参与していく。

「ボードレールの詩の中心を為している諸対象は、目標に向かう計画的な努力では到達不可能であったと考えざるを得ない。実際彼は、決定的に新しいものであるあの対象−−大都市大衆(Masse)−−を、そういうものとして狙っていた訳ではない。それらは彼が意図していたメロディ(Melodie)ではない。このメロディ構成しているのは、むしろ悪魔主義(Satanismus)、憂鬱(Spleen)、背徳の愛である。『悪の華』の真の対象は、目立たない箇所に見出され得る。それらは、まだ聴取されたことのない楽器の、未だ一度も触れられたことのない弦である。この楽器で、ボードレールは空想に耽る(phantasiert)のである。」
Benjamin, Walter. (1939) “Zentralpark”. In: Gesammelte Schriften Bd.I/2, Frankfurt am Main : Suhrkamp, 1980. S.655-690., 引用はS.667.より。

問題再設定:異常検知モデルの設計は如何にして可能になるのか

都市を遊歩しながら、順調に進歩しているかのように視える社会構造で潜在化しているを暴く探偵寓意的な身振りは、殊更強調するまでもなく、ヴァーチャルリアリティ上でも容易に再現されている。ヴェールとしての群衆が反社会的な存在の避難所であるというのなら、それは群衆機能的等価物としてのマルチエージェントにも該当する。実際、サーバー上に蓄積されているクラッキングの痕跡は、ハッカーやサーバー管理者が構成したアクセスログの中に埋もれている。システムの脆弱やバグは、膨大な数のコードの中で潜在化している。こうした不具合に対処するサーバー管理者やハッカーたちは、しばしば蒐集した情報から、探偵のように推論展開しなければならない。何故なら、「システムシステム(System of Systems)」として設計されたアーキテクチャにおいては、何らかの問題が発生したとしても、その事象原因システムのどの部分にあるのかを特定することが困難であるためだ。システム観察者はその複合性を縮減しなければならない。そのため調査では、しばしば原因の切り分けが実施される。探偵が幾人かの容疑者の中から真犯人を見付け出すかのように、サーバー管理者やハッカーたちは、複数に分化したシステムの中から根本的な原因を生み出しているシステムを特定しなければならないのである。

この謎解きとして実践されるアーキテクチャの解析は、しばしばそのシステムステークホルダーショック体験を突き付ける。機能的分化した近代社会の社会構造は、既にアーキテクチャアルゴリズム構成されたテクノロジーに強く依存している。ステークホルダーのビジネスは、それまで均質かつ連続的に持続していたこのシステムのインターフェースを前提に遂行されている。謎解きの専門たるハッカーやサーバー管理者によって、その脆弱やバグが暴露されれば、この前提は根底から覆される。個人情報の流出や暗号通貨(Cryptocurrency)の盗難事件などのように、このの暴露は社会構造を撹乱する。そのショック効果が波及すれば、社会構造破局的な出来事を生み出す危険もある。

抽象化して言い換えれば、抽出という探偵寓意的な身振りとは、日常的に既存の秩序が均質かつ連続的に反復しているという進歩史観的な認識を徹底的に覆すことで、社会構造的に潜在化している前兆予感合図などのような「サイン(Sign)」を判読する振る舞いを意味する。この「サイン」の判読によって抽出する一連の探偵的な身振りは、「異常検知(Anomaly detection)」のアルゴリズム設計を応用することによって、ヴァーチャルリアリティ上のボットにも遂行させることが可能になる。つまり群衆機能的等価物としてのマルチエージェントの中に、探偵機能的等価物としてのボットを紛れ込ませることも不可能ではないのである。

異常検知モデル設計における主導的差異は「正常(Normally)」と「異常(Anomaly)」の区別によって構成されている。だがこの区別は極めて形式的に導入される傾向がある。単に「異常」と述べても、「疑わしい活動/出来事/行動(suspicious activity/event/behavior)」、「不規則な活動/出来事/行動(irregular activity/event/behavior)」、「珍しい活動/出来事/行動(uncommon activity/event/behavior)」、「希少な活動/出来事/行動(unusual activity/event/behavior)」、あるいは望まない「ノイズ(nosie)」などのように、この形式的な概念には様々な意味が代入される。いずれの定義においても、「正常」の概念との関連から記述されている。つまり「異常」という概念の定義が先にあるのではなく、「正常」との差異があって初めて「異常」の概念が記述されるのである。

異常」と「正常」の意味論はまた、問題志向的に規定される場合もある。例えば「外れ値検知(outlier detection)」の問題設定では、観測データ点の外れ値となる異常標本が「異常」概念ということになる。一方、「変化点検知(change-point detection)」の場合は、時系列的な変異が「異常」概念となる。

統計的機械学習問題の枠組みでは、データ質に応じて確率分布を如何にして学習するのかという観点から、「異常度(anomaly score)」を如何にして確率分布と結び付けるのかを定式化することになる。正常データ異常データは、それぞれ異なる確率分布に基づいて生成されている。教師ラベルが得られる場合には、この確率分布の比、すなわち「尤度比(likelihood ratio)」から異常度を計算することになる。だが教師ラベルが得られない場合には、情報理論的な計算が必要になる。この場合、異常データは希少であることが前提となる。つまり、正常データ学習時、出現確率が低い観測データ点ほど異常度が高いということである。逆に言えば、異常度の高いデータ情報量、あるいは情報エントロピーが高いと認識される。

問題解決策:近傍法

近傍法(nearest neighbor)」に準拠した異常検知モデルは、正常データのインスタンスが密集地帯で発生する一方で、異常データのインスタンスはその最近傍から遠く離れて発生しているという想定から設計されている。この技術においては、二つのデータインスタンスの間の距離を計算するために、予め規定された距離関数を導入しなければならない。典型的にはユークリッド距離として計算されるが、距離概念それ自体は偶発的選択肢となる。ユークリッド距離のみならず、例えばマンハッタン距離やコサイン距離などの概念を用いても、計算は「可能」だ。だがこれらの概念で計算することは「必然」ではない。

大別するなら、近傍法に準拠した異常検知モデルは、「k近傍法(k-nearest neighbor)」での距離異常度として利用する方法データインスタンスの相対密度異常度として計算する方法とに区別することができる。k近傍法は最近傍探索問題を解くためのアルゴリズムの一種である。そのアルゴリズムは、特徴空間内で未知のデータ観測した際に、そこから最も距離が近い順に任意のk個のデータインスタンスを選択し、多数決でそのデータが属するクラスを推定する。k近傍法に基づいた異常検知モデルでは、小規模あるいは低密度なクラスに属するインスタンスが、「異常」なデータということになる。

一方、相対密度に基づいた異常検知モデルでは、k個の最近傍の平均局所密度データインスタンス自体の局所密度の比率を意味する「局所的外れ値要因(local outlier factor: LOF)」を前提に、各データインスタンスの近傍の密度を推定していく。そして密度の低い近傍にあるインスタンスが「異常」なデータであると形式的に定義される。

近傍法に準拠した異常検知モデルの利点は、教師なし学習として設計できるために、データの生成分布を仮定せずに済むということにある。それは純粋にデータ駆動型の探索アルゴリズムとなる。またこのアルゴリズムは他のアルゴリズムに容易に接続させることが可能である。例えば積層自己符号化器(Stacked Auto-Encoder)の隠れ層から得られた多様体特徴量に対してK近傍法を導入すれば、原理的には次元削減(Dimensions reduction)の結果として得られた特徴写像に対して最近傍法探索アルゴリズムを適用していることになるために、異常検知モデルの全体に「次元の呪い(Curse of dimension)」への耐を持たせることも可能になる。

近傍法に準拠した異常検知モデルには、逆に不利な点もある。観測データ点に十分な近傍を有さない正常データが含まれている場合や、逆に十分な近傍を持つ異常データが含まれている場合には、その判定の難易度は増大することになる。加えて、計算複合性もまた大きな派生問題となる。最近傍法アルゴリズムでは、全てのインスタンスのそれぞれにおいて、その最も距離が近いインスタンスを計算することになる。また、距離関数偶発性課題となる。データ・クラスタリングと同様に、異常検知モデル全体としての精度は距離関数の定義に依存することもある訳だ。

問題解決策:深層学習

異常検知モデルの設計は長らく分類モデル統計学的な手によって実施されてきた。だがこれらの方法では、多数の課題に人手で対処しなければならなかった。教師あり学習のアノテーションは、従来の方法の「人間」に対する依存を示す最たる例である。分類モデルでは、最低限「正常」と「異常」を区別できる教師データのアノテーションを用意しなければならない。だが前述したように、「異常」と「正常」の区別形式的に導入される。故にアノテーションの担当者次第では、それらの意味に揺らぎが伴う可能性がある。仮に精確なアノテーションが揃ったとしても、「異常データのサンプリングが間に合わない場合があり得る。学習・訓練データの分布とテスト用のデータが共に「真の分布」を近似し得るほどのデータ量に達しているか否かは判断し難い。典型的な異常検知問題においては、経験的に「異常」と見做されるデータサンプルは少ない。よって、サンプリングされたデータ量が適切であると楽視することはできないのである。そして、仮に十分な量のデータサンプルが得られたとしても、今度は時系列的なパターンを考慮した特徴工学が必要になる。信号データ映像データの中には、周期系列特徴が潜在化していることは間々ある。

いわゆるEncoder/Decoder for Anomaly Detection(EncDec-AD)をはじめとする深層学習に準拠した異常検知モデルは、LSTMを用いたEncoder/Decoderスキーマ自己符号化器(Auto-encoder)の構造を利用することで、これらの課題を克服しつつある。これらのモデルは、「正常(normal)」な時系列的振る舞いを再構成(reconstruct)するために学習するモデルとして設計されている。ここでの「再構成誤差(reconstruct error)」が、異常検知における「異常度(anomalies)」として参照される。

Encoder/Decoderの訓練は、「正常(normal)」な時系列のインスタンスを再構成するために、入力値となる時系列それ自体を出力値の目的関数とすることで実施される。言い換えれば、このネットワーク構造は入力と出力が同値となるある種の自己符号化器(Auto-encoder)となる。再構成誤差自己符号化再構成誤差に他ならない。再構成誤差異常度尤度(Likelihood)を計算するために用いられる。Encoder/Decoderモデル正常系列のみを用いて学習する。これにより、異常度の検出を可能にする。

ここで直観(intuition)として導入されている前提は、Encoder/Decoder自己符号化器学習の最中に正常なインスタンスしか観測していないために、異常系列が入力された時は、それを適切(well)に再構成することができないということである。つまり再構成誤差が高ければ高いほど、異常度も高まることになる、と直観的に想定されている。

深層学習に準拠した異常検知モデル正常系列データのみで学習を実行する。この構造は、異常データが入手困難な場合や疎の場合に有用となる。特に正常系列データ異常系列データの双方を交えた訓練データとテストデータが十分に入手できると期待できない場合に、正常系列データさえあれば実践可能モデルであるという点で、このモデルは有用となる。

EncDec-ADのアルゴリズム

長さ$$L$$の時系列的なベクトルを$$X = \{x^{(1)}, x^{(2)}, x^{(3)}, …, x^{(L)}\}$$と置く。ここで、各データポイント$$x^{(i)} \in \it{R}^m$$は、時刻インスタンス$$t_i$$における$$m$$の変量を有した$$m$$次元のベクトルである。再構成誤差は各ベクトルの諸要素に対して計算される。データポイント$$x^{(i)}$$に対応する再構成誤差、すなわち異常スコア(anomaly socre)を$$a^{(i)}$$と置く。この異常スコアが高ければ高いほど、異常について高い尤度を指し示す。

正常な時系列データのインスタンスの再構成のために、LSTM EncoderDecoderの訓練を実行する。LSTMEncoderは、入力された時系列データの固定された長さのベクトル表現学習する。そして現在の隠れ層の状態と前回の時間ステップにおけるその推定値を利用することで、LSTMDecoderがこの時系列再構成を実行する。ベクトル$$\it{X}$$を前提に、$$h_E^{(i)}$$を時刻$$t_i (i \in \{1, 2, …, L\})$$におけるEncoder隠れ層の状態(活度)とする。ここで$$h_E^{(i)} \in \it{R}^c$$で、$$c$$はEncoder隠れ層におけるLSTMのユニット数とする。時系列を逆順で再構成するために、EncoderDecoderの訓練は結合した状態で実行される。そのため出力値のベクトルは$$\{x^{(L)}, x^{(L-1)}, x^{(L-2)}, …, x^{(1)}\}$$となる。Encoderの最終状態を意味する$$h_E^{(L)}$$はDecoderの初期状態を意味する。LSTMDecoderの最上位層が推定を担う。言い換えればこの層の活度が推定値となる。

訓練中、Decoderは$$x^{(i)}$$を$$h_D^{(i-1)}$$の状態から得られた入力値として参照する。そのため予測された$$x’^{(i-1)}$$は、目的となる$$x^{(i-1)}$$に対応する。推論中、予測された値となる$$x’^{(i)}$$は$$h_D^{(i-1)}$$と$$x’^{(i-1)}$$を得たDecoderへの入力となる。

以上のモデリングを前提とした上で、このモデルは次の目的関数を最小化する最適化問題を解くことになる。$$\sum_{X \in s_N}^{}\sum_{i=1}^{L}||X^{(i)} – x’^{(i)}||^2$$

ここで、$$s_N$$は正常な訓練データ集合を表す。

尚、通常のニューラルネットワークと同様に、線形層では$$c \times m$$のサイズの重みの行列$$w$$が配備されている。また最上位のDecoderにはバイアス$$b \in \it{R}^m$$が設けられている。このバイアス活性化関数の入力値$$x’^{(i)} = w^{\mathrm{T}}h_D^{(i)} + b$$にて参照される。

EncDec-ADのモデル評価

実験アプローチとして、正常系列データを四つの集合$$s_N, v_{N1}, v_{N2}, t_N$$に区別する。そして、異常系列データを二つの集合$$v_A, t_A$$に区別する。系列集合$$s_N$$はLSTM EncoderDecoder再構成モデル学習データとして利用する。$$v_{N1}$$は訓練を初期に止めた場合のデータとして利用する。$$t_i$$における再構成誤差ベクトルは$$e^{(i)} = |x^{(i)} – x’^{(i)}|$$から計算する。集合$$v_{N1}$$における系列データポイントにおいて、再構成誤差ベクトルは最尤推定を用いた$$\mu$$と$$\Sigma$$の正規分布$$\mathcal{N}(\mu, \Sigma)$$のパラメタ推定として参照される。どのデータポイント$$x^{(i)}$$においても、異常度スコア$$a^{(i)} = (e^{(i)} \mu)^{\mathrm{T}}\Sigma^{-1}(e^{(i)} \mu)$$から得る。

異常の判定は、$$a^{(i)} > \tau$$によって判定する。この条件を持たせば異常で、そうでなければ正常となる。十分な量の異常系列データが利用可能ならば、閾値を意味する$$\tau$$は次のようなF値の最大化するように学習される。

$$F_{\beta} = (1 + \beta^2) \times P \times \frac{R}{(\beta^2P + R)}$$

ここで$$P$$は適合率(precision)で、$$R$$は再現率(recall)を表す。$$\beta$$は$$0 < \beta < 1$$のハイパーパラメタで、論文中では$$\beta = 0.1$$か$$\beta = 0.05$$が採用されている。 「異常」とは、ここでは正(positive)のクラスになる。逆に「正常」が負(negative)のクラスになる。任意の長さの「窓(window)」で分割された時系列データに一つでも「異常」が含まれている場合、その窓(window)全体が「異常」としてラベル付けされる。EncDec-ADのパラダイムで想定されているように、現実世界の多くの応用において、異常データが時系列データのどの部分に含まれているのかが正確に知り得ない場合に、このデータモデリングは有用となる。

プロトタイプの開発:「謎」を蒐集する異常検知モデル

PythonのGitHubのaccel-brain-code/Deep-Learning-by-means-of-Design-Patternに配置しているライブラリ:pydbmでは、『深層強化学習のベイズ主義的な情報探索に駆動された自然言語処理の意味論』で記述した深層学習理論や『ハッカー倫理に準拠した人工知能のアーキテクチャ設計』で記述したソフトウェア・アーキテクチャの設計思想を前提に、積層自己符号化器(Stacked Auto-Encoder)として機能する深層ボルツマンマシン(Deep Boltzmann Machine: DBM)や、深層畳み込みニューラルネットワーク(Deep Convolutional Neural Netowork)に基づいた畳み込み自己符号化器(Convolutional Auto-Encoder)、そしてLSTMに基づいたEncoder/Decoderのプロトタイプを公開している。とりわけこのEncoder/Decoderモデルは、上述したEncDec-AD異常検知モデルとして機能的再利用することが可能だ。このデモンストレーションは以下のJupyter notebookで実演している。

派生問題:映像データを対象とした異常検知問題の枠組み

分類モデルの応用によって異常検知モデルを組み立てる発想はありふれている。しかし、監視対象が時系列的な信号データ映像データである場合、分類モデルの設計者は次の三つの問題と向き合わなければならなくなる。

1. 教師データのアノテーションコストが高まる。分類モデルでは、最低限「正常」と「異常」を区別できる教師データのアノテーションを用意しなければならない。ビジネスニーズとして、「正常」と「異常」は更に細分化して分類することが期待される。

異常(Anomalies)もまた高度に文脈依存(highly contextual)である。例えば、レストランの中で走ることは異常(anomaly)である。だが公園で走るのは正常(normal)だ。加えて、異常の定義は曖昧で、しばしば漠然と定義される。地下鉄のプラットフォームの周りを歩くことは正常であると考えられているであろうが、一部の人々はそれが疑わしい可能性があるがために、異常フラグとして指定するべきであると考えるかもしれない。これらの課題によって、実世界のアプリケーションで異常を生成するビデオパターン機械学習方法で特定することは困難となっている。」

Chong, Y. S., & Tay, Y. H. (2017, June). Abnormal event detection in videos using spatiotemporal autoencoder. In International Symposium on Neural Networks (pp. 189-196). Springer, Cham., 引用はpp.189-190より。

2. 「異常」データのサンプリングが間に合わない。必要十分なデータ量がよくわかっていないというリスクもある。学習・訓練データの分布とテスト用のデータが共に「真の分布」を近似し得るほどのデータ量に達しているか否かは判断し難い。典型的な異常検知問題においては、経験的に「異常」と見做されるデータサンプルは少ない。よって、サンプリングされたデータ量が適切であると楽視することはできない。

「監視映像などのような長いビデオシーケンスにおける重要で意味のある出来事は、しばしば発生する確率が非常に低い。そのようなものとして、そうした事象または異常を手作業で検出しようとすることは、一般的に利用可能なものよりも多くの人手を必要としてしまう、非常に細かい仕事となる。これは、関心のある配列の自動検出やセグメンテーションの必要を高めてきた。しかしながら、現代の技術では、ビデオ分析の過程を展開する前に、各ビデオストリームに膨大な設定作業が必要となる。こうした事象は、幾つかの事前に定義されたヒューリスティックに準拠している。それは、検知モデルを異なる監視シーンに一般化(generalize)させることを困難にしている。

Chong, Y. S., & Tay, Y. H. (2017, June). Abnormal event detection in videos using spatiotemporal autoencoder. In International Symposium on Neural Networks (pp. 189-196). Springer, Cham., 引用はp.189より。

3. 時系列的なパターンを認識しなければならない。信号データ映像データの中には、周期系列特徴が潜在化していることは間々ある。

「エンジン、自動車、航空機などのような典型的な機械的装置には、機械の振る舞いや健康状態を捉えるために多数のセンサーが搭載されている。だがそこにはしばしば、本質的に予測不可能(inherently unpredictable)な時系列に関連したセンサーによって捕捉されない外部要因あるいは変数が存在している。例えば、手動制御や監視されていない環境条件、あるいは負荷は、本質的に予測不可能な時系列に結び付く可能性がある。こうしたシナリオで異常を検知するには、定常(stationarity)に依存する数学的なモデルに基づいた標本や、予測誤差を利用して異常を検知する予測モデルを利用することは難しくなる。」

Malhotra, P., Ramakrishnan, A., Anand, G., Vig, L., Agarwal, P., & Shroff, G. (2016). LSTM-based encoder-decoder for multi-sensor anomaly detection. arXiv preprint arXiv:1607.00148., 引用はp1.より。

EncDec-ADのパラダイムは信号処理との関連から提唱されている。そのためLSTM based EncoderDecoderモデルでは、画像認識の常套手段となる「畳み込み(Convolution)」の恩恵を得られなくなる。例えば「正常データの画像と「異常データの画像の背景部分が類似している場合、理論的に「正常データのみを学習した再構成モデルとしてのLSTMで構築されたEncoderDecoder異常検知器には、この双方を十分に識別できないことは容易に推測できる。

畳み込みニューラルネットワーク(Convolutional Neural Network; CNN)もしくは畳み込み演算子(Convolution operator)との結合は、画像を信号として処理する場合のEncDec-ADの識別精度を向上させられると期待できる。したがってここでは、LSTM based EncoderDecoderモデル畳み込みニューラルネットワークもしくは畳み込み演算子結合如何にして可能になるのかを検討していく。

問題解決策:Long-term Recurrent Convolutional Networks(LRCNs)

Long-term Recurrent Convolutional Networks(LRCNs)は、ビデオから生成された時系列的に配列された画像集合を対象とした行動認識(Activity recognition)、画像キャプション生成(Image Captioning)、そしてVideo Descriptionの問題設定から導入されている(Donahue, J., et al.2015)。問題設定次第でネットワークの構造は多少変異するが、基本的にLRCNsはCNNとLSTMの疎結合によって構成されている。

Donahue, J., Anne Hendricks, L., Guadarrama, S., Rohrbach, M., Venugopalan, S., Saenko, K., & Darrell, T. (2015). Long-term recurrent convolutional networks for visual recognition and description. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 2625-2634)., p.2629より掲載。

Donahue, J., Anne Hendricks, L., Guadarrama, S., Rohrbach, M., Venugopalan, S., Saenko, K., & Darrell, T. (2015). Long-term recurrent convolutional networks for visual recognition and description. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 2625-2634)., p.2629より掲載。

LSTMEncoder-Decode schemeとして利用されている。この関連でのCNNの機能は、画像の3ランク(RGB)のピクセル値として生成されている特徴写像に対する線形変換による関数近似器としての機能となる。CNNとLSTMは疎結合されるために、オブジェクト指向分析における「責任」も容易に区別できる。実際Donahue, J., et al. (2015)では、「入力(Input)」、「視覚的特徴(Visual Features)」モジュール、「系列学習(Sequence Learning)」モジュール、そして「出力(Output)」の区別が導入されている。

Donahue, J., Anne Hendricks, L., Guadarrama, S., Rohrbach, M., Venugopalan, S., Saenko, K., & Darrell, T. (2015). Long-term recurrent convolutional networks for visual recognition and description. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 2625-2634)., p.2625より掲載。

Donahue, J., Anne Hendricks, L., Guadarrama, S., Rohrbach, M., Venugopalan, S., Saenko, K., & Darrell, T. (2015). Long-term recurrent convolutional networks for visual recognition and description. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 2625-2634)., p.2625より掲載。

CNNの特徴変換

LRCNsはまず、時系列的な画像から生成された特徴ベクトル $$x_t$$ を パラメタ群 $$V$$ による特徴変換関数 $$\phi_{V}(.)$$ に入力する。CNNはこの特徴変換関数として利用する。言い換えれば、視覚的特徴特徴変換 $$\phi$$ は、CNNの活度に照応する。

$$\phi_{V}(x_t)$$ の機能は、固定された長さ特徴表現に他ならない。この出力値が、「系列学習モジュールとしてのLSTMに入力される。視覚的な特徴特徴変換 $$\phi_{V}(.)$$ は、LSTMからは機能的分離していることも相まって、時間に対して不変で各時間ステップに対して独立している。そのため畳み込み学習は全時間ステップに対して並行して実行することができる。CNNの実装はLSTMのバッチプロセスからも独立させることができる。

CNNとLSTMの学習アルゴリズム

LSTMの入力ゲートと隠れ層の間に挿入されている重み行列を $$W$$ 、時間ステップ $$t = \{1, 2, … ,T\}$$ における出力の真値を $$y_t$$ 、入力される系列データを $$x_t$$ 、訓練データセットを $$\mathcal{D}$$ とするなら、次のようになる。

$$(x_t, y_t)_{t=1}^{T} \in \mathcal{D}$$

CNNとLSTM学習は、log likelihood を最小化するようなパラメタ $$W$$ と $$V$$ を探索する最尤推定で成り立つ。すなわち、尤度 $$\mathcal{L}$$ は次のように計算されなければならない。

$$\mathcal{L}(V, W, \mathcal{D}) = \frac{1}{|\mathcal{D}|}\sum_{(x_t, y_t)_{t=1}^{T} \in \mathcal{D}}\sum_{t=1}^{T} \log P(y_t|x_{1:t}, y_{1:t-1}, V, W)$$

ここで、$$P$$ はソフトマックス戦略による線形変換を表す。学習確率的勾配降下法に準拠している。バッチサイズに応じて抽出したデータセットを $$\hat{\mathcal{D}} \in \mathcal{D}$$ とするなら、勾配として観測するのは、 $$\Delta _{V, W} \mathcal{L}(V, W, \hat{\mathcal{D}})$$ となる。

機能的等価物の探索:Convolutional LSTM Networks (ConvLSTM Networks)

LRCNsがEnd-to-Endの疎結合構成されているのに対して、LSTMの内部に畳み込み演算子を組み込む方法もある。Convolutional LSTM Networks (ConvLSTM Networks)は、LSTMの入力ゲートから出力ゲートまでの想起と忘却差異を司る計算グラフ上に畳み込み演算子を挿入した構造になっている(Xingjian, S. H. I., 2015)。LSTM隠れ層畳み込み演算子を組み込む場合、その構造は以下のようになる。

$$i_t = \sigma (W_{xi} \ast \mathcal{X}_t + W_{hi} \ast \mathcal{H}_{t-1} + W_{ci} \circ \mathcal{C}_{t-1} + b_i)$$

$$f_t = \sigma (W_{xf} \ast \mathcal{X}_t + W_{hf} \ast \mathcal{H}_{t-1} + W_{cf} \circ \mathcal{C}_{t-1} + b_f)$$

$$\mathcal{C}_t = f_t \circ \mathcal{C}_{t-1} + i_t \circ \tanh (W_{xc} \ast \mathcal{X}_t + W_{hc} \ast \mathcal{H}_{t-1} + b_c)$$

$$o_t = \sigma (W_{xo} \ast \mathcal{X}_t + W_{ho} \ast \mathcal{H}_{t-1} + W_{co} \circ \mathcal{C}_t + b_o)$$

$$\mathcal{H}_t = o_t \circ \tanh(\mathcal{C}_t)$$

ここで、$$\sigma$$ はロジスティクス関数意味する。$$\ast$$は畳み込み演算子意味する。$$\circ$$はアダマール積(Hadamard product)を意味する。

Xingjian, S. H. I., Chen, Z., Wang, H., Yeung, D. Y., Wong, W. K., & Woo, W. C. (2015). <a href=

Convolutional LSTM network: A machine learning approach for precipitation nowcasting. In Advances in neural information processing systems (pp. 802-810)., p.806より掲載。” width=”645″ height=”171″ /> Xingjian, S. H. I., Chen, Z., Wang, H., Yeung, D. Y., Wong, W. K., & Woo, W. C. (2015). Convolutional LSTM network: A machine learning approach for precipitation nowcasting. In Advances in neural information processing systems (pp. 802-810)., p.806より掲載。

各状態(states)が入力データと等価な列数および等価な行数を保持するためには、畳み込み演算子を挿入する前に、パディング(padding)が必要になる。

「ここで、境界線上のピクセル値における隠れ層の状態のパディングは、その計算において、外部世界の状態(the state of the outside world)を利用しているかのように見做すことができる。

Xingjian, S. H. I., Chen, Z., Wang, H., Yeung, D. Y., Wong, W. K., & Woo, W. C. (2015). Convolutional LSTM network: A machine learning approach for precipitation nowcasting. In Advances in neural information processing systems (pp. 802-810)., p.806より引用

機能的等価物の探索:時系列自己符号化器

LRCNsConvLSTMでは、EncDec-ADのパラダイムは踏襲できない。これらのモデルは分類や識別のために設計されている。EncDec-ADを実施するには、再構成誤差が必要になる。

時系列自己符号化(Spatio-temporal Auto-encoder)は、LRCNsConvLSTM構造をAuto-encoderへと拡張させたモデルとして提案されている。異常検知問題の枠組みでは、Chong, Y. S., & Tay, Y. H. (2017)によって、以下のような時系列自己符号化モデル化されている。

Chong, Y. S., & <a href=

Tay, Y. H. (2017, June). Abnormal event detection in videos using spatiotemporal autoencoder. In International Symposium on Neural Networks (pp. 189-196). Springer, Cham., p.195.” width=”472″ height=”309″ /> Chong, Y. S., & Tay, Y. H. (2017, June). Abnormal event detection in videos using spatiotemporal autoencoder. In International Symposium on Neural Networks (pp. 189-196). Springer, Cham., p.195.

Encoder/Decoderとしては、二つのConvLSTMが搭載されている。

Chong, Y. S., & <a href=

Tay, Y. H. (2017, June). Abnormal event detection in videos using spatiotemporal autoencoder. In International Symposium on Neural Networks (pp. 189-196). Springer, Cham., p.195.” width=”202″ height=”221″ /> Chong, Y. S., & Tay, Y. H. (2017, June). Abnormal event detection in videos using spatiotemporal autoencoder. In International Symposium on Neural Networks (pp. 189-196). Springer, Cham., p.195.

再構成誤差の定式

EncDecADのパラダイムと同じように、時系列自己符号化を利用した異常検知モデルの場合も、再構成誤差から異常度を計算する。Chong, Y. S., & Tay, Y. H. (2017)によれば、ビデオシーケンスのフレーム $$t$$ における全てのピクセル値 $$I$$ の再構成誤差は、入力フレームと再構成フレームとの間のユークリッド距離として定式化できる。

$$e(t) = \mid \mid x(t) – f_W(x(t))\mid \mid_2$$

ここで、$$f_W$$ は時系列自己符号化によって学習された重み意味する。この論文ではこの $$e(t)$$ に対するmin-maxによる正規化によって異常度 $$s_a(t)$$ が計算される。

$$s_a(t) = \frac{e(t) – e_{min}(t)}{e_{max}(t)}$$

この定式化に表れている通り、時系列自己符号化による異常検知モデルでも、異常検知はフレームごとに実行される。

Encoder/Decoderのモデル設計における偶発性

上述した時系列自己符号化にはEncoderDecoderのそれぞれにConvLSTMが搭載されている。しかしメモリモジュール(Memory module)として見立てるなら、ConvLSTMは典型的なLSTM機能的に等価となる。時系列自己符号化Encoder/Decoder部分に求められるのは、系列情報多様体の長期/短期記憶機能に限定される。

Patraucean, V., Handa, A., & Cipolla, R. (2015). Spatio-temporal video autoencoder with differentiable memory. arXiv preprint arXiv:1511.06309., p3.

Patraucean, V., Handa, A., & Cipolla, R. (2015). Spatio-temporal video autoencoder with differentiable memory. arXiv preprint arXiv:1511.06309., p3.

逆伝播のアルゴリズム設計における偶発性

モデル設計>と<アルゴリズム設計>を区別するなら、モデル図を示せば設計したことになるという想定は吹けば飛ぶような錯覚であることがわかる。実際、このモデルを図示しただけでは、時系列自己符号化の逆伝播のシーケンスやフローが未確定に留まる。自己符号化の入れ子構造を前提とするなら、Deconvolution層から逆伝播されるデルタがEncoder/Decoderにも逆伝播させることに必然性は無い。

Encoder/DecoderはあくまでEncoder/Decoderへの入出力の誤差のみからデルタを計算しても学習可能となる。この場合、Encoder/DecoderとConvolution/Deconvolutionはそれぞれ疎に学習を進めることができる。一方から他方へのデルタの逆伝播を省けるため、その際の行列のランクを意識せずに済む。

Baccouche, M., Mamalet, F., Wolf, C., Garcia, C., & Baskurt, A. (2012, September). Spatio-Temporal Convolutional Sparse Auto-<a href=

Encoder for Sequence Classification. In BMVC (pp. 1-12)., p3.” width=”756″ height=”140″ /> Baccouche, M., Mamalet, F., Wolf, C., Garcia, C., & Baskurt, A. (2012, September). Spatio-Temporal Convolutional Sparse Auto-Encoder for Sequence Classification. In BMVC (pp. 1-12)., p3.

派生問題:背景の過密状態

時系列自己符号化器をはじめとした生成モデル系の深層学習を前提とした場合、その特徴表現は「動いている群衆(Moving Crowds)」から異常を検知する場合と等価な問題を招く。

生成モデルに準拠した一般的な異常検知の深層ニューラルネットワークの能力をよそに、こうしたネットワークは背景(background)によって簡単に振り回されてしまう。故にこうしたネットワークは(例えば動いている群衆などのように)関心となる対象物に焦点を絞ることができない。時間的に変異する対象物は高い複合性を有しているのである。」

Yang, B., Cao, J., Ni, R., & Zou, L. (2018). Anomaly Detection in Moving Crowds through Spatiotemporal Autoencoding and Additional Attention. Advances in Multimedia, 2018., 引用はp2.より。

問題解決策:ロバスト主成分分析

時系列自己符号化器による異常検知モデルに対する上述した問題設定展開しているYang, B., Cao, J., Ni, R., & Zou, L. (2018)では、「動いている群衆」に対する問題解決策として、「動いている前景のセグメンテーション(Segmenting Moving Foregrounds)」を提案している。時系列自己符号化器背景情報に振り回されてしまうのなら、事前にその背景情報を除外してしまえば良い。その具体的なアルゴリズムとして、論文ではロバスト主成分分析(Robust principal component analysis: Robust PCA: RPCA)が採用されている。

Yang, B., Cao, J., Ni, R., & Zou, L. (2018). Anomaly Detection in Moving Crowds through Spatiotemporal Autoencoding and Additional Attention. Advances in Multimedia, 2018., p.3.

Yang, B., Cao, J., Ni, R., & Zou, L. (2018). Anomaly Detection in Moving Crowds through Spatiotemporal Autoencoding and Additional Attention. Advances in Multimedia, 2018., p.3.

Block-RPCAへの構造的拡張

伝統的なRPCA分解ではフレームごとに一定の罰則パラメタを与える仕様であったが、Yang, B., Cao, J., Ni, R., & Zou, L. (2018)で採用されているBlock-RPCA(Yang, B., & Zou, L. 2015)は、入力フレームを異なるパッチに分割した上で、各パッチに罰則パラメタを割り当てる。

一般的に言えば、入力された行列は低いランクの背景とスパースな背景構成されている。前景はRPCAを利用して解くことのできる行列分解の理論に基づいて、入力行列を背景と前景に分割することによって検出することが可能になる。」

Yang, B., & Zou, L. (2015). Robust foreground detection using block-based RPCA. Optik-International Journal for Light and Electron Optics, 126(23), 4586-4590., 引用はp4586.

Yang, B., & Zou, L. (2015)で提唱されているBlock-RPCAは、従来のRPCAとは異なり、初期のセグメンテーションによって取得できるデータ構造のブロック(Block)に準拠している。RPCA近似追跡によって得られた特徴の軌道情報は、ブロックベースのRPCAを構築するために必要となる均衡パラメタを計算するために参照できる。Block-RPCAアルゴリズムは次の三段階に大別できる。

  1. 3フレーム差分により、移動した可能性の高い観測データ点をセグメント化する。
  2. カルマンフィルタにより外れ値を除去することで、初期のセグメンテーション結果における物体の軌跡を確定する。
  3. IALM(inexact lagrangian augmented multipliers)によってBlockの解を出し、RPCAで前景を検出する。
Yang, B., & Zou, L. (2015). Robust foreground detection using block-based <a href=

RPCA. Optik-International Journal for Light and Electron Optics, 126(23), 4586-4590., p.4587.” width=”855″ height=”288″ /> Yang, B., & Zou, L. (2015). Robust foreground detection using block-based RPCA. Optik-International Journal for Light and Electron Optics, 126(23), 4586-4590., p.4587.

機能的等価物の探索:背景差分法

Yang, B., & Zou, L. (2015)でも明記されているように、前景の検出は「背景差分法(background subtraction approach)」によっても実現する。この背景差分法は、深層畳み込みニューラルネットワークとの関連から用いられてきたという点で、実績のある方法として挙げられる。差分画像の生成方法は、単に二つのフレームの減算だけで成り立つとは限らない。

「本質的に、背景差分は、背景(BG)モデルと呼ばれる静的シーンのモデルを初期化または更新することで、そのモデルを入力画像と比較することによって成立する。顕著な差異を有するピクセルあるいは領域は、動いている対象物の属であると見做される(それらは前景:FGを構成する。)したがって、完全な背景差分法は、背景の初期化過程、背景モデリング戦略、更新の機構、そして減算操作という、4つの要素を有している。」

Braham, M., & Van Droogenbroeck, M. (2016). Deep background subtraction with scene-specific convolutional neural networks. In IEEE International Conference on Systems, Signals and Image Processing (IWSSIP), Bratislava 23-25 May 2016 (pp. 1-4). IEEE., p1.

Braham, M., & Van Droogenbroeck, M. (2016)では、この背景モデリング戦略と減算操作を考慮した上で、深層畳み込みニューラルネットワークを利用した方法を提案している。ベイズ的に表現するなら、背景のみの画像データセットから事前分布抽出し、前景と背景構成された学習データ尤度関数とした上で、前景と背景二値データ事後分布として得る方法と言える。

Braham, M., & Van Droogenbroeck, M. (2016). Deep background subtraction with scene-specific convolutional neural networks. In IEEE International Conference on Systems, Signals and Image Processing (IWSSIP), Bratislava 23-25 May 2016 (pp. 1-4). IEEE., p1.

Braham, M., & Van Droogenbroeck, M. (2016). Deep background subtraction with scene-specific convolutional neural networks. In IEEE International Conference on Systems, Signals and Image Processing (IWSSIP), Bratislava 23-25 May 2016 (pp. 1-4). IEEE., p1.

このモデルはリアルタイム適応を加味して設計されている訳ではない。上記の論文では、背景データは150枚ほど人手で選定されている。この意味では教師あり学習要求される程度にはヒューマンリソースを費やす。

しかし、固定された画角で撮影された周期的に反復される行動の認識においては、背景そのものの確率分布は変異しないと考えるのは妥当と考えられる。時系列自己符号化器を設計して実装できているならば、深層畳み込みニューラルネットワークにも機能的再利用可能になっているはずなので、設計と実装のコストは節約できる。少なからずRPCAを導入するよりは遥かに安い。

機能的等価物の探索:深層背景学習

前景の検出器があり得るのなら、背景の検出器もあり得る。

「動的な背景から前景を検出することは、困難な課題である。何故なら、綺麗な背景画像の集合発見することが非常に困難で、背景もまた動的に変異するからである。前景が消失している時か、映像系列の中で発生している時に、映像のフレームにおける幾つかの部分は綺麗な背景となる。そのため、ほとんどの時間において、ピクセルは背景に属する。これは、我々の研究の基本的な観察である。」

Xu, P., Ye, M., Li, X., Liu, Q., Yang, Y., & Ding, J. (2014, November). Dynamic background learning through deep auto-encoder networks. In Proceedings of the 22nd ACM international conference on Multimedia (pp. 107-116). ACM., p108.

Xu, P., et al. (2014)で提案されているモデルでは、二つの自己符号化器をスタックした構造として設計されている。二つの自己符号化器をスタックさせているのは、理由のないことではない。このモデルでは、第一の自己符号化器が「背景抽出ネットワーク(Background Extraction Network)」として機能するのに対して、第二の自己符号化器は「背景学習ネットワーク(Background Learning Network)」として機能する

Xu, P., Ye, M., Li, X., Liu, Q., Yang, Y., & Ding, J. (2014, November). Dynamic background learning through deep auto-encoder networks. In Proceedings of the 22nd ACM international conference on Multimedia (pp. 107-116). ACM., p109.

Xu, P., Ye, M., Li, X., Liu, Q., Yang, Y., & Ding, J. (2014, November). Dynamic background learning through deep auto-encoder networks. In Proceedings of the 22nd ACM international conference on Multimedia (pp. 107-116). ACM., p109.

この自己符号化器は、事前に背景情報に関して学習した後に、背景と前景の差異推論するモデルとなっている。

自己符号化の構造

背景抽出ネットワーク」に入力される観測データ点は、グレースケールに変換された画像のピクセル値を一次元にflattenした1次元のベクトルとなる。値は0-256から0-1にスケールされている。その際、映像の各フレームは次のように表現される。

$$\vec{x} = \{x^1, x^2, …, x^D\} \ (x^j \in [0, 1]^N)$$

ここで$$D$$はフレーム数を意味する。$$N$$は1フレームにおけるピクセル数を意味する。この集合 $$\vec{x}$$ が、「背景抽出ネットワーク」への入力データとなる。一方、「背景抽出ネットワーク」からの出力データは、次のようになる。

$$B^0 \in [0, 1]^N$$

次の$$h_1$$ と $$h_2$$ は、それぞれの符号化の段階で出力された値である。

$$h_1 = f(x) = sigm(W_{1}x + b_1)$$
$$h_2 = f(h_1) = sigm(W_{2}h_1 + b_2)$$

ここで、$$f$$は特徴変換の関数で、$$sigm$$はシグモイド関数ないしロジスティクス関数意味する。$$W_{1}x$$ と $$W_{2}h_1$$ はそれぞれ、Encoderにおける第一と第二の重み行列を表す。$$b_N$$ は N層目のバイアスのベクトルを表す。復号化の段階での出力は次のようになる。

$$h’_1 = g(h_2) = sigm(W^T_2 h_2 + b_3)$$

再構成特徴点(feature points)は次のようになる。

$$\vec{\hat{x}} = g(h’_1) = sigm(W^T_1 h’_1 + b_4)$$

最小化すべきコスト関数は典型的なクロスエントロピーとなっている。

$$\epsilon (\vec{x}) = – \sum_{i=1}^{N}(\vec{x}_i \log \hat{\vec{x}}_i + (1 \vec{x}_i) \log (1 \hat{\vec{x}}_i))$$

コスト関数の設計

ここまでの記述は全く何も新しくない。

むしろ特筆すべきなのは、論文でも明記されている通り、「テクニカルに設計されたコスト関数(a technically designed cost function)」(Xu, P., et al. 2014, p108.)である。「背景抽出ネットワーク」の出力は、「背景学習ネットワーク」の入力となる。しかし両者の中継点には、次のような分離機能関数(separation function)が導入されている。

$$S(\hat{\vec{x}}_i^j, B_i^0) \ (i = 1, 2, …, N)$$

二つの復号化の層を仮定するなら、この分離関数の出力はそれぞれ$$h_{B_1}$$ と $$h_{B_2}$$ となる。また、符号化再構成の層の出力はそれぞれ $$h’_1$$ と $$\hat{\vec{B}}$$ と表せる。

この特殊なコスト関数を導入するにあたり、Xu, P., et al. (2014)は、「前景」と「背景」の区別を「クリーンなデータ(clean data)」と「ノイズデータ(noise data)」の区別展開している。ここからこのモデルノイズ除去型自己符号化(Denoising Auto-encoder)の発想に近付いていく。つまりこのモデル学習は、「前景」と「背景」の混成によって成り立つ観測データ点をノイズありの観測データ点として学習していくアルゴリズムと論理的に等価となる。

「第一の自己符号化器は、『クリーンな』背景画像および各ピクセルの背景の変動の許容範囲を学習するノイズ除去型の自己符号化器のように働く。許容度は、最初のDフレームの各々の背景画像を得るために有用となる。L1の最適化を利用することで、フレームをBを適合するだけでは、良好な結果は得られない。抽出された背景画像には前景が含まれている。深層アーキテクチャは、背景のより不変な表現学習する。これにより、『クリーンな』背景画像をより良く再構成することで、前景を除去することを可能にする。我々のアルゴリズムはよりロバストになり得る。」

Xu, P., Ye, M., Li, X., Liu, Q., Yang, Y., & Ding, J. (2014, November). Dynamic background learning through deep auto-encoder networks. In Proceedings of the 22nd ACM international conference on Multimedia (pp. 107-116). ACM., p110.

背景抽出ネットワーク」のコスト関数は次のように定義される。

$$\newcommand{\argmax}{\mathop{\rm arg~max}\limits} \newcommand{\argmin}{\mathop{\rm arg~min}\limits} \min_{\theta_E, B^0, \sigma} \it{L}(\vec{x}^j; \theta_E, B^0, \sigma) = \epsilon (\vec{x}^j) + \sum_{i=1}^{N}\mid\frac{\vec{x}_i^j – B^0}{\sigma_i}\mid + \lambda \sum_{i=1}^{N}\mid \sigma_i \mid$$

ここで、 $$j$$ はフレーム番号を表す。$$N$$は次元を表す。$$\lambda$$ は調整可能なハイパーパラメタで、$$0 < \lambda < 1$$ となる。 上記のコスト関数において、$$B^0$$ は、背景画像の特徴表現となるパラメタを表す。$$\sigma$$ は$$B^0$$ の許容値(tolerance value)を表す。背景のピクセルが変われば、この値も変わる。また、$$\theta_E = W_{E_i} \ (i = 1, 2)$$ で、 $$\ b_{E_i} (j = 1, …, 4)$$となる。

上記コスト関数第二項では、大きな分散に対して弾力を持たせるために、i番目のピクセルでパラメタ$$\sigma_i$$おn近似誤差を除算することになる。上記のコスト関数の第三項は正則化の用途で導入されている。

コスト関数の最適化アルゴリズム

背景抽出ネットワーク」の学習では、$$\theta_E$$、$$B^0$$、そして$$\sigma$$の訓練が同時に実行される。パラメタ $$\theta_E$$ は、「背景抽出ネットワーク」の重み行列とバイアスベクトルを表している。学習率を $$\eta$$ とするなら、その更新処理は次のようになる。

$$\theta_E = \theta_E – \eta \Delta \theta_E$$

ここで、偏微分は次のように定式化される。

$$\Delta \theta_E = \frac{\partial \it{L} (\theta_E, B^0, \sigma)}{\partial \theta_E} = \frac{\partial \epsilon (\vec{x}^j)}{\partial \theta_E} + \frac{\partial \left(\sum_{i=1}^{N}\mid\frac{\vec{x}_i^j – B_i^0}{\sigma_i}\mid\right)}{\partial \theta_E}$$

右辺第二項は微分可能ではないため、Xu, P., et al. (2014)ではそのderivativeを荒く計算するために、ここでは符号関数(sign function)が導入されている。

$$\Delta \theta_E = \frac{\partial \epsilon (\vec{x}^j)}{\partial \theta_E} + \sum_{i=1}^N sign \left(\frac{\vec{x}_i^j – B_i^0}{\sigma_i}\right)\frac{\partial \hat{\vec{x}}_i^j}{\partial \theta_E}$$

$$\theta_E$$ の更新処理を前提とすれば、 $$B^0$$ の最適化問題は次の最小化問題と論理的に等価となる。

$$\sum_{i=1}^N \left(\min_{B_i^0} \sum_{j=1}^D\mid \hat{\vec{x}}_i^j – B_i^0 \mid\right)$$

この最小化問題は、粒度を細かくすれば、次のように再記述できる。

$$\min_{B_i^0} \sum_{j=1}^D\mid \hat{\vec{x}}_i^j – B_i^0 \mid \ (i = 1, 2, …, N)$$

L1正規化により、最適な $$B_i^0$$ は、 $$\{\hat{\vec{x}}_i^1, …, \hat{\vec{x}}_i^D\}$$ の中央値と同値となる。

$$\theta_E$$ と $$B^0$$ が更新された後の$$\sigma_i$$におけるコスト関数は次のように再記述できる。

$$\it{L}(\sigma_i) = \mid \frac{\hat{\vec{x}}_i^j – B_i^0}{\sigma_i}\mid + \lambda \mid \sigma_i \mid$$

この最適化はその対数形式の最小化と等価となる。$$\ln \it{L}(\sigma_i)$$のderivativeが $$0$$ になるべく再度定式化するなら、次のように再記述できる。

$$\frac{\partial \ln \it{L}(\sigma_i)}{\partial \sigma_i} = \frac{2 \lambda \sigma_i}{\lambda \sigma_i + \mid \hat{\vec{x}}_i^j – B_i^0 \mid} – \frac{1}{\sigma_i} = 0$$

最適な $$\sigma_i$$ は次のようになる。

$$\sigma_i^{\ast} = \sqrt{\mid\frac{\hat{\vec{x}}_i^j – B_i^0}{\lambda}\mid}$$

ミニバッチ学習では、D枚のフレームごとにこの最適値を計算し、その加算平均値をそのバッチの最適値とする。

分離関数/機能の定義

以上の最適化処理を前提とすれば、分離機能関数となる $$S$$ に具体的な定義を与えることが可能になる。

$$B_i^j = S(\hat{\vec{x}}_i^j, B_i^0) =
\begin{cases}
\hat{\vec{x}}_i^j \ (\mid \hat{\vec{x}}_i^j – B_i^0\mid \leq \sigma_i) \\
B_i^0 \ (\mid \hat{\vec{x}}_i^j – B_i^0\mid > \sigma_i)
\end{cases}
$$

「背景学習ネットワーク」の最適化

背景学習ネットワーク」の最適化は以下のように定式化される。

$$\it{L}(B^J, \theta_L) = – \sum_{i=1}^N (B_i^j \log \hat{B}_i^j + (1 – B_i^j)\log (1 – \hat{B}_i^j))$$

この最適化には勾配降下が用いられる。

派生問題:謎解きとしてのモデル評価

近傍法深層学習に準拠した異常検知モデルを例示したのは、これらのモデルやその拡張版を深く探究するためではない。ここで取り上げようとしているのは、異常検知モデルの設計に伴う偶発性である。個々のモデルは根本的に「正常」と「異常」の区別の導入という偶発的形式演算によって記述されている。加えて、いざアルゴリズムを設計する上でも、距離概念の偶発性が付き纏う。

この偶発性必然的に生じてしまう事態は、近傍法に限られたことではない。データ・クラスタリング、混合分布モデル(mixture distribution model)、あるいは自己符号化再構成誤差を用いた方法などのように、異常検知モデルの出自となるパラダイムは別のあり方でもあり得る。とはいえ、この状況は「何でも構わない(Anything Goes)」というパラダイム・ジャングルを意味している訳ではない。何故なら、実装されたモデル異常検知として機能するには、標本精度(sample accuracy)をはじめとした様々な精度の評価基準を満たさなければならないためである。

一見して「何でも構わない」状況にも思えるこうした機械学習の都合があっても、付け焼き刃でモデルアルゴリズムを設計してしまえば、そこから生み出されるのは「何とかやってこれた(Anything Went)」という結果であるに過ぎない。偶発性に曝されて実践する以上、その「不確実性の吸収(uncertainty absorption)」を可能にするような意思決定によって、モデリングアルゴリズム設計選択肢を絞り込んでおく必要がある。その上で、目的として定めた精度を達成するための機能的等価物比較に徹しなければならない。

こうしてると、抽出可能にする異常検知モデルアルゴリズム設計は、それ自体として、抽出とその解決を必要としていることになる。機械学習の研究開発者やデータサイエンティストは、主導的差異として導入された「正常」と「異常」の形式的な区別を前提とした上で、どのようなモデルアルゴリズム異常検知モデルとして機能し得るのかを、推論しなければならないのである。それ故、先行研究の遡及から特徴工学(Feature engineering)、設計から実装、そして機能的等価物同士の精度の比較までを含めて求められるのは、機能的等価物探索によって蒐集した情報から推論展開する探偵のような資質となる。

これは、異常検知モデルアルゴリズム設計者による自己言及意味する。この主導的差異に着目するだけでも、この自己言及パラドックスを招くことは直ぐにわかる。すなわち、「異常」と「正常」の区別それ自体の「異常度」を観察するのは、如何にして可能になるのかという疑問が派生するのだ。しかしながらこのパラドックスは、「ファーストオーダーの観察(Beobachtung erster Ordnung)」と「セカンドオーダーの観察(Beobachtung zweiter Ordnung)」の区別を導入することで、直ぐに解消される。社会システム理論的に言えば、ファーストオーダーの観察者は、監視対象を観察することで、その何が異常なのかを認識する。これに対してセカンドオーダーの観察者観察対象は、ファーストオーダーの観察者である。セカンドオーダーの観察者は、ファーストオーダーの観察観察することで、異常検知如何にして可能になっているのかを認識する。だがセカンドオーダーの観察者も、また別のセカンドオーダーの観察者かられば、何が異常なのかを観察しているファーストオーダーの観察者に過ぎない。異常検知如何にして可能になるのかという問題を設定しているセカンドオーダーの観察者もまた、その問題の枠組みの内部に位置付けられるのである。

したがって、異常検知モデルアルゴリズム設計者による自己言及意味しているのは、自己自身もまた異常検知の監視対象になり得るという自己論理的(autologisch)な推論である。探偵は、他者や世界を暴露し、そのを解く。だが他のセカンドオーダーの観察者かられば、そうした探偵もまためいた他者なのだ。群衆機能的等価物としてのマルチエージェントを前提とするなら、このセカンドオーダーの観察者たちもまた、「人間」であるとは限らなくなる。ボットエージェントたちが「人間」に潜むを暴く可能性も大いにあり得るからだ。異常検知モデルアルゴリズム設計者は、したがって高次元の特権的な立場にある訳ではない。探偵のような身振りを見せる設計者たちもまた、マトリックスとしての大衆の中に住まっているのである。

参考文献

  • Bogle, John C. (2007). The Little Book of Common Sense Investing: The Only Way to Guarantee Your Fair Share of Stock Market Returns, John Wiley & Sons, Inc.
  • Breunig, M. M., Kriegel, H. P., Ng, R. T., & Sander, J. (2000, May). LOF: identifying density-based local outliers. In ACM sigmod record (Vol. 29, No. 2, pp. 93-104). ACM.
  • Braham, M., & Van Droogenbroeck, M. (2016). Deep background subtraction with scene-specific convolutional neural networks. In IEEE International Conference on Systems, Signals and Image Processing (IWSSIP), Bratislava 23-25 May 2016 (pp. 1-4). IEEE.
  • Brin, S., & Page, L. (1998). The anatomy of a large-scale hypertextual web search engine. Computer networks and ISDN systems, 30(1-7), 107-117.
  • Brown, Peter. (1991) The Hypnotic Brain : Hypnotherapy and Social Communication, Yale University Press.
  • Byers, S., & Raftery, A. E. (1998). Nearest-neighbor clutter removal for estimating features in spatial point processes. Journal of the American Statistical Association, 93(442), 577-584.
  • Chong, Y. S., & Tay, Y. H. (2017, June). Abnormal event detection in videos using spatiotemporal autoencoder. In International Symposium on Neural Networks (pp. 189-196). Springer, Cham.
  • Cover, Thomas M. (1991). “Universal Portfolios”. Mathematical Finance. 1 (1): 1–29.
  • Donahue, J., Anne Hendricks, L., Guadarrama, S., Rohrbach, M., Venugopalan, S., Saenko, K., & Darrell, T. (2015). Long-term recurrent convolutional networks for visual recognition and description. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 2625-2634).
  • Douglas, M. J. (2000). Trading in the zone: master the market with confidence, discipline and a winning attitude. Penguin.
  • Egorov, M. (2016). Multi-agent deep reinforcement learning.
  • Eskin, E., Arnold, A., Prerau, M., Portnoy, L., & Stolfo, S. (2002). A geometric framework for unsupervised anomaly detection. In Applications of data mining in computer security (pp. 77-101). Springer, Boston, MA.
  • Graham, B. (1965). The intelligent investor. A Book of Practical Counsel. Revised Edition., Updated with New Commentary by Jason Zweig
  • Gupta, J. K., Egorov, M., & Kochenderfer, M. (2017, May). Cooperative multi-agent control using deep reinforcement learning. In International Conference on Autonomous Agents and Multiagent Systems (pp. 66-83). Springer, Cham., p.72.
  • Horvitz, J C. (2000) “Mesolimbocortical and nigrostriatal dopamine responses to salient non-reward events,” Neuroscience, Vol. 96, No. 4, pp651-656.
  • Iacoboni, Marco. (2008) Mirroring People: The New Science of How We Connect with Others, New York: Farrar, Straus & Giroux.
  • Keynes, J. M. (1936) The General Theory of Employment, Interest, and Money. In Keynes, J. M., Moggridge, D. E., & Johnson, E. S. (1971). The Collected Writings of John Maynard Keynes (Vol. VII). London: Macmillan.
  • Kissin, Benjamin. (1986) Conscious and unconscious programs in the brain, New York : Plenum Medical Book Co.
  • Koepp, M.J., et al. (1998) “Evidence forstriatal dopamine release during a video game,” Nature, Vol. 393, pp266-268.
  • Levinthal, Charles F. (1988) Messengers of paradise: Opiates and the brain: The struggle over pain, rage, uncertainty, and addiction, New York Doubleday.
  • Levy, Jerre., Trevarthen, Colwyn., Sperry, R. W. (1972) “Perception of Bilateral Chimeric Figures Following Hemispheric Deconnexio,” BRAIN, Vol. 95, Part 1, pp61-78.
  • Linden, D. J. (2011). The compass of pleasure: How our brains make fatty foods, orgasm, exercise, marijuana, generosity, vodka, learning, and gambling feel so good. Penguin.
  • Luhmann, Niklas. (1968) Vertrauen. Ein Mechanismus der Reduktion sozialer Komplexität, Stuttgart.
  • Luhmann, Niklas. (1975) Macht, Stuttgart.
  • Luhmann, Niklas. (1984) Soziale Systeme, Frankfurt am Main : Suhrkamp.
  • Luhmann, Niklas. (1988) Die Wirtschaft der Gesellschaft, Frankfurt am Main, Suhrkamp.
  • Nevmyvaka, Y., Feng, Y., & Kearns, M. (2006, June). Reinforcement learning for optimized trade execution. In Proceedings of the 23rd international conference on Machine learning (pp. 673-680). ACM.
  • Malhotra, P., Ramakrishnan, A., Anand, G., Vig, L., Agarwal, P., & Shroff, G. (2016). LSTM-based encoder-decoder for multi-sensor anomaly detection. arXiv preprint arXiv:1607.00148.
  • Malkiel, B. G. (1996). A Random Walk Down Wallstreet (6. edition). New York.
  • Markowitz, Harry. (1952) “Portfolio Selection”, The Journal of Finance, Vol. 7, No. 1., pp.77-91.
  • Menczer, F., Pant, G., & Srinivasan, P. (2004). Topical web crawlers: Evaluating adaptive algorithms. ACM Transactions on Internet Technology (TOIT), 4(4), 378-419.
  • Merton, Robert King. (1968) Social theory and social structure, Free Press.
  • Moody, J., & Saffell, M. (2001). Learning to trade via direct reinforcement. IEEE transactions on neural Networks, 12(4), 875-889.
  • Murphy, John J. (1999). Technical analysis of the financial markets: A comprehensive guide to trading methods and applications. Penguin.
  • Page, Hans-Christian., et al. (2003) “Amygdalar and Hippocampal Theta Rhythm Synchronization During Fear Memory Retrieval,” Science Vol. 301, No. 5634, pp.846-850.
  • Pana, Wei-Xing., McNaughton, Neil. (2004) “The supramammillary area: its organization, functions and relationship to the hippocampus,” Progress in Neurobiology, Vol. 74, Issue 3, pp127-166.
  • Patterson, S. (2012). Dark Pools: The rise of the machine traders and the rigging of the US stock market. Crown Business.
  • Pazzani, M. J., & Billsus, D. (2007). Content-based recommendation systems. In The adaptive web (pp. 325-341). Springer, Berlin, Heidelberg.
  • Ramaswamy, S., Rastogi, R., & Shim, K. (2000). Efficient algorithms for mining outliers from large data sets. In ACM Sigmod Record (Vol. 29, No. 2, pp. 427-438). ACM.
  • Parsons, Talcott. (1951) The social system, Free Press.
  • Popoola, O. P., & Wang, K. (2012). Video-based abnormal human behavior recognition—A review. IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews), 42(6), 865-878.
  • Richard Sutton and Andrew Barto (1998). Reinforcement Learning. MIT Press.
  • Rizzolatti, Giacomo., Craighero, Laura. (2004) “The Mirror Neuron System,” Annual Review of Neuroscience 27. pp169-192.
  • Salfner, F., Lenk, M., & Malek, M. (2010). A survey of online failure prediction methods. ACM Computing Surveys (CSUR), 42(3), 10.
  • Schultz, Wolfram. (2000) “Multiple reward signals in the brain,” Nature Reviews Neuroscience, Vol. 1, pp199-207.
  • Sharpe, W. F. (1964). Capital asset prices: A theory of market equilibrium under conditions of risk. The journal of finance, 19(3), 425-442.
  • Sharpe, W. F. (1966). Mutual fund performance. The Journal of business, 39(1), 119-138.
  • Silver, N. (2012). The signal and the noise: why so many predictions fail–but some don’t. Penguin.
  • Tobler, Philippe N., Dickinson, Anthony., Schultz, Wolfram. (2003) “Coding of Predicted Reward Omission by Dopamine Neurons in a Conditioned Inhibition Paradigm,” The Journal of Neuroscience, Vol. 23, No. 32, pp10402-10410.
  • Weber, Max. (1947) Theory of Social and Economic Organization, New York: Oxford University Press.
  • Xingjian, S. H. I., Chen, Z., Wang, H., Yeung, D. Y., Wong, W. K., & Woo, W. C. (2015). Convolutional LSTM network: A machine learning approach for precipitation nowcasting. In Advances in neural information processing systems (pp. 802-810).
  • Xu, P., Ye, M., Li, X., Liu, Q., Yang, Y., & Ding, J. (2014, November). Dynamic background learning through deep auto-encoder networks. In Proceedings of the 22nd ACM international conference on Multimedia (pp. 107-116). ACM.
  • Yang, B., & Zou, L. (2015). Robust foreground detection using block-based RPCA. Optik-International Journal for Light and Electron Optics, 126(23), 4586-4590.
  • Zimmermann, Manfred. (1978) “Neurophysiology of Sensory Systems,” In Schmidt, Robert F., ed., Fundamentals of sensory physiology, New York : Springer-Verlag, pp31-80.