目次
派生問題:転移学習問題の枠組み
自然言語処理の領域では、教師なし事前学習(Unsupervised pre-learning)が表現学習(Representation Learning)として機能することが期待されている。通常、単語のトークンの埋め込み(embedding)においては、one-hotのベクトルが採用される。だが各ベクトルの距離は全て同一となるために、単語表現にone-hotのベクトルを利用する利点は少ない。だが事前学習された単語埋め込みは、単語間の類似度を単語間の距離として符号化することを可能にする。
こうした事前学習結果は、ニューラルネットワーク言語モデルをはじめとした他のモデルの初期化戦略として入力される。あるモデルの事前学習によって更新されたパラメタを別のモデルの初期パラメタとして扱う学習は、一般的に「転移学習(Transfer learning)」と呼ばれる。転移学習では、学習器は二つ以上の異なる問題設定の問題解決策として機能する。この学習で前提となるのは、ある一つの問題設定における分布$$P_1$$の特徴や変化を説明するような因子の多くが、別の問題設定における分布$$P_2$$を学習するために捉えるべき特徴や変化にとっても適切であるという点である。一般的にこの想定は、入力データが同じでも目標が異なる性質を有した教師あり学習の状況として理解できる。
もし最初の問題設定の分布$$P_1$$からのサンプリングによって大量のデータが得られるなら、そうしたデータは、$$P_2$$から得られる非常に少ない事例のみでも、汎化のための有用な表現学習を可能にする。異なる問題設定に対する有用な特徴量が存在し、それらが複数の問題設定で現れる潜在的な因子に対応する場合、転移学習は表現学習によって達成される。
問題解決策:Nショット学習
「ワンショット学習(one-shot learning)」や「ゼロショット学習(zero-shot learning)」をはじめとした「Nショット学習(N-shot learning)」は、転移学習の極端な形式である。ゼロショット学習は「ゼロデータ学習(zero-data learning)」とも呼ばれる。ワンショット学習では転移タスクにおける唯一のラベルありサンプルが与えられる。ゼロショット学習のタスクではラベルありサンプルが全く与えられない。
ワンショット学習は、潜在的なクラスを分割するような表現を第一段階で学習することで実現する。知識を転移する際、一つのラベル付きサンプルさえあれば、特徴空間のデータ点周辺に位置する幾つものテストサンプルのラベルを推論することが不可能ではなくなる。学習された表現空間で、こうした不変性に対応する変化の要因がその他の要因から明確に区別することが可能で、特定のカテゴリの対象を識別するのにどの要因が重要であるのかを何らかの形で学習する限りにおいて、この転移学習は成立する。
一方、ゼロショット学習は、あるドメイン(domain)における特徴空間を別のドメインの特徴空間に応用することで成り立つ。例えば、学習器が大量のテキストを学習した後に物体認識を実行するような問題設定ならば、その学習はゼロショット学習の定義を満たしている。もしそのテキストが物体の特徴を十分に上手く説明しているのならば、ある特定の物体のクラスを、その物体の画像を一枚も観測せずに認識することが可能になる。例えば、猫は四本の足と尖った耳を持つというテキストを読んだ場合、学習器は猫の画像を一度も観測していなくても、ある画像が猫であると推論することが可能になる。
こうしたゼロショット学習が可能になるのは、第一の学習時に、追加情報が利用されるためである。ここでいう追加情報を形式化するなら、通常の入力x、出力y、そして追加情報Tの区別を導入することで記述できる。この区別を前提とするなら、学習器は条件付き分布$$p(y \mid x, T)$$を推論するように訓練される。ここで、Tはモデルに実行させたいタスクの記述である。猫に関するテキストを読んだ後に猫の画像を認識する場合には、出力が猫か否かを表す1と0のバイナリ変数となる。タスクの変数Tは、「この画像の中に猫はいますか?」という質問を表す。もしTと同一の空間に存在する物体の教師なしサンプルを含んだ訓練集合があれば、未知(unseen)のTのインスタンスの意味を推論することができるかもしれない。猫の画像を見たことがないモデルが猫を識別するには、「猫には四本の足がある」や「猫には尖った耳がある」という文も含む、ラベルなしのテキストデータを有していることが重要となる。
ゼロショット学習は転移学習の一種であると同時に汎化の一種でもある。ゼロショット学習を実現するには、Tがある種の汎化を可能にするような方法で表現されている必要がある。例えば、Tが物体のカテゴリを指し示すような単純なone-hotのベクトルでは、何の役にも立たない。それぞれのカテゴリに関連した単語の物体カテゴリの分散表現を教師なし事前学習による単語の埋め込みによって与えるような事前学習法が必要になる。深層ボルツマンマシンによる積層自己符号化器やノイズ除去型自己符号化器のような表現学習のアルゴリズムは、この関連でも重要なアルゴリズムとなる。
ゼロショット学習のモデリングにおける主導的差異となるのは、「観測クラス(seen class)」と「未観測クラス(unseen class)」の区別である。初期のゼロショット学習は、まずインスタンスからクラスへの特徴写像を学習するところから始まる。そして学習器は、その写像をテストデータに適用することでクラス属性、すなわち潜在的な意味空間のベクトルを予測する。最終的に学習器は、最も類似した属性ベクトルを発見することでクラスを予測する。こうした初期のゼロショット学習は、結局のところ、表現学習を実行しているに過ぎなかった。つまりこうしたモデルは、表現学習のアルゴリズムがそうであるように、未観測クラスのインスタンスをクラス属性空間に埋め込む(embedding)ことで学習していくことにより、その後は近傍法のような距離計算法によってテストインスタンスの類似度の高いクラス属性ベクトルを発見するという手続きを踏む。この意味で、歴史的にその後のゼロショット学習が生成モデルや自己符号化器と接続されるようになったのは道理であると言える。
多-様相学習
今振り返れば、生成モデルであると同時に自己符号化器としても構造化できる深層ボルツマンマシンを「多-様相学習(multi-modal learning)」に活用するニティッシュ・スリバスタバとルスラン・サラクフティノフの取り組みは、深層ボルツマンマシンでゼロショット学習の原理を応用した事例として観察することができる。多-様相学習では、ある様相における表現と別の様相における表現、そしてある様相における観測データ点xと別の様相における観測データ点yの組み合わせの関連を捉える方法である。観測データ点同士の関連は、通常同時分布として記述される。深層ボルツマンマシンはxからの表現、yからの表現、そしてこの二つの表現間の関連を学習することで、ある表現に含まれている概念が別の表現に含まれる概念へと関連付けられる。そうした関連付けは、新しい組み合わせに対する有意味な汎化を可能にする。
xとyの二つのドメイン間の転移学習はゼロショット学習を可能にする。サンプルxは、ラベルの有無を問わず、表現関数$$f_x$$を学習することを可能にする。同様にyもまた$$f_y$$の学習を可能にする。xの特徴写像$$h_x$$の空間上の距離は、x空間内のデータ点の任意の組み合わせの類似度を与える。これは、表現学習の背景にある多様体仮説を踏まえるなら、xの空間よりも有意味な距離となる。同様に、$$h_y$$における距離はy空間内のデータ点の任意の組み合わせの類似度を与える。ラベルありのサンプルは表現$$f_x(x)$$と表現$$f_y(y)$$の間の一方向あるいは双方向の写像をモデルが学習することで、これらの表現を相互に結合することのできたxとyの組み合わせである。
これを前提とすれば、ゼロショット学習は特徴写像の関連付けによって成立する。例えばある単語に対する画像が事前に観測されていなかったとしても、画像$$x_{test}$$をその単語$$y_{test}$$と関連付けることができる。何故なら、単語表現$$f_y(y_{test})$$と画像表現$$f_x(x_{test})$$を、表現空間の間の写像を介して相互に関連付けることができるためである。その画像とその単語の組み合わせが事前に観測していなかったとしても、それぞれの特徴写像
$$f_x(x_{test})$$
と
$$f_y(y_{test})$$
が相互に関連付けられているために、ゼロショット学習が成立する。
問題解決策:ドメイン適応
「ドメイン適応(domain adaptation)」は転移学習の方法の一種として位置付けられている。ドメイン適応では、タスクと最適な入出力写像は各問題設定で同一であっても、それぞれの入力分布が微妙に異なっているような問題設定での転移学習を指す。
最も早期の先行事例の一つは「感情分析(Sentiment analysis)」の文脈で応用された。感情分析の問題設定では、ネット通販のクチコミなどの自然文の内容に対して、ポジティブな感情から記述されたコメントとネガティブな感情から記述されたコメントの識別を試みる。ドメイン適応は、書籍、ビデオ、音楽などのメディアにおけるレビュー内容で学習した感情予測器を、後からテレビやスマートフォンなどのような家電製品に関するコメントの分析にも再利用する際にも機能する。この場合、全ての記述をポジティブ、ニュートラル、ネガティブのいずれかに割り当てる潜在的な関数を想定することができる。だが無論、あるドメインと他のドメインとでは、語彙や文体が異なっている。複数のドメインでそれらを一般化するのは困難となる。
ドメイン適応問題の主導的差異は「ソースドメイン(source domain)」と「ターゲットドメイン(target domain)」の区別によって構成される。この区別は、ほぼ上述した「観測クラス」と「未観測クラス」の区別に対応している。「観測クラス」と「未観測クラス」の区別がターゲットの性質に関する区別であるなら、「ソースドメイン」と「ターゲットドメイン」の区別は入力されるデータ分布の区別となる。<教師あり学習>の一環として<教師なし学習>を実行する半教師あり学習の形式の場合、「ソースドメイン」は<教師あり学習>の対象となるラベル付きのサンプルの生成分布と見做され、「ターゲットドメイン」は<教師なし学習>の対象となるラベルなしサンプルの生成分布と見做される場合もある。これは、未観測の「ターゲットドメイン」の方が実務上ラベル付きサンプルが得られ難いという実務上の都合を反映している。
ドメイン適応は、ターゲットドメインからラベル付けされていないデータを利用することで、「データセットの偏り(dataset bias)」に対処しようと試みる。実務上、この機能はターゲットデータを手動でラベル付けする作業を減らすことを可能にする。ラベルなしのターゲットデータは、ソースデータのみを利用する場合よりも、アルゴリズムがターゲットドメインでより一般化する上で役立つ補助的な訓練情報を提供する。それ故、ドメイン適応に成功したアルゴリズムは、データセットの配備の面でも、高い投資対効果を有する。ターゲットドメインから膨大な量のラベル付きサンプルを取得することは、高いコストを要求するか、あるいはそもそも不可能であるためだ。
問題解決策:概念漂流
「概念漂流(concept drift)」もまた転移学習の一種である。この方法では、観察されている概念やデータの分布が時間の流れと共に変化していく場合の転移学習を意味する。ドメイン適応が「位置」や「場所」の転移であるなら、概念漂流は時間方向の転移を意味する。
概念漂流が発生するのは、概念やデータ分布に「隠れた文脈(hidden context)」が関連してくるためである。現実世界における多くの分野では、関心のある概念が予測の関連では顕在化していない「隠れた文脈」に依存する可能性がある。典型的な例で言えば、季節によって根本的に変わる可能性のある株価変動のモデルである。多くの場合、変化の原因は潜在化している。一つの問題設定においては、「隠れた文脈」が複数存在する。「隠れた文脈」における変化は、ターゲットドメインにおける概念に多かれ少なかれ根本的な変化を引き起こす可能性がある。こうした変化を一般的に「概念漂流」と呼ぶ。
概念漂流に成功しているモデルは、「隠れた文脈」による変化を追跡することで、素早くそれらに適応することを可能にする。しかしこうした追跡が困難であるのは、「真の概念(true concept)」と「ノイズ(noise)」の差異があるためだ。モデルはこの双方を区別しなければならない。概念漂流において理想的な学習器となるのは、ノイズに対するロバスト性と概念漂流に対する感度を組み合わせたモデルである。
多くのドメインでは、「隠れた文脈」は再帰的な関連を持つ。つまり、「隠れた文脈」それ自体もまた別の「隠れた文脈」に関連しているのである。反復的に発生する状況は、単に季節のような周期的な現象による状況であるだけではなく、インフレ率や市場の大衆心理などのような不規則な現象による状況でもあり得る。こうした潜在的な要因は、相互に関連し合う場合もあるであろう。「隠れた文脈」は高い複合性を有している。こうしたドメインでは、概念漂流を迅速に実現するために、概念の「記述(descriptions)」を保存する。そうすることで、保存した諸概念を後で再検討しつつ再利用することを可能にしている。だが、多くの学習器は、こうして繰り返し発生する文脈を扱うことには長けていない。
以上の論点を整理するなら、概念漂流の機能要求は三つに区別できる。第一に、理想的な概念漂流は諸概念の変化に対して迅速に適応しなければならない。第二に、理想的な概念漂流はノイズに対してロバストでなければならず、諸概念とノイズの区別を導入できなければならない。そして第三に、理想的な概念漂流は「隠れた文脈」の再帰的な関連を認知しなければならない。
形式としての概念漂流
概念漂流の意味論では、以上の機能要求との関連から、概念漂流という概念を二つに区別している。それは「急激な(sudden)」概念と「漸進的な(gradual)」概念漂流である。この区別は諸概念の変化の速度の差異を反映している。季節性を加味した価格変動モデルを設計する場合、恐らく漸進的な概念漂流を想定すれば済むであろう。しかし「サプライズ」として配備された「利下げ」による概念漂流を想定する場合には、データ分布の急激な変化に対応できるほどの汎化性能を訓練するか、あるいはそもそも「利下げ」の前後で異なるモデルを訓練するのかという選択に迫られることになる。
「隠れた文脈」に基づいた諸概念の変化は、ターゲットドメインにおける諸概念の変化の原因となるだけではなく、ソースドメインにおけるデータ分布の変化も引き起こす可能性がある。ターゲットドメインにおける諸概念が同一で、変化するのがデータ分布だけであったとしても、新しいデータ分布ではモデルの誤差が許容範囲から逸脱する場合もあり得る。その際には、現在のモデルを修正しなければならなくなるであろう。現在のモデルをデータ分布の変化によって修正する場合、そこで想定される概念漂流は特に「ヴァーチャルな概念漂流(virtual concept drift)」と呼ばれる。
ここで重要となるのは、「ヴァーチャルな概念漂流」と「現実の概念漂流(real concept drift)」の差異である。「ヴァーチャルな概念漂流」と「現実の概念漂流」は、しばしば同時的に生起するものの、「ヴァーチャルな概念漂流」だけが生じる場合もある。例えばスパムメールの分類問題の場合、迷惑メールに対する我々の認識は比較的長期間同一のままかもしれない。だが異なる類型のスパムが生じる相対的な頻度は、時間と共に劇的に変わる可能性もある。
しかし実務的な観点から観れば、「ヴァーチャルな概念漂流」と「現実の概念漂流」の区別は重要な意味論とはならない。いずれにせよ設計者は、現在のモデルを修正しなければならないためである。
概念漂流のモデル
歴史的に概念漂流の意味論は、概念漂流を実現するためのモデルを「インスタンスの選択(instance selection)」、「インスタンスの重み付け(instance weighting)」、そして「アンサンブル学習(ensemble learning)」に区別してきた。インスタンスの選択では、現在の諸概念に関連するインスタンスを選択することが目指される。一般的な概念漂流の方法は、インスタンスの選択に基づいている。それは直近で到達したインスタンス上を移動することで、丁度時間窓(time window)から見通していくように、学習した諸概念を当面の間だけ一時的に予測に利用していく。一方、インスタンスの重み付けが採用される場合、概念漂流はサポートベクトルマシンのような学習アルゴリズムを利用することになる。こうしたアルゴリズムにより、モデルは各インスタンスに重みを付与する。この重みはモデルが認識するインスタンスの重要度を左右する。他方、アンサンブル学習が採用される場合には、複数のモデルによる予測が、投票や加重投票によって選抜される。この選抜では一般的に諸概念との関連性が最も高い記述が概念漂流に資する記述として選択されることになる。
概念漂流を処理するための多くのアルゴリズムは、新しいデータが観測され始めると、定期的にモデルを更新する。ただし、観測され始めるデータの量が膨大になる可能性もある。そのため概念漂流を処理し切ろうとすれば、高い計算コストを支払うことになる。それ以前に、スパム分類などのような一部のアプリケーションでは、データのラベル付けにユーザーによるフィードバックを必要としてしまう。この問題を克服するには、不可避の場合にのみ諸概念の変化を検出することで、モデルを適応させることである。つまり、定期的にモデルを変更するのではなく、モデル更新の「トリガー(trigger)」を設計するのである。しかしながら、現実世界の諸概念は急激ではなく漸進的に変化していくため、検出は困難である。
派生問題:転移学習のパラドックス
転移学習問題の枠組みとその内外周辺には、類似した概念が複数あるために、諸概念を区別すること自体が苦になる場合がある。例えば上述したように、表現学習とは一線を画するような特徴を有したNショット学習は、およそ考え難い。Nショット学習に固有の特徴となるのは、そのモデルやアルゴリズムではなく、未観測クラスを予測しようとするその「スローガン」に過ぎないのではないかと疑ってしまうほどである。
ゼロショット学習やワンショット学習は、歴史的にその多くが徐々に生成モデルや自己符号化器による問題解決策を採用してきた。実務上はたとえ転移学習問題の枠組みから出発していなかったとしても、生成モデルや自己符号化器の設計者は、高い汎化性能を追求していく関連から、意図せずしてNショット学習に取り組んでいる可能性もある。
ドメイン適応についても、同じことを指摘できる。ドメイン適応の主導的差異はソースドメインとターゲットドメインの区別によって構成されている。観察者がドメイン適応に向けたアルゴリズムを設計する場合、兎にも角にもこの区別を導入せざるを得ない。しかしそうした観察者の不可避的な盲点となるのは、ソースドメインとターゲットドメインの<差異の統一>である。
ソースドメインとターゲットドメインの区別を導入する観察者は、この区別の境界が、区別された双方のいずれに位置するのかを認識できない。ターゲットドメインは、未観測(unseen)のドメインである。だがこの区別を導入する観察者は、観測された(seen)ソースドメインと未観測のターゲットドメインの双方を観察していることになる。区別を導入するということは、その双方を指し示すということであるためだ。したがって、未観測(unseen)のドメインに対する観察者の観察は、パラドックスと化す。つまりドメイン適応の設計者は、ソースドメインとターゲットドメインの区別を、ソースドメインの内部に「再導入(re-entry)」しているのである。
したがって、ドメイン適応のアルゴリズムが処理しているターゲットドメインは、実際には<ソースドメインの内部のターゲットドメイン>であるということになる。それはもはや、ソースドメインのみを対象とした教師あり学習と大差が無い。ドメイン適応は、殊更「転移学習」や「ドメイン」などのような諸概念を記述せずとも、単に汎化に取り組んでいるだけであると記述すれば、説明としては事足りてしまうのである。
概念漂流についてもまた、同様のパラドックスを指摘できる。理論が真に普遍的に妥当するには、その理論の言明が当の理論においても妥当しなければならない。概念漂流の理論が諸概念の変化を記述するのならば、概念漂流の理論は、概念漂流という概念(concept)の漂流(drift)をも記述しなければならない。そうなると概念漂流の理論は、「急激な」概念漂流と「漸進的な」概念漂流の区別や「インスタンスの選択」と「インスタンスの重み付け」と「アンサンブル学習」の区別も変更していかなければならなくなる。つまり概念漂流の理論は、概念漂流の理論に関連した概念それ自体が変化した場合の概念漂流をも記述しなければ、妥当しないのである。言い換えれば、概念漂流の理論は、典型的な自己言及のパラドックスへと陥ることになる。
意外なことに思えるかもしれないが、この概念漂流の理論に伴う自己言及のパラドックスは、現実の実務上遭遇し得る決定不可能問題として具体化できる。例えば「急激な」と「漸進的な」の区別が機能するのは、可変的な諸概念の推移の軸となる時間間隔を一定の形式で固定した場合に限られる。ある時点では「1日ごと」の時間間隔で観察していながら、別の時点では「1か月ごと」の時間間隔で観察しているようでは、諸概念の変異を観察したところで、「急激な」と「漸進的な」の差異を識別するための確固たる判断基準が得られなくなる。そうした判断基準を得るには、時間間隔を適切な形で定義しなければならない。しかしながら、時間間隔それ自体もまた、概念漂流の理論が扱う概念の一種である。そうである以上、適切な時間間隔という概念もまた、時間の経過と共に変異し得ることを弁えざるを得なくなる。
以上のような転移学習のパラドックスは、原理的に解決不可能な問題である。しかし、現実的には見過ごされている。機械学習や深層学習のコミュニティは、こうしたパラドックスには無頓着であり続けられている。もし機械学習や深層学習のコミュニティがこのパラドックスを問題視してしまえば、研究プログラムの進捗は瞬く間に停止してしまうであろう。転移学習のパラドックスは、こうしたコミュニティの盲点として位置付けられる。このパラドックスが盲点のままであり続けられているのは、このパラドックスが原理的には解決不可能であっても、無害化されているためである。つまり、何らかの脱パラドックス化の作用が機能することによって、この原理的に解決不可能な問題が、隠蔽され、潜在化され、不可視化され、無害化されているのである。そうなると、転移学習の意味論において主題とすべきなのは、転移学習に潜むパラドックスの脱パラドックス化が如何にして可能になっており、また可能であり続けるのかである。この脱パラドックス化の形式を記述することが、転移学習の展開を可能にするのである。
問題解決策:教師あり事前学習と教師なし事前学習の区別
転移学習のパラドックスを脱パラドックス化する上で有用となるのは、先に示した「教師あり事前学習(supervised pre-learning)」と「教師なし事前学習(unsupervised pre-learning)」の区別である。「半教師あり学習(semi-supervised learning)」の枠組みは、この双方の構造的な結合を可能にしたのであった。ラダーネットワーク(Ladder Networks)をはじめとした半教師あり学習のモデルは、<教師あり学習>と<教師なし学習>の区別を<教師あり学習>の側に「再導入(re-entry)」することによって、<教師なし学習>を<教師あり学習>の一環として、つまり表現学習や正則化の機能の一環として再記述している。元来、積層自己符号化器としての深層ボルツマンマシンや他の様々な自己符号化器による教師なし事前学習は、モデルのパラメタ更新を一定の分布へと方向付ける初期化戦略としての機能を担っていた。一方、ラダーネットワークにおけるノイズ除去型自己符号化器などのように、<教師あり学習>の内部に「再導入」された<教師なし学習>は、情報を可能な限り保持するという表現学習の機能を担うことで、情報を可能な限り間引こうとする<教師あり学習>の情報損失を埋め合わせる機能を有している。
この<教師なし学習>の意味論的変遷は、半教師あり学習が、まず<教師なし学習>と<教師あり学習>の双方を実現していることを表している。そしてこのことが言い表しているのは、半教師あり学習が情報保持と情報破棄の両立を可能にしている点である。半教師あり学習は、一方では情報を積極的に間引くことで<教師あり学習>を実行し、他方では情報を保持する<教師なし学習>を実行する。そうすることで、別のあり方でもあり得る可能性の探索を可能にし続けているのである。
これを前提とすれば、半教師あり学習は<教師あり学習>の機能的等価物であると同時に<教師なし学習>の機能的等価物でもあるということになる。分類や回帰を参照問題とする場合には、半教師あり学習は<教師あり学習>の機能的等価物となる。表現学習や情報の記憶を参照問題とする場合には、半教師あり学習は<教師なし学習>の機能的等価物となる。半教師あり学習は、同一の構造であっても、問題設定次第でその機能を変えるのである。
それ故に半教師あり学習は、Nショット学習、ドメイン適応、そして概念漂流のいずれにも対応できる。<教師なし学習>に基づいた表現学習は、まずはNショット学習の手筈を整えることができる。この<教師なし学習>への入力データ分布を調節すれば、ゼロショット学習とワンショット学習のいずれにも対応できるようになる。未観測クラスを予測しようとする営みは、<教師なし学習>の設計問題となるため、単なる「スローガン」ではあり得なくなる。
ドメイン適応においても、半教師あり学習は、ソースドメインに対する<教師あり学習>とターゲットドメインに対する<教師なし学習>の双方を両立する。つまり半教師あり学習は、ソースドメインとターゲットドメインの区別を導入すると共に、この区別を<教師あり学習>と<教師なし学習>の区別に対応付けることで、区別された双方を同時的に指し示している。仮にターゲットドメインがソースドメインの内部に「再導入」されているというパラドックスが顕在化したとしても、半教師あり学習の理論は、別のパラドックスを顕在化させることによって、ドメインのパラドックスを潜在化させる。すなわち、半教師あり学習は、ターゲットドメインに対応する<教師なし学習>をソースドメインに対応する<教師あり学習>の内部に「再導入」するアルゴリズムとして自らを構造化させる。そうすることで半教師あり学習は、観察されている当のターゲットドメインが<ソースドメインの内部におけるターゲットドメイン>である場合にも、当のターゲットドメインが真のターゲットドメインである場合と同一のアルゴリズムで対応することを可能にする。
最後に、概念漂流の理論から派生する自己言及のパラドックスについて言えば、半教師あり学習は、「同一の構造であっても、問題設定次第でその機能を変える」という機能的な性質によって脱パラドックス化を可能にする。つまり等価機能主義的に、概念漂流という概念を機能概念のみに限定した上で捉え直すのである。すると「問題設定次第でその機能を変える」という半教師あり学習の性質を有した概念漂流のモデルは、概念漂流という概念の漂流を<特定の問題の枠組みの中での概念漂流>として再記述することを可能にする。
問題解決策:深層再構成分類ネットワーク
「深層再構成分類ネットワーク(Deep Reconstruction-Classification Network)」は、半教師あり学習を応用したドメイン適応のモデルの一例となる。このモデルは特に「教師ありドメイン適応(supervised domain adaptation)」と「教師なしドメイン適応(unsupervised domain adaptation)」の区別を導入することで、<教師なし学習>とドメイン適応の接点を明確化する意味論を提供してもいる。
ドメインを$$\mathcal{X} \times \mathcal{Y}$$における確率分布$$\mathcal{D}_{XY}$$と定義する。ここで、$$\mathcal{X}, \mathcal{Y}$$はそれぞれ入力空間と出力空間を表す。ソースドメインとターゲットドメインをそれぞれ$$\mathbb{P}, \mathbb{Q}$$とするなら、ドメイン適応の問題設定から、$$\mathbb{P} \neq \mathbb{Q}$$となる。これを前提とすれば、教師なしドメイン適応の目的は、ラベル付きサンプルをソースドメイン$$S^s = \{(x_i^2, y_i^s)\}_{i=1}^{n_s} \sim \mathbb{P}$$から抽出し、ラベルなしサンプルをターゲットドメイン$$S_u^t = \{(x_i^t)\}_{i=1}^{n_t} \sim \mathbb{Q}_X$$から抽出することで、$$S_u^t$$において関数$$f : \mathcal{X} \rightarrow \mathcal{Y}$$の良きラベリングを発見することとなる。教師なしドメイン適応では、特徴の表現学習によって、$$\mathcal{F}$$において$$\mathbb{P}$$と$$\mathbb{Q}$$の分布の差異を最小化するような関数$$g : \mathcal{X} \rightarrow \mathcal{F}$$を発見することが目指される。
マルチタスク学習としての教師なしドメイン適応
理想的には、識別的な表現はラベルとデータ構造の双方をモデル化するべきである。直観(intuition)に基づいて言えば、ドメイン適応表現は次の二つの評価水準を満たすべきである。第一の評価基準は、ラベル付けされているソースドメインのデータを分類することに関わる。故に分類問題としての評価水準が満たされなければならない。第二の評価基準は、ラベルなしのターゲットドメインを再構成する場合の評価基準である。これは識別的な表現の近似と見做すことができる。
深層再構成分類ネットワークのモデルには、符号化された表現を共有する二つのパイプラインが実装されている。第一のパイプラインでは、通常の深層畳み込みニューラルネットワークによるソースドメインのラベルの予測を実行する。第二のパイプラインは、ターゲットドメインのデータを再構成するための畳み込み自己符号化器として機能する。したがって深層再構成分類ネットワークはマルチタスク学習(multitask learning)を通じて最適化される。つまり、半教師あり学習のように、教師あり学習と教師なし学習を接続させることで最適化される。符号化された表現を共有する狙いは、ドメインを跨いで有用となる情報を提供するこれらマルチタスクにおける共通性を学習することである。
深層再構成分類ネットワークの構造
より定式化して言えば、深層再構成分類ネットワークは、次のように再記述できる。教師あり学習のラベル予測用のパイプラインを$$f_c : \mathcal{X} \rightarrow \mathcal{Y}$$とし、教師なし学習による再構成用のパイプラインを$$f_r : \mathcal{X} \rightarrow \mathcal{Y}$$とする。更に、上述した符号化と復号化の表現学習を次のように定義しよう。
$$g_{enc} : \mathcal{X} \rightarrow \mathcal{F}$$
$$g_{dec} : \mathcal{F} \rightarrow \mathcal{X}$$
$$g_{lab} : \mathcal{F} \rightarrow \mathcal{Y}$$
m個の多クラス分類問題として観察するなら、$$g_{lab}$$の出力値はソフトマックス関数の出力値となる。入力を$$x \in \mathcal{X}$$とするなら、次のように分解することができる。
$$f_c(x) = (g_{lab} \circ g_{enc})(x)$$
$$f_r(x) = (g_{dec} \circ g_{enc})(x)$$
教師あり学習のモデルと教師なし学習のモデルにおけるパラメタをそれぞれ$$\theta_c = \{\theta_{enc}, \theta_{lab}\}$$と$$\theta_r = \{\theta_{enc}, \theta_{dec}\}$$とする。$$\theta_{enc}$$は$$g_{enc}$$の特徴写像のために共有されるパラメタである。$$\theta_{enc}, \theta_{dec}, \theta_{lab}$$は複数の層においてパラメタを符号化するであろう。ここで重要となるのは、特徴写像$$g_{enc}$$が$$f_c, f_r$$の双方を支持するようにモデル化することである。

Ghifary, M., Kleijn, W. B., Zhang, M., Balduzzi, D., & Li, W. (2016, October). Deep reconstruction-classification networks for unsupervised domain adaptation. In European Conference on Computer Vision (pp. 597-613). Springer, Cham., p5.より掲載。
深層再構成分類ネットワークの学習アルゴリズム
学習アルゴリズムは次のように表される。入力を$$\mathcal{X} \subseteq \mathbb{R}^d$$、ラベルを$$\mathcal{Y} \subseteq \mathbb{R}^m$$とする。分類誤差と再構成誤差をそれぞれ$$l_c : \mathcal{Y} \times \mathcal{Y} \rightarrow \mathbb{R}$$と$$l_r : \mathcal{X} \times \mathcal{X} \rightarrow \mathbb{R}$$とする。ソースドメインのサンプルを$$S^s = \{(x_i^s, y_i^s)\}_{i=1}^{n_s} \sim \mathbb{P}$$とし、ラベルのone-hotなベクトルを$$y_i \in {0, 1}^m$$とする。ラベルなしのターゲットドメインのサンプルは$$S_u^t = \{(x_j^t)\}_{j=1}^{n_t} \sim \mathbb{Q}$$となる。
以上を踏まえれば、分類誤差と再構成誤差はそれぞれ次のように再記述できる。
$$\mathcal{L}_c^{n_s}(\{\theta_{enc}, \theta_{lab}\}) := \sum_{i=1}^{n_s}l_c(f_c(x_i^s; \{\theta_{enc}, \theta_{lab}\}), y_i^s)$$
$$\mathcal{L}_r^{n_t}(\{\theta_{enc}, \theta_{dec}\}) := \sum_{j=1}^{n_t}l_r(f_r(x_j^t; \{\theta_{enc}, \theta_{dec}\}), x_j^t)$$
出力がソフトマックス関数であることから、典型的には、$$l_c$$はクロスエントロピーの誤差となる。
$$l_c = \sum_{k=1}^m y_k \log [f_c(x)]_k$$
分類誤差と再構成誤差をトレードオフのパラメタλで統合するなら、目的関数は次のような教師あり学習と教師なし学習の誤差関数として整理できる。
$$\min \lambda \mathcal{L}_c^{n_s}(\{\theta_{enc}, \theta_{lab}\}) + (1 – \lambda)\mathcal{L}_r^{n_t}(\{\theta_{enc}, \theta_{dec}\}), \ 0 \leq \lambda \leq 1$$
学習アルゴリズム全体として観ると、深層再構成分類ネットワークは、分類誤差最小化に基づいたパラメタ更新と再構成誤差最小化に基づいたパラメタ更新をエポックごとに交互に実行している。したがって実際には、$$\theta_c$$と$$\theta_r$$が更新されるタイミングには差異がある。
この誤差関数は確率的勾配降下法をはじめとしたアルゴリズムで最適化される。正則化の技術としては、ドロップアウトのような一般的な方法が採用される。またこれも正則化の狙いがあってのことであるが、自己符号化器の構造はノイズ除去型自己符号化器の様相を呈している。最適化されたパラメタ$$\hat{\theta}_{enc}, \hat{\theta}_{lab}$$はそれぞれ分類モデル$$f_c(x^t; \{\hat{\theta}_{enc}, \hat{\theta}_{lab}\})$$として再利用される。この分類モデルは、ターゲットドメインにおいても機能すると期待される。
最尤推定の近似
上述した通り、深層再構成分類ネットワークの目的関数は教師あり学習における誤差関数と教師なし学習における誤差関数の複合体である。この意味でこの目的関数は、ターゲットドメインにおける半教師あり学習として機能する。このような目的関数設計において想定されているのは、教師なし学習それ自体は、ラベルなしのデータでも十分であるということだ。このことは、教師なしのソースデータを追加してもドメイン適応が改善される訳ではないということを予期させる。
ラベル付きデータとラベルなしデータをそれぞれ$$\mathbb{D}_{XY} =: \mathbb{D}$$と$$\mathbb{D}_X$$とする。最尤推定で学習する、$$\theta \in \Theta$$でパラメタ化されているモデルの族を$$P^{\theta}(\cdot)$$とする。ドメイン適応問題における深層再構成分類ネットワークのアルゴリズムで確率論的に想定されているのは、$$P^{\theta}(x)$$がガウス分布に従うと共に$$P^{\theta}(y\mid x)$$がロジスティクス回帰に適合した多項分布に従うということである。したがって、上記の目的関数は次の最尤推定と等価となる。
$$\newcommand{\argmax}{\mathop{\rm arg~max}\limits}$$$$\hat{\theta} = \argmax_{\theta} \lambda \sum_{i=1}^{n_s} \log P_{Y \mid X}^{\theta}(y_i^s \mid x_i^s) + (1 – \lambda)\sum_{j=1}^{n_t} \log P_{X \mid \tilde{X}}^{\theta}(x_j^t \mid \tilde{x}_j^t) \tag{1}$$
ここで、$$\tilde{x}$$は$$\mathbb{Q}_{\tilde{X} \mid X}$$によって生成されたノイズ化された入力である。上式の第一項は教師あり学習によって学習したモデルを表現している。第二項は教師なし学習によって学習した自己符号化器のモデルを表す。識別モデルはソースデータの分布$$\mathbb{P}_X$$から抽出されたラベル付きデータのみを観測する。
ターゲットドメイン$$\mathbb{Q}$$からラベル付きサンプルとラベルなしサンプルが確率λと確率 1 – λ によって得られるとすると、最尤推定ζは次のようになる。
$$\zeta = \argmax_{\zeta} \lambda \mathbb{E}_Q [\log P^{\zeta}(x, y)] + (1 – \lambda) \mathbb{E}_{\mathbb{Q}_X}[\log P_X^{\zeta}(x)] \tag{2}$$
この定理は、モデルが真の分布を包含しているという「整合性(consistency)」と「円滑性(smoothness)」、そして「測定可能性(measurability)」が成立している場合に満たされる。ターゲットデータ$$(x_1^t, y_1^t), …, (x_{n_t}^t, y_{n_t}^t)$$を受け取る場合、ζは次のように推定される。
$$\hat{\zeta} = \argmax_{\zeta}\lambda \sum_{i=1}^{n_t}[ \log P^{\zeta}(x_i^t, y_i^t)] + (1 – \lambda) \sum_{i=1}^{n_t}[\log P_X^{\zeta}(x_i^t)] \tag{3}$$
しかし、ターゲットドメインのデータを参照することができない以上は、教師なしドメイン適応においてこの最尤推定値を計算することは不可能である。したがって観点を変える必要がある。
$$\hat{\theta}$$と$$\hat{\zeta}$$は密接に関連しているというのは確実である。共変量シフト(covariate shift)によって$$\mathbb{P} \neq \mathbb{Q}$$かつ$$\mathbb{P}_{Y \mid X} = \mathbb{Q}_{Y \mid X}$$を想定するなら、(1)はターゲットサンプルからソースサンプルへの期待値へと変換できる。
$$\mathbb{E}_{\mathbb{Q}}[\log P^{\zeta}(x, y)] = \mathbb{E}_{\mathbb{P}}[\frac{\mathbb{Q}_X(x)}{\mathbb{P}_X(x)} \cdot \log P^{\zeta}(x, y)]$$
(1)の第二項を観ると、$$P_{X \mid \tilde{X}}^{\theta}(x \mid \tilde{x})$$は、$$\mathbb{P}_X$$のデータ生成分布へと収束するXの漸近的な周辺分布を有したエルゴード・マルコフ連鎖(ergodic Markov chain)となっている。したがって、(3)は次のように再記述できる。
$$\hat{\zeta} \approx \argmax_{\zeta} \lambda \sum_{i=1}^{n_s} \frac{\mathbb{Q}_X(x_i^s)}{\mathbb{P}_X(x_i^s)} \log P^{\zeta}(x_i^s, y_i^s) + (1 – \lambda)\sum_{i=1}^{n_t}[\log P_{X \mid \tilde{X}}^{\zeta}(x_j^t \mid \tilde{x}_j^t)] \tag{4}$$
(1)と(4)の差異は第一項のみである。重要なのは、もし$$\frac{\mathbb{Q}_X(x_i^s)}{\mathbb{P}_X(x_i^s)}$$が全ての$$x^s$$において定数ならば、$$\hat{\zeta}$$は$$\hat{\theta}$$に近似されるということである。実際、これが深層再構成分類ネットワークの目的関数となる。たとえ実践上一定の割合であるという想定があまりにも強固で成立しないとしても、(1)と(4)は$$\hat{\zeta}$$は$$\hat{\theta}$$の合理的な近似となり得ることを示している。
この関連から、教師なし学習の間にラベルなしのソースサンプルを利用したところでドメイン適応には影響を与えないという点に関しても明快となる。(4)の第一項は次のように拡張できる。
$$\lambda \sum_{i=1}^{n_s}\frac{\mathbb{Q}_X(x_i^s)}{\mathbb{P}_X(x_i^s)} \log P_{Y \mid X}^{\zeta}(y_i^s \mid x_i^s) + \lambda \sum_{i=1}^{n_s} \frac{\mathbb{Q}_X(x_i^s)}{\mathbb{P}_X(x_i^s)} \log P_X^{\zeta}(x_i^s)$$
上式の第二項を観れば、$$n_s \rightarrow \infty$$の時、$$P_X^{\theta}$$は$$\mathbb{P}_X^{\theta}$$へと収束する。したがって、
$$\int_{x \sim \mathbb{P}_X}^{} \frac{\mathbb{Q}_X(x)}{\mathbb{P}_X(x)} \log \mathbb{P}_X(x) \leq \int_{x \sim \mathbb{P}_X}^{} \mathbb{P}_X^t(x)$$
であるために、ラベルなしのサンプルを追加することによる影響は一定となる。このことが暗に示しているのは、一連の最適化の処理が(1)と等価になるということである。それは、ドメイン適応の文脈においては、ラベルなしのソースデータが無用(uselessness)であることを意味する。
尤も、以上の記述は、すなわちラベルなしのソースデータを組み合わせることが精度の劣化を伴わせるということを意味するのではない。深層再構成分類ネットワークが機能するのは、恐らく典型的な半教師あり学習と同様に、<教師あり学習>の内部に再導入されている<教師なし学習>が<教師あり学習>の正則化として機能しているためである。
機能的等価物の探索:深層埋め込みクラスタリング
「深層埋め込みクラスタリング(Deep Embedded Clustering)」は、深層再構成分類ネットワークと類似したネットワーク構造を有している。それは丁度深層再構成分類ネットワークの分類器部分をデータ・クラスタリングに置換した構造となっている。既存のデータ・クラスタリングのほとんどは、K-Means法をはじめとしたインスタンス間の類似度関係をモデル化することに焦点を当てている一方で、クラスタリングに特化したより効果的な表現の抽出は無視している。深層埋め込みクラスタリングは、この穴埋めとして、クラスタリングに有用な表現学習を可能にする。
n個のデータ点$$\{x_i \in X\}_{i=1}^{n}$$の集合をk個のクラスタへとクラスタリングする問題をK-Means法に準拠したアルゴリズムを基礎に記述するなら、重要なのはセントロイド$$u_j, \ j = 1, …, k$$の扱いである。データ空間Xにおける直接的なクラスタリングの代わりとして、深層埋め込みクラスタリングは、非線形写像$$f_{\theta} : X \rightarrow Z$$を想定することになる。ここで、θは学習パラメタで、Zは潜在的な特徴空間を表す。「次元の呪い(curse of dimensionality)」を回避するために、一般的にZの次元はXのそれよりも少なく設定される。つまりいわゆる不完備(under-complete)な自己符号化器が推奨されるのである。$$f_{\theta}$$をパラメタ化するために関数近似機能と特徴の学習機能を有した深層ニューラルネットワークを採用するのは自然な流れである。
ソフトアサインメント
特徴空間Zにおけるk個のセントロイド$$\{u_j \in Z\}_{j=1}^{k}$$とZにデータ点を写像する深層ニューラルネットワークのパラメタθを共に学習するために、深層埋め込みクラスタリングは、二つの段階を踏む。第一段階では、自己符号化器による教師なし事前学習に基づいたパラメタの初期化戦略を実行する。これは、典型的な「層ごとの貪欲な教師なし事前学習(Greedy layer-wise unsupervised pre-learning)」の手続きに他ならない。一方で第二段階では、後述するターゲット分布(target distribution)の計算とカルバック・ライブラー ダイバージェンス(Kullback-Leibler divergence: KL divergence)の最小化を交互に反復する学習アルゴリズムによるパラメタの最適化を実行する。
KLダイバージェンス最小化に基づいたデータ・クラスタリングは、「ソフトアサインメント(soft assignment)」に準拠している。埋め込まれた特徴点$$z_i$$とセントロイド$$u_j$$の類似度を測定するカーネルとして、「スチューデントのt分布(Student’s t-distribution)」を利用するなら、ソフトアサインメントの計算は次のようになる。
$$q_{ij} = \frac{\left(1 + \frac{\mid\mid z_i – u_j \mid\mid^2}{\alpha}\right)^{-\frac{\alpha+1}{2}}}{\sum_{j’}^{}\left(1 + \frac{\mid\mid z_i – u_{j’} \mid\mid}{\alpha}\right)^{-\frac{\alpha + 1}{2}}}$$
ここで、埋め込み後において、$$z_i = f_{\theta}(x_i) \in Z$$は$$x_i \in X$$に照応する。αはスチューデントのt分布における自由度を表す。そして、$$q_{ij}$$はサンプルiをクラスタjに割り当てる確率と解釈できる。
このソフトアサインメントの確率の確信度は、ターゲット分布との突き合わせによって評価される。形式的に言えば、次のようなKLダイバージェンスを目的関数として設定することができる。
$$L = KL(P\mid\mid Q) = \sum_{i}^{}\sum_{j}^{}p_{ij}\log\frac{p_{ij}}{q_{ij}}$$
深層埋め込みクラスタリングでは、このターゲット分布の選択が肝となる。ターゲット分布と突き合わせられるのがソフトアサインメントの確率値であることを踏まえれば、このターゲット分布もまた何らかの確率値として設定することが可能であると考えられる。そして最終的にクラスタリングの評価指標として参照できるようにするなら、このターゲット分布は、クラスタの純度の改善を可能にするような指標であることが推奨される。そうしたターゲット分布は、高い確信度を以ってデータ点を割り当てることを可能にしなければならない。そして、大きなクラスタが隠れた特徴空間を歪めないように、各セントロイドにおける損失の影響度を正規化しなければならない。
この関連から深層埋め込みクラスタリングでは、クラスタごとの生起頻度によって正規化された割合をターゲット分布として計算している。
$$p_{ij} = \frac{
\frac{
q_{ij}^2}
{f_j}
}
{
\sum_{j’}^{}\frac{
q_{ij’}^2}{f_{j’}}}$$
ここで、$$f_j = \sum_{i}q_{ij}$$はソフトクラスタ頻度(soft cluster frequencies)を意味する。
深層埋め込みクラスタリングの学習アルゴリズムは、クラスタのセントロイド$$\{u_j\}$$と深層ニューラルネットワークの自己符号化器におけるパラメタθを結合した状態で、モメンタムを有した確率的勾配降下法による最適化を施す。Lの勾配はそれぞれ次のようになる。
$$\frac{\partial L}{\partial z_i} = \frac{\alpha + 1}{\alpha} \sum_{j}^{}\left(1 + \frac{\mid\mid z_i – u_j \mid\mid^2}{\alpha}\right)^{-1} \times (p_{ij} – q_{ij})(z_i – u_j)$$
$$\frac{\partial L}{\partial u_j} = -\frac{\alpha + 1}{\alpha} \sum_{i}^{}\left(1 + \frac{\mid\mid z_i – u_j \mid\mid^2}{\alpha}\right)^{-1} \times (p_{ij} – q_{ij})(z_i – u_j)$$
前者の勾配は自己符号化器に対して逆伝播される。そして、自己符号化器の再構成誤差最小化に基づく教師なし事前学習によって初期化されていたパラメタθを更新していく。一方、後者の勾配はセントロイドの更新時に参照される。
改善後の深層埋め込みクラスタリング
しかし、後の拡張において、この深層埋め込みクラスタリングのネットワーク構造は問題視されることになる。と言うのも、上述した自己符号化器のパラメタθの更新によって、自己符号化器の再構成誤差最小化に基づく教師なし事前学習で初期化したパラメタの影響が帳消しされてしまうためである。この問題は、教師なし事前学習を終えた深層埋め込みクラスタリングのネットワーク構造では、クラスタリングの計算に符号化(encoder)の出力結果しか参照されないために、復号化(decoder)の出力結果が加味されないことに起因する。言い換えれば、自己符号化器における復号化部分が、教師なし事前学習以後は切り離されてしまうことに問題がある。
そこで改善後の深層埋め込みクラスタリング(improved Deep Embedded Clustering)の誤差関数は、符号化と復号化の計算グラフを介して計算される再構成誤差$$L_r$$と符号化とソフトアサインメント部分とを結合した状態で計算されるクラスタリングの誤差$$L_c$$の総和として処理される。
$$L = L_r + \gamma L_c$$

Guo, X., Gao, L., Liu, X., & Yin, J. (2017, June). Improved deep embedded clustering with local structure preservation. In IJCAI (pp. 1753-1759)., p1755.より掲載。
改善後の深層埋め込みクラスタリングの機能的拡張案は、学習アルゴリズムの面でも示唆に富む内容となっている。初期の深層埋め込みクラスタリングは、エポックごとにターゲット分布を計算していた。しかしこうしてソフトアサインメントの評価軸を変動させ続けてしまっては、クラスタリング側の誤差によって学習していくモデルが安定化しなくなる。それ故に改善後の深層埋め込みクラスタリングでは、ターゲット分布の更新手続きがTエポックごとに更新していく手続きへと変更されている。Tはハイパーパラメタとして提案されており、専ら入力するデータの構造との相談事となる。
半教師あり深層埋め込みクラスタリング
自己符号化器の再構成誤差最小化に基づく教師なし事前学習に準拠したデータ・クラスタリングのモデルは、深層埋め込みクラスタリング以外にも多聞に及ぶ。例えば「深層埋め込みネットワーク(Deep embedding network)」もまた、やはり自己符号化器の表現学習によって、類似度の距離の計算に特化していた従来のデータ・クラスタリングの補完として導入されている。
深層埋め込みネットワークは、二つの制約を課すことで、クラスタリング志向の表現(clustering-oriented representations)を学習する。第一の制約は、生データからより良い表現を得るために、再構成誤差最小化によって学習する自己符号化器を利用する点である。学習された表現から固有多様体(intrinsic manifold)を発見するために、深層埋め込みクラスタリングは元データにおける局所的なデータ構造を保持する局所性保存制約(locality-preserving constraint)を適用している。クラスタリングを更に促進すると共に表現がクラスタの情報を包含するべく、このモデルではまた、グループスパース性制約(group sparsity constraint)も採用している。これは表現の親和性を対角化することを目的としている。とりわけ局所性保存制約に対する深層埋め込みネットワークの設計は、復号化部分の見直しを推奨した改善後の深層埋め込みクラスタリングと問題意識を共有している。
しかし半教師あり学習への拡張との関連から言えば、深層埋め込みクラスタリングは歴史上最も早期に半教師あり学習へと拡張されたモデルの一つとして位置付けられる。半教師あり深層埋め込みクラスタリング(Semi-supervised Deep Embedded Clustering)は、「ペアワイズ制約(pairwise constraints)」を目的関数に追加することで、深層埋め込みクラスタリングの構造を半教師あり学習へと変換している。この制約項は次のような n x nの行列として記述できる。
\begin{bmatrix}
a_{11} & a_{12} & \cdots & a_{1n} \\
a_{21} & a_{22} & \cdots & a_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
a_{n1} & a_{n2} & \cdots & a_{nn}
\end{bmatrix}
もし二つのデータ点$$x_i, x_k$$が同一のクラスタに割り当てられるとするなら、それは「必須リンク制約(must-link constraints)」として、$$a_{ik} = 1$$となる。一方、逆に双方が同一のクラスタに割り当てることを禁止する場合には、それは「リンク不可能制約(cannot-link constraints)」として、$$a_{ik} = -1$$となる。その他の要素は全てゼロとして初期化される。
これを前提とすれば、ペアワイズ制約の機能は、抽出されたデータの組み合わせが同一のクラスに割り当てられる場合と異なるクラスに割り当てる場合との区別を導入することである。モデルは、この行列の値が1ならば、二つのデータ点は近接する関係にあると捉える。逆に-1ならば、双方は疎遠と見做す。したがって、ペアワイズ制約を追加した目的関数は次のようになる。
$$L = KL(P\mid\mid Q) + \lambda \frac{1}{n}\sum_{i=1}^{n}\sum_{k=1}^{n}a_{ik}\mid\mid z_i – z_k \mid\mid^2$$
ここで、λはペアワイズ制約項の重みを表す。理論的な記述においては見過ごされてしまいがちであるが、注意しなければならないのは、このペアワイズ制約項の行列における各要素が、実務上ラベル付きサンプルを得ることで漸く計算可能になるという点である。この制約項を追加した深層埋め込みクラスタリングが半教師あり学習となる所以は無論ここにある。つまり半教師あり深層埋め込みクラスタリングは、もともと<教師なし学習>を中心とした構造に<教師あり学習>の要素を追加することで構造化されているのである。
深層再構成分類ネットワークと深層埋め込みクラスタリングの機能的等価性
ここまでの構造的な拡張によって、漸く深層埋め込みクラスタリングと深層再構成分類ネットワークの機能的等価性を記述することが可能になる。いずれのモデルも、自己符号化器の再構成誤差最小化に基づく<教師なし学習>を実行している。厳密に言えば、初期の深層埋め込みクラスタリングは教師なし事前学習を実行しているに過ぎなかった。だが改善後の深層埋め込みクラスタリングは、クラスタリングの誤差に基づいた学習が開始された後も、エポックごとに再構成誤差の最小化に基づいた学習を実行している。ペアワイズ制約を追加することで半教師あり学習へと拡張された深層埋め込みクラスタリングは、事実上交互に、再構成誤差最小化とクラスタリング誤差最小化を反復している。それは丁度、深層再構成分類ネットワークが交互に再構成誤差再最小化と分類誤差最小化を実行しているようにである。半教師あり深層埋め込みクラスタリングは、それ故に深層再構成分類ネットワークと同じように、自己符号化器の再構成誤差最小化に基づく<教師なし学習>を<教師あり学習>の一環として実行していることになる。
この機能的等価物同士の比較によって、半教師あり学習に共通する構造をより強調して記述することができるようになる。深層再構成分類ネットワークにせよ、半教師あり深層埋め込みクラスタリングにせよ、最終的な目標に対応した<教師あり学習>の内部に<教師なし学習>を「再導入」している。しかも専らここでモデリングされるのは、自己符号化器の再構成誤差最小化に基づく<教師なし学習>なのである。思えば、先に示したラダーネットワークによる半教師あり学習も、その内部にノイズ除去型自己符号化器を搭載するネットワーク構造を有していた。同様に半教師あり学習を可能にするエネルギーベースの敵対的生成ネットワークもまた、識別器にエネルギーベースモデルとしての自己符号化器を導入している。データ・クラスタリングと近しい位置付けにある敵対的自己符号化器による半教師あり学習もまた、生成器の側に自己符号化器を搭載することが大前提となっている。半教師あり学習で転移学習を展開する場合、自己符号化器を如何にして導入し得るのかが鍵となるのである。
プロトタイプの開発:深層再構成分類ネットワークと深層埋め込みクラスタリングのインターフェイス
Pythonのライブラリ:『pydbm』は、当初は積層自己符号化器としての深層ボルツマンマシンをはじめとする教師なし事前学習器による転移学習機能を提供していたが、徐々に深層ニューラルネットワーク一般をエネルギーベースモデルとしての自己符号化器として拡張することで、深層再構成分類ネットワークや深層埋め込みクラスタリングの構築を可能にしてきた。このライブラリでは、上述した機能的等価性の観点から、深層再構成分類ネットワークと深層埋め込みクラスタリングのクラスのそれぞれが、自己符号化器の機能を提供する共通のインターフェイスを参照するネットワーク構造として設計されている。これにより、分類とクラスタリングの共通性/可変性分析に基づいたオブジェクト指向設計を果たしている。
派生問題:アルゴリズム設計の自己言及性
深層再構成分類ネットワークのハイパーパラメタの一つであるλは、トレードオフのパラメタとして、0.4から0.7の範囲内で指定することが推奨されている。これがトレードオフであるのは、観測クラスのソースドメインに対する<教師あり学習>と未観測クラスのターゲットドメインに対する<教師あり学習>が、トレードオフの関係にあるためである。つまりいずれか一方を重視し過ぎてしまえば、他方の学習がパラメタの更新に反映され難くなるのである。
このトレードオフの関係を抽象化するなら、<教師あり学習>と<教師なし学習>の区別を導入する半教師あり学習の学習アルゴリズムは、既知の情報の「活用(exploit)」と未知の情報の「探索(explore)」の区別を導入するバンディットアルゴリズムの機能的等価物としても記述することができる。ドメイン適応問題は確率的バンディット問題として再設定することもできるということだ。
この機能的等価性の観察は、ドメイン適応問題に対するより良き理解を可能にする。バンディットアルゴリズムを強化学習アルゴリズムとして拡張できるのと丁度同じように、半教師あり学習もまた強化学習アルゴリズムへと拡張することができるのである。例えばチェルシー・フィンらが2017年に提案している「半教師あり強化学習(semi-supervised reinforcement learning)」は、既知の環境における報酬関数と未知の環境における報酬関数の区別を導入する強化学習アルゴリズムである。この場合の強化学習エージェントは、報酬を観測できる狭い範囲の「ラベルあり(labeled)」の環境で学習していくと共に、正常に行動するために学習しなければならない広範な「ラベルなし(unlabeled)」の環境で学習していく。したがって強化学習エージェントは、「探索」と「活用」の区別に対して「ラベルあり」と「ラベルなし」の区別を適用していることになる。エージェントは、「ラベルあり」の環境と「ラベルなし」の環境のいずれの状況でも「探索」と「活用」のトレードオフを観測する。それによりこの学習アルゴリズムは、半教師あり学習に逐次的な意志決定機能を接続させている。
標準的な強化学習アルゴリズムが単に報酬関数が利用できる環境で方策を学習していくのに対して、半教師あり強化学習のアルゴリズムは「ラベルあり」の環境で得た情報を一般化する能力を手にしている。これにより、半教師あり強化学習のエージェントは、「ラベルなし」の新たな未観測の条件下で、より一般化された方策を発見する。そしてエージェントは、それと共に生涯に渡る実世界の経験から継続的な改善を達成することを可能にしている。
半教師あり強化学習は標準的な畳み込みニューラルネットワークと結合している深層強化学習からも区別されなければならない。深層強化学習が深層学習を採用しているのは、状態-行動価値の関数近似器としてである。この意味では、深層強化学習における深層学習の機能は一般化(generalization)に他ならない。しかし一方で半教師あり強化学習の設計は、深層強化学習が「ラベルなし」の環境の報酬観測が如何にして可能になるのかという問題設定から始まっている。強化学習と深層強化学習はいずれも「詳細な外的フィードバックについての自然なソースを伴わせたドメイン(domains with natural sources of detailed external feedback)」を前提としているために、エージェントは、事前に設定した環境から逸脱した外部環境によるフィードバックには的確に反応できないのである。
半教師あり強化学習の問題意識を先鋭化させる上で有用となるのは、システムと外部環境の区別である。ここでいうシステムとは、セカンドオーダー・サイバネティクスの理論によって記述されている「観察するシステム(Observing System)」である。「観察するシステム」は、サイバネティクス理論が記述してきたような「観察されるシステム(Observed System)」ではない。「観察されるシステム」は、ソフトウェア・エンジニアが言うところの機能要件や非機能要件が外部の環境から付与されている「他律的なシステム」に過ぎない。これに対して「観察するシステム」は、そうした機能要件や非機能要件などといった動作の条件を自己自身で構成する自律的なシステムである。
強化学習や半教師あり強化学習は、総じて「観察するシステム」である。それは単に、エージェントが環境を探索することで報酬を観測するためだけではない。より重要なのは、強化学習問題の枠組みが提供する自己言及的な意味論である。実際、ここで記述される「環境」という概念は、強化学習問題の枠組みの内部の意味論によって記述されている。したがってここでいう「環境」とは、強化学習という「観察するシステム」の内部で構成された「環境」である。つまり強化学習が成り立つのは、強化学習という「観察するシステム」と外部の「環境」の区別をこの「観察するシステム」の内部へと「再導入(re-entry)」した場合である。強化学習エージェントの環境に対する「外部」言及は、強化学習問題の枠組み全体として観れば、強化学習の強化学習に対する自己言及となる。外部言及とは、外部に言及している自己への言及なのである。
システム理論的に言い換えれば、強化学習という「観察するシステム」は、「作動の閉鎖性(operative Schließung)」を成立させることで、外部環境に対する開放性を成立させている。この概念が意味するのは、問題設定の枠組みの閉鎖性が、言及や観察における開放性の前提となっているということである。「エージェント」や「環境」のような諸要素の意味論を外部から区別するからこそ、この問題の枠組みの内部では、「エージェント」の「環境」に対する開放性が成立しているのである。作動の閉鎖性を前提とすれば、システムと外部環境の区別は、システムの内部へと「再導入」される。システムは、システムと外部環境の区別を自己言及的に構成することによって、自己言及と外部言及の区別を自己言及の内部に「再導入」する。このパラドックス的な自己言及が、強化学習問題の枠組みにおける意味論となっているのである。
同じことがドメイン適応機能を有した半教師あり学習についても該当する。ドメイン適応機能を有した半教師あり学習という「観察するシステム」にとって、未観測クラスに対応するターゲットドメインは、外部環境に位置する。「ラベルなし」のターゲット分布のデータに対する<教師なし学習>は、システムの外部環境に対する探索を意味する。言い換えれば、観測クラスと未観測クラスの区別、ソースドメインとターゲットドメインの区別、そして<教師あり学習>と<教師なし学習>の区別が、システムと外部環境の区別に対応しているのである。システムと外部環境の区別がシステムの内部に「再導入」されるのと同じように、観測クラスと未観測クラスの区別は観測クラスの内部に「再導入」され、ソースドメインとターゲットドメインの区別はソースドメインの内部に「再導入」され、そして<教師あり学習>と<教師なし学習>の区別は<教師あり学習>の内部に「再導入」される。ドメイン適応機能を有した半教師あり学習もまた、自己言及と外部環境の区別を自己言及の内部に「再導入」する「観察するシステム」なのである。
半教師あり強化学習もまた、同様に自己言及的な「観察するシステム」である。半教師あり強化学習は、確かに「ラベルあり」の環境と「ラベルなし」の環境の区別を導入することによって、従来の強化学習や深層強化学習が踏み込めていなかった環境も探索可能にしている。しかし、そうした「ラベルなし」の環境もまた、半教師あり強化学習問題の枠組みの内部に「再導入」された環境となる。つまり「ラベルなし」の環境もまた、「観察するシステム」としての半教師あり強化学習の自己言及によって構成されているのである。
以上のような自己言及的なシステムの理論が明かすのは、あらゆる「観察するシステム」が、純然たる外部環境を決して観察していないということである。システムが外部環境に言及するのは、システムの内部に「再導入」された環境のみである。システムの外部環境に対する観察は、それ故に不十分に留まる。それは未だ観ぬ環境が実在するからではない。そうではなく、あらゆる観察が、自己言及と外部言及の区別を前提としているためである。システムと外部環境の区別を導入することで作動している「観察するシステム」にとって、システムと外部環境の区別それ自体は常に「盲点(blindheit)」となる。厳密に言えば、ある区別を導入することで観察を実践しているシステムの盲点となるのは、常にその区別の<差異の統一>である。
勘の良い読者なら、強化学習、半教師あり学習、半教師あり強化学習が「観察するシステム」であるということに疑念を抱くであろう。その直観は正しい。何故なら強化学習は、我々設計者が観察した時点で、「観察されるシステム」となるためだ。強化学習、半教師あり学習、半教師あり強化学習は、あくまでも設計者が設計するからこそ成り立つ。この意味で強化学習は、全く以って他律的な「観察されるシステム」である。
しかしシステム理論が記述しているのは、あくまでもこれらのシステムそれ自体が、<自己自身は「観察するシステム」である>と認識することが可能であるという点である。これらのシステムは、<自己言及的なシステムとしての自己自身>に関する「自己記述(Selbstbeschreibung)」を可能にしているのである。
より重要な直観的洞察となるのは、この「観察するシステム」に対する「自己論理的(autologisch)」な推論であろう。それはつまり、我々設計者自身もまた「観察するシステム」であるという可能性に対する類推である。設計者もまた、「観察するシステム」として、システムと外部環境の区別を導入することで作動するシステムである。設計者は、自己言及と外部言及の区別を自己言及的に導入する。設計者は、自らが設計したモデルやアルゴリズムに対して、外部言及を展開する。だがそうした外部言及もまた、外部に言及している自己への言及となる。設計者の観察は、こうした区別の導入によって成り立っている。だとすれば、設計者自身の観察にも、強化学習、半教師あり学習、半教師あり強化学習と同じように、「盲点」が不可避的に伴っていることになる。つまり、区別の<差異の統一>という盲点である。
この自己言及的なシステムに関する自己論理的な推論は、次のように言い換えることができる。強化学習、半教師あり学習、半教師あり強化学習は、その設計者の自己言及によって構成されている。もしも設計者によって設計されたアルゴリズムが「観察されるシステム」であるとするなら、そうしたアルゴリズムの観察に伴う「盲点」は、設計者自身にとっての「盲点」に照応する。何故なら、その観察の前提となる区別の導入は、設計者自身によって導入されているシステムと外部環境の区別を前提としているためである。
問題解決策:ファーストオーダーの観察とセカンドオーダーの観察の区別
転移学習のパラドックスは、二つに区別できる。一つは、観測クラスと未観測クラスの区別やソースドメインとターゲットドメインの区別に伴う<差異の統一>というパラドックスである。もう一つは、<概念漂流の概念漂流>という自己言及のパラドックスである。これらのパラドックスを脱パラドックス化する上で有用となるのは、観測クラスと関連付いたソースドメインに対する<教師あり学習>と未観測クラスと関連付いたターゲットドメインに対する<教師なし学習>とを両立する半教師あり学習の形式である。
半教師あり学習は、一方では<教師あり学習>によって、情報を積極的に間引く。だが他方で半教師あり学習は、自己符号化器の再構成誤差最小化に基づく<教師なし学習>によって、情報を保持すると共に、別のあり方でもあり得る可能性の探索を可能にし続けている。<観測クラスの内部に「再導入」された未観測クラス>や<ソースドメインの内部に「再導入」されたターゲットドメイン>というパラドックスは、<教師あり学習>の内部に<教師なし学習>を「再導入」している半教師あり学習の構造によって脱パラドックス化される。そして<概念漂流の概念漂流>という自己言及のパラドックスは、<教師あり学習>の機能的等価物であると同時に<教師なし学習>の機能的等価物でもあるという半教師あり学習の自己区別によって脱パラドックス化される。
注意しなければならないのは、この脱パラドックス化は、問題を再設定しているに過ぎないということである。問題を再設定することが、問題解決策として機能しているのである。したがって、転移学習のパラドックスそれ自体は消滅する訳ではない。パラドックスは、原理的に解決不可能であるからこそ、現実的には無害化するしかないのである。例えば観測クラスと未観測クラスの区別は、<観測クラスの内部に「再導入」された未観測クラス>というパラドックスを派生させる。確かに半教師あり学習は、このパラドックスを無害化できている。しかしながら、観測クラスと未観測クラスの区別に伴うパラドックスは、別のあり方でもあり得る。つまり、<観測クラスの内部に「再導入」された未観測クラス>というパラドックスを抽出することが可能ならば、逆に<未観測クラスの内部に「再導入」された観測クラス>というパラドックスを抽出することも可能になる。この場合、観察者は、対象を観察しているように視えて、実際には観察できていないということになる。
半教師あり学習による脱パラドックス化を記述してきた上記の文脈を振り返れば、<観測クラスの内部に「再導入」された未観測クラス>と<未観測クラスの内部に「再導入」された観測クラス>の区別を暗に導入していたことがわかる。上記の観察では、<未観測クラスの内部に「再導入」された観測クラス>は無視する一方で、<観測クラスの内部に「再導入」された未観測クラス>には注意を払っていたのである。脱パラドックス化の形式としての半教師あり学習を記述するだけでは、<未観測クラスの内部に「再導入」された観測クラス>というパラドックスを展開したことにはならない。
<未観測クラスの内部に「再導入」された観測クラス>というパラドックスが言い表しているのは、あらゆる観察に伴う「盲点(Blindheit)」の問題である。社会システム理論的に言えば、このパラドックスを脱パラドックス化するには、「ファーストオーダーの観察(Beobachtung erster Ordnung)」と「セカンドオーダーの観察(Beobachtung zweiter Ordnung)」の区別を導入しなければならない。この区別が指し示す差異は、丁度<観察>と<観察の観察>の差異に対応している。ファーストオーダーの観察者は、マークされていない領域に区別を導入する。そうして導入された区別は、<マークされている領域>と<マークされていない領域>の差異を構成すると共に、<観察者自身>と<観察対象>の差異を構成する。一方、これに対してセカンドオーダーの観察者は、ファーストオーダーの観察を観察していく。それはファーストオーダーの観察とそれ以外の全てを区別するということだ。セカンドオーダーの観察者は、ファーストオーダーの観察者の観察のみを観点として絞り込むことで、ファーストオーダーの観察者による影響に敏感に反応すると共に、それ以外の対象との無関連性を高める。
注意しなければならないのは、セカンドオーダーの観察者は「メタ」の観察者ではないということだ。セカンドオーダーの観察者もまた別のセカンドオーダーの観察者に観察され得る。また、観察者自身の観察に対する自己観察もまたセカンドオーダーの観察となる。この意味で言えば、セカンドオーダーの観察も、ファーストオーダーの観察であることに変わりは無い。だがセカンドオーダーの観察者は、ファーストオーダーの観察者の限界を認識することができる。ファーストオーダーの観察者は、<マークされていない領域>から<マークされている領域>を区別することで、<マークされている領域>を認識するだろう。この場合、<マークされている領域>が観察者の観点となる。一方、<マークされていない領域>は、観察者の「盲点(Blindheit)」となる。ファーストオーダーの観察者にとって、盲点を発見し尽くすことはできない。盲点を発見するには、別の区別を導入する必要がある。だが別の区別を導入した時点で、別の盲点を派生させてしまう。
盲点という概念を厳密に記述するなら、ファーストオーダーの観察者は、視えないということが視えていないということが視えない。セカンドオーダーの観察者は、これを視ることができる。セカンドオーダーの観察者は、ファーストオーダーの観察者が導入している区別が何なのかを知ることができる。逆にファーストオーダーの観察者には、自己自身が導入している区別の全てを知り尽くすことができない。ファーストオーダーの観察者が自己自身の導入している区別を明示的に指し示すことができるのは、その観察者が事前にセカンドオーダーの自己観察を実践していた証拠であると共に、自らの導入した区別に派生して伴う盲点を可能な限り暴露され易くしようとする姿勢の表れでもある。そうした姿勢は、自らの区別をセカンドオーダーの観察者たちに転移させることで、そのパラドックスを学習して貰うようなものである。
盲点という概念は、パラドックスを脱パラドックス化しようとするセカンドオーダーの観察者たちによって、極めて巧く活用される。セカンドオーダーの観察者は、パラドックスを「展開(Entfaltung; developing)」することで無害化する。こう述べた場合の「展開」とは、パラドックスの肯定的あるいは否定的な循環性を中断させることで、最終的には説明し得ないある種の不当なやり方で解釈(interpretiert; interpreted)されるということだ。こうした脱パラドックス化の過程は、根底にあるシステムの機能と問題の「不可視性(Invisibilisierung; invisiblity)」を要求する。そうしたシステムの作動とその過程が潜在的である場合にのみ、原理的にパラドックス化し得るシステムの機能が可能になるのである。
これを前提とすれば、転移学習のパラドックスを脱パラドックス化し得るのは、半教師あり学習形式をはじめとするアルゴリズムの設計が、ソフトウェアのアーキテクチャ設計に合流した場合である。とりわけオブジェクト指向分析やオブジェクト指向設計を援用するアーキテクチャ中心設計は、システムの流動的な諸要素の<隠蔽>によって成立する。機能的で、ブラックボックス化されたアーキテクチャのユーザーインターフェイスの表層を戯れる「エンドユーザー」たちにとって、転移学習に潜むパラドックスは何の問題にもならない。順調に機能し、利用可能ならば、それで良いのである。ここにおいて、<研究のための研究>に明け暮れるリサーチャーやデータサイエンスしかわからないデータサイエンティストたちは、自らの存在意義が皆無であるということを痛感せざるを得ないであろう。研究と開発の両立こそが、転移学習の機能を可能にするためである。
参考文献
- Aljalbout, E., Golkov, V., Siddiqui, Y., Strobel, M., & Cremers, D. (2018). Clustering with deep learning: Taxonomy and new methods. arXiv preprint arXiv:1801.07648.
- C. H. Lampert, H. Nickisch, and S. Harmeling. Attributebased classification for zero-shot visual object categorization. IEEE Transactions on PAMI, 36(3):453–465, 2014.
- Finn, C., Yu, T., Fu, J., Abbeel, P., & Levine, S. (2016). Generalizing skills with semi-supervised reinforcement learning. arXiv preprint arXiv:1612.00429.
- Ghifary, M., Kleijn, W. B., Zhang, M., Balduzzi, D., & Li, W. (2016, October). Deep reconstruction-classification networks for unsupervised domain adaptation. In European Conference on Computer Vision (pp. 597-613). Springer, Cham.
- Glorot, X., Bordes, A., & Bengio, Y. (2011). Domain adaptation for large-scale sentiment classification: A deep learning approach. In Proceedings of the 28th international conference on machine learning (ICML-11) (pp. 513-520).
- Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep learning (adaptive computation and machine learning series). Adaptive Computation and Machine Learning series, 800.
- Guo, X., Gao, L., Liu, X., & Yin, J. (2017, June). Improved deep embedded clustering with local structure preservation. In IJCAI (pp. 1753-1759).
- Huang, P., Huang, Y., Wang, W., & Wang, L. (2014, August). Deep embedding network for clustering. In 2014 22nd International Conference on Pattern Recognition (pp. 1532-1537). IEEE.
- Kodirov, E., Xiang, T., & Gong, S. (2017). Semantic autoencoder for zero-shot learning. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 3174-3183).
- Ren, Y., Hu, K., Dai, X., Pan, L., Hoi, S. C., & Xu, Z. (2019). Semi-supervised deep embedded clustering. Neurocomputing, 325, 121-130.
- Srivastava, N., & Salakhutdinov, R. R. (2012). Multimodal learning with deep boltzmann machines. In Advances in neural information processing systems (pp. 2222-2230).
- Tsymbal, A. (2004). The problem of concept drift: definitions and related work. Computer Science Department, Trinity College Dublin, 106(2), 58.
- Xie, J., Girshick, R., & Farhadi, A. (2016, June). Unsupervised deep embedding for clustering analysis. In International conference on machine learning (pp. 478-487).
- Wagstaff, K., Cardie, C., Rogers, S., & Schrödl, S. (2001, June). Constrained k-means clustering with background knowledge. In Icml (Vol. 1, pp. 577-584).