研究開発の社会構造と「深層学習」の意味論、自己言及的なコミュニケーションとしての「プロジェクトマネジメント」 | Accel Brain

研究開発の社会構造と「深層学習」の意味論、自己言及的なコミュニケーションとしての「プロジェクトマネジメント」

Accel Brain; Console×

問題設定:深層学習の研究開発における「意思決定」は如何にして可能になるのか

深層学習のソフトウェア開発は、既存のアルゴリズムとその動作原理を理解するだけでは成立しない。深層学習のソフトウェア開発を担うアーキテクトデータサイエンティストは、自身の開発プロジェクトの問題設定に応じて、問題解決策として機能し得るアルゴリズム選択する方法を知る必要がある。機能的に等価問題解決策は複数あり得る。故にその複数のアルゴリズム比較観点も設定しなければならない。比較観点となるのは、アルゴリズムの精度や速度である。

アーキテクトデータサイエンティストに求められるのは、自身の開発プロジェクトの問題設定に応じた問題解決だけではない。所与の問題設定のみならず、問題を再設定することもまた不可欠となる。何故なら、開発プロジェクトによって規定されるソフトウェア要求の多くは、深層学習問題設定とは直結していないためである。ソフトウェア要求を方向付ける多くのステークホルダたちは、深層学習理論を知らない。理想と現状の乖離を埋めようとする経営者たちの発言は、確かに最適化の問題として設定できる。しかしそれは、直ちにニューラルネットワーク最適化問題に直結する訳ではない。そうした経営者たちの発言は、「学習(learning)」という概念を含意していないためである。

機械学習では通常、学習は間接的に実行される。何故なら大抵の場合、学習主題となる能指標Pは、テスト集合においては定義され難い質を持つためである。言い換えれば機械学習では、別のPに関わるコスト関数J(θ)を設計することで、このコストの最小化が目指される。それにより、Pの改善という問題が、J(θ)の最小化問題として再設定されるのである。つまり、一般的な最適化問題は初めからコスト関数J(θ)の最小化それ自体を主題として設定している。これに対して、ニューラルネットワーク最適化問題は、あくまでも「問題再設定」として、コスト関数J(θ)の最小化問題が導入される。

ニューラルネットワーク最適化問題とその問題解決策としての学習アルゴリズムは、しかし様々な派生問題を生み出す。ニューラルネットワーク最適化問題は、一般的に誤差最小化問題として再記述される。学習の本来の目的は、学習時に観測した訓練データに対してではなく、学習時に観測しなかった「未知のデータ」に対して正確な推論や推定を実行できるようになることである。ここで、訓練データと「未知のデータ」は、同一の母集団、同様の確率分布からサンプリングされると想定される。いわゆる「汎化能」はこのために要求される。論理学的に言えば、汎化とは、訓練データ観測することによって、その上位概念となる母集団の概念を獲得することなのである。

機械学習の主導的な参照問題の一つは、訓練データだけではなく、新しい観測データ点の入力に対しても能を発揮するアルゴリズムの設計が如何にして可能になるのかである。機械学習の多くのアルゴリズムは、訓練誤差が増加する可能性を代償として、テスト誤差が減少することを目指して設計される。こうした方法は、一般的に「正則化(Regularization)」と呼ばれている。

正則化は、モデルアルゴリズムの設計者が試みる「投資」に他ならない。と言うのも正則化とは、訓練誤差の増加というリスクを受容することによって、テスト誤差の減少というリターンを得る試みであるためだ。この意味正則化は、コモディティ化している機械学習ライブラリのエンドユーザーとは無縁の設計である。それはブラックボックスの内部で実行されている無理解で無視しても無害なコンポーネントなのではない。正則化とは、リスクある不確実な状況下の設計者が「期待」や「効用」や「投資対効果」などのような指標との兼ね合いから下す「意思決定」以外の何物でもない。

正則化が「意思決定」である理由は、設計者が「正則化を実行するか否か」の選択に迫られるためだけではない。正則化方法もまた多岐に渡るためでもある。設計者に求められるのは、自らのアルゴリズムモデル理論背景データ特徴工学によって、最適な、あるいは満足し得る正則化方法選択することである。

多くの場合、ニューラルネットワーク最適化問題正則化問題に対する機能的に等価問題解決策は複数存在する。探索しても機能的等価物が一つも見当たらない場合は、設計者自身の情報調査能力や知識不足を疑った方が良いであろう。しかしこの類の「人材的な」諸問題は、大抵の場合、深層学習の開発に固有の問題ではない。何故なら、深層学習以外の開発においても、機能的に等価問題解決策比較する方法が必要になる場合は、往々にしてあり得るためである。

設計者は、探索して発見した複数の機能的等価物比較することで、幾つかの問題解決策選択しなければならない。これらが「投資」の問題であるのだから、その比較観点には「コスト(cost)」が含まれる。意思決定者としての設計者は、文字通りコストパフォーマンスの高い問題解決策選択しなければならない。尤も、そうした意思決定過程それ自体にも「コスト」が生じる。つまり、設計者自身の「人件費」という名の「コスト」である。個々の問題解決策は、検証することに時間を要する処理となる。したがって、盲目的な虱潰しは通用しない。例えば機械学習ライブラリのメソッドをただ呼び出すことで、その結果に一喜一憂するだけのエンジニアでは、全く通用しない。

しかしより重要なのは、個々の問題解決策が関わる諸概念の意味論が、社会構造との関連から記述されているということである。深層学習を生み出す研究開発は、社会におけるコミュニケーションである。社会が無ければ、深層学習についてのコミュニケーションもあり得ない。言い換えれば、深層学習についてのコミュニケーション意味論は、社会構造によって方向付けられているのである。それ故、深層学習意味論を的確に理解するには、理論方法だけではなく、その社会背景を理解しなければならない。したがって以下では、深層学習に関する既知の理論方法を、研究開発というコミュニケーション社会機能との関連から再記述していく。

問題解決策:性能指標の決定

深層学習の研究開発では、比較的初期の段階で、誤差コストに関する能指標を決定しておかなければならない。何故なら、その後の研究開発の意思決定過程が、そうした能指標に依存して方向付けられていくためである。

機械学習モデル能を評価するには、その精度を定量化しなければならない。分類や予測の精度は、その分析結果に対して「真偽」の区別を導入することで、一見容易に判断できるように思える。「真の結果」が出れば精度は高く、「偽の結果」が出れば精度は低いという訳だ。この時、「精度」という概念は分類器や予測モデルが「真の結果」を指し示す割合を意味する。

$$精度 = \frac{真の結果を出力した回数}{出力回数の総和}$$

いわゆる「誤差率(error rate)」は、1からこの精度の値を減算することで得られると考えられる。

$$誤差率 = 1 – \frac{真の結果を出力した回数}{出力回数の総和} =\frac{偽の結果を出力した回数}{出力回数の総和}$$

「精度」と「誤差率」の比較は単純明快なモデル能を表すために、様々な現場で流用されている。しかし、真偽の区別を導入した場合の盲点となるのは、この区別が指し示す対象の範囲だ。一口に「真の結果」と述べても、その「真」が分類器やモデルの全般的な「真」なのか、あるいはある一定の結果だけについての「真」なのかがわからない。分類器にせよモデルにせよ、凡そアルゴリズムデータに依存しながら作動する。そしてその作動の実態は目指すべき出力値にも左右される。「真」という概念だけでは、別のあり方でもあり得るデータや目指すべき出力値にどの程度汎用的に耐久し得るのかが不透明に終わる。このことは、「真」のみならず「偽」についても言えるだろう。こうした真と偽の区別を適切に導入するには、科学・学問の問題領域を構造化している機械学習ニューラルネットワーク最適化問題理論方法に準拠しなければならない。

形式としての混同行列

科学・学問の機能的問題領域では、分類器やモデルの評価に関する方法形式化されている。多くの場合、精度の評価には「混同行列(confusion matrix)」が利用される。混同行列は、実際のクラスを列に、分類器やモデルが予測したクラスを行に表した行列を意味する。n個のクラスを含む分類問題に対しては、n×nの混同行列が割り当てられる。混同行列の「混同」とは、あるクラスの列に誤って分類された別のクラスがどの程度の行数分混同して割り当てられているのかを言い表している。この行列を参照すれば、分類器やモデルの「偽の結果」をそれ自体分類することが可能になる。

2 × 2の混合行列で表現可能な2クラスの分類問題を設定する。2クラスをそれぞれpositiveとnegativeと置く。この時、予測されたクラスと実際上のクラスに差異が生じるはずなので、混同行列は次のようになる。

positive(予測) negative(予測)
positive(実際) 真陽(true positive) 偽陽(false positive)
negative(実際) 真陰(true negative) 偽陰(false negative)

この行列の突き合わせにより、予測されたクラスと実際のクラスとの組み合わせの数は2 × 2となる。場合によっては列と行が逆になる場合もあるが、それは書き手に依る。

この時、positiveと予測して実際にもpositiveである場合を「真陽(true positive; TP)」、positiveと予測して実際にはnegativeである場合を「真陰(true negative; TN)」、negativeと予測して実際にもnegativeである場合を「偽陽(false positive; FP)」、そしてnegativeと予測して実際にはnegativeである場合を「偽陰(false negative; FN)」と呼ぶ。

TP、TN、FP、FNから、モデル能を割合で計算することが可能になる。例えば真陽率と陰陽率は、それぞれ次のように算出できる。

$$真陽性率 = \frac{TP}{TP + FN}$$

$$陰陽性率 = \frac{FN}{TP + FN}$$

これらはそれぞれ正しい結果を出力した割合と誤った結果を出力した割合を意味する。

ここでいう真陽率は、テキストマイニングや自然言語処理文脈で言及される「再現率(recall)」と等価となる。一方、同様に自然言語処理などで言及される「適合率(precision)」は、$$\frac{TP}{TP + FP}$$で計算される。この指標は陽予測の精度を意味している。

再現率と適合率が高ければ高いほどそのモデル能は高いと考えられている。だがこれらの分母にあるFNとFPの関係からもわかるように、両者はトレードオフの関係にある。そこで、双方を共に追求する際の指標として、両者の調和平均を意味するF値(F-measure)が参照されることもある。

$$F値 = 2 × \frac{適合率×再現率}{適合率+再現率}$$

問題解決策:研究開発の社会構造と性能指標の意味論

能指標を決定した後は、どの程度の能を期待するのかについても、決定しておく必要がある。それは多くの場合、ソフトウェア要求を達成するために必要となる能である。しかし、大多数の応用のユースケースでは、誤差をゼロにすることは不可能である。訓練データ無限に得られる訳ではない。仮に真の確率分布を再構成することが可能であるとしても、期待される最小誤差はベイズ誤差として規定される。入力される特徴量は、出力の変数に関する完全な情報を有していない。そして深層学習の多くのコンポーネントは、確率論的に動作する。これらは全て、ニューラルネットワーク最適化問題における制約条件である。一方、正則化による「投資」が不確実性を招いた結果として、誤差が増大している場合もある。

訓練データの量は、様々な要因によって制約を受ける。アドテクノロジーやソーシャルネットワークサービスのログが訓練データとなる場合には、エンドユーザーの行動によって、次々と訓練データは増えていくであろう。だが一方で、例えば分類問題や自然言語処理に取り組む場合には、ラベル付きサンプルやアノテーションを用意するために、多くの人的コストを投入しなければならなくなる。医療機能的問題領域では特に、侵襲的な医療検査によって初めてデータが得られる場合には、人的苦痛も伴わせるであろう。

妥当能水準についての意思決定は、組織コミュニケーションによって実践される。科学・学問の機能的問題領域では、大学や研究機関や学会などのような組織システムコミュニケーションが、こうした意思決定過程を形式化している。その際参照されるのは、過去に公表されたベンチマークの結果である。こうしたベンチマークが、比較観点となる。能水準の意思決定過程では、過去に達成された能から達成可能能水準が推定される。

一方、研究開発は必ずしも科学・学問の機能的問題領域のみで完結する訳ではない。深層学習のアプリケーションに取り組むIT企業は<研究のための研究>を繰り返すだけの組織システムではなく、経済機能的問題領域で営利を追求する組織システムでもある。社会システム理論的に言えば、科学・学問の機能的問題領域で問われるのは、何が真で、何が偽なのかである。この真と偽を区別するために、科学・学問という社会システムは様々な理論方法のようなプログラムによって構造化される。

社会システム理論的に言えば、科学・学問という社会システムは、真偽の区別によって二値コード化されている。真と偽の区別によって駆動されているコミュニケーションは、全て科学・学問の問題設定に準拠したコミュニケーションとして機能する。しかしこれに対して、経済機能的問題領域で支配的なのは、支払いと非支払い二値コード所有と非所有二値コードである。貨幣支払いを介したコミュニケーションは、全て経済問題設定に準拠したコミュニケーションとして機能する経済的なコミュニケーションは科学・学問的なコミュニケーション構造的に結合しているものの、しかしその結合は疎結合に留まる。科学・学問の理論方法は、確かに経済的なコミュニケーションによって参照される場合がある。だがこれらのプログラムは、決して経済という社会システム構造化してはいない。経済という社会システム構造化しているのは、投資や消費のように、様々な市場における貨幣支払いを介したプログラムなのである。

このような科学・学問と経済機能的差異を前提とするなら、「深層学習能指標」という概念は多文脈的となる。深層学習能水準は、科学・学問の社会構造を前提とした場合と経済社会構造を前提とした場合とでは、区別されるということである。言い換えれば、その背景にある社会構造観察しなければ、改善すべき能についての意味論は得られない。確かに科学・学問の機能的問題領域を前提とすれば、誤差の最小化や精度の最大化のような最適化された結果は、真なるものとして優遇される。だがそれが経済コミュニケーション包摂されるとは限らない。経済的なコミュニケーションでは、真と偽の区別棄却される。代わりに導入されるのは、支払いか非支払いかの区別所有と非所有区別である。如何に高精度な深層学習がIT企業に導入されても、そのアプリケーションのマネタイズに失敗してしまえば、それは何の役にも立たない技術的負債として観察される可能性もあり得る。

一般に研究開発は、こうした社会システム複合性を反映させることで、その難易度を高める。関連してくる社会システムは、科学・学問と経済に限られる訳ではない。例えば知的財産権制度との関連で言えば、が無関係であり続けることはあり得ない。上述したように、データ質によっては、医療機能的問題領域も関与してくる。しかしながら重要なのは、こうした複数の機能的分化している様々な問題領域の「中道」や「ブリッジ」に取り組むことではない。と言うのも、そうした中途半端な振る舞いは、真と偽の二値コード支払いと非支払い二値コードなどのような区別の導入と競合するためである。誤差の最小化や精度の最大化に取り組むためには、科学・学問の機能的問題領域に準拠した上で、理論方法プログラムによって構造化された手続きを踏むことにより、真と偽の区別を導入しなければならない。もしIT企業意思決定者たちがこうした科学・学問的なコミュニケーションを無視すれば、それは大方、経済コミュニケーションに過ぎなくなる。つまり「研究」無き研究開発となってしまう。

確かに科学・学問的な手続きを踏めば、必ずしも研究開発が成功する訳ではない。とはいえ、こうした手続きを怠れば、研究開発それ自体が成立しなくなる。それ故、研究開発における「研究」の側を担う場合に重要となるのは、それ自体が棄却される可能性を弁えた上で、尚も科学・学問的なコミュニケーションに徹するということである。

研究開発を組織化するIT企業に求められるのは、科学・学問的な真を探究するコミュニケーション経済的な支払い活性化させるコミュニケーションとの間に、接点を構成しておくことである。つまり、真ならば支払い活性化させ、偽ならば非支払い活性化させるような工夫である。実際、精度が高ければ高いほどその深層学習のアプリケーションを利用する経済的なインセンティブが増加するような仕組みが設計されていれば、それは一つの理想的な状態かもしれない。例えば金融市場に導入されているロボアドバイザーによるポートフォリオ最適化ツールやアドテクノロジーの領域で導入されている広告配信最適化ツールは、精度が高ければ高いほど、直接的な利益を生み出す。こうした分野に限ってれば、余程その開発プロジェクトのマネージャーに難が無い限りは、深層学習の研究開発は理想的な状態で設計し易いはずではある。

より現実的な視点から言えば、逆に精度が想定よりも低い場合に経済的な罰則を与えることの方が重要と言える。例えば、電子メールのスパム検出器のような二値分類器には、二つの偽をもたらす場合がある。一つは、スパムではない正当なメッセージをスパムとして分類してしまうことである。もう一つは、逆にスパムメールを通常の受信箱に配置してしまう場合だ。正当なメッセージをブロックしてしまうのは、疑わしいメッセージを受容してしまうよりも、深刻な問題となる。この場合、単に分類誤差を計測するよりも、正当なメッセージをブロックしてしまうコストがスパムを受容してしまうコストよりも高くなるようなコスト指標を設計するのが望ましい選択となる。実運用後、もしそのアプリケーションがエンドユーザー宛ての正当なメッセージをブロックすることで経済的な罰則を与えられるというリスクがあるなら、そのリスクテイクから逆算することで、真偽を区別することで最適化に徹するという科学・学問的なコミュニケーション機能が有意味となる。

問題解決策:ベースラインモデルの設計

能指標の妥当な水準を決定した後は、どのようなソフトウェア要求を達成する場合であれ、機能要求全般を一通り満たす妥当システム可能な限り早期に完成させることが求められる。問題設定によっては、深層学習の技術を利用せずに開発を進めることもできる。例えば線形の重みを正しく選択することで解決可能な問題であるなら、ロジスティック回帰モデルのような単純な確率モデルから始めても良い。一方、物体認識や音声認識、統計的機械翻訳のような「AI完全(AI-complete)」な問題ならば、初めから深層学習モデルを採用していくことが望ましい。

通常のソフトウェア開発では、アルゴリズムデータ構造と関連している。深層学習の開発においても、データ構造アルゴリズム選択を方向付けることがある。例えば、固定長のベクトルを入力とする教師あり学習を実行したい場合は、全結合層を有した深層ニューラルネットワークを用いることが基本的な選択となる。画像のように、入力データが既知の構造をトポロジーとして有している場合には、深層畳み込みニューラルネットワークが有用となる。入力や出力が系列データとなる場合には、再帰的ニューラルネットワークを用いることになる。

最適化アルゴリズムは、大抵の場合、確率的勾配降下法が採用される。しかし学習率をエポック数に応じて減衰させることが効果的な探索を成し得ることが経験的に認識されているために、例えば100エポックごとに学習率に0.1を掛けるようなアルゴリズムが用いられる場合もあれば、より適応的に学習率を減衰させていくAdamのようなアルゴリズムが好んで利用される。バッチ正規化は、深層畳み込みニューラルネットワークなどのようなモデルにおいて、最適化能に劇的な効果をもたらす。最初のベースラインモデルにバッチ正規化を導入する理由は何も無い。だが最適化能に問題が見受けられるならば、直ぐに導入するべきでもある。

データセットとして数千件以上のサンプルが得られない限りは、初めから早期終了やドロップアウトのような何らかの正則化を導入しておくことが有用となる。一方、教師なし学習に基づいた正則化の有用は、問題設定の領域に依存する。例えば自然言語処理のような分野では、one-hotベクトルのような豊富な情報が含まれていない入力データが大多数になる以上、単語や文の埋め込みを可能にする教師なし学習から大きな効果が得られることが期待されている。一方、画像のようなトポロジーで構造化されているデータセットが得られる場合には、必ずしも教師なし学習が必要となるとは限らない。自然言語処理以外の分野では、ラベル付きサンプルが極端に少ない状況で半教師あり学習を設計する場合ならともかく、教師なし学習による効果は期待されていない。したがって、自然言語処理半教師あり学習に取り組む場合以外は、わざわざベースラインモデル教師なし学習を採用する必要は無いと考えられる。

派生問題:性能改善は如何にして可能になるのか

能指標とベースラインモデルを設定した後は、その能水準を満たすための試行錯誤が続く。この試行錯誤の段階でも、幾つかの「意思決定」が必要になる。

初期に実装したモデルの精度や速度能水準を満たさない場合、代替的な問題解決策を模索しなければならない。多くの改善の場面で、最適化アルゴリズムや正則項の選択を見直すことが求められる。しかし一方で、精度が向上しない理由がデータの不足にある場合もあり得なくはない。

一方、深層学習は多くのハイパーパラメタで制御される。そのハイパーパラメタの中には、実行処理時間やメモリ負荷に関わるパラメタもある。多くのハイパーパラメタは最適化正則化に関与するために、一つのハイパーパラメタを変えただけでも、能に大きな影響を与える場合がある。

大量のデータと多くのハイパーパラメタによって駆動される深層学習システムは、多くの副作用を伴わせている。言い換えれば、深層学習システムは参照透過ではない。したがって、単に能がいという結果観測したとしても、その原因アルゴリズム自体にあるのか、それともアルゴリズムの実装にバグが生じているためなのかを判断するのは比較的困難である。

問題解決策:データセットの追加

新たにデータ蒐集すべきか否かの決定を方向付けるのは、訓練データを用いた場合の能とテストデータを用いた場合の能の区別である。例えば訓練誤差が許容範囲を超える場合、学習アルゴリズムは既に利用可能な既存のデータ活用できていないことになる。この場合、更にデータを増やしたところで、学習アルゴリズム改善しない限りは、訓練誤差の向上には至らない。

モデル能を落とす要因となるのは、データの量的な不足だけではない。データの品質もまた重要である。もし学習アルゴリズム改善しても能が向上しない場合には、問題はデータの品質にあると推測できる。例えばデータに含まれるノイズが大き過ぎる場合や、望ましい出力を予測するために必要な正しい入力がデータに含まれていない場合も想定できる。その場合は、よりクリーンなデータを集めるか、より情報が豊富に含まれているデータを集め直す必要がある。

訓練データを用いた場合の能が期待された水準を満たす場合、次に観察するべきなのはテストデータを用いた場合の能である。もしテスト誤差をはじめとした能も期待通りなら、もはややるべきことは何も残っていない。一方、テストデータを用いた場合の能が訓練データを用いた場合の能よりも著しく劣る場合、新たにデータを用意することは有用な改善策となる。しかし、データを追加することにもコストが発生する。正則化を徹底すれば、テストデータを用いた場合の能は訓練データを用いた場合の能により近付く可能性もある。故に、データを追加する場合のコストパフォーマンスと、アルゴリズム改善することで正則化を徹底した場合のコストパフォーマンス比較観点から、データを追加するか否かの意思決定を敢行しなければならない。

データを追加するか否かの意思決定は、専ら人的コストとの関連から実施される傾向にある。例えばWebクローラ人工知能のように、Web上のデータ蒐集の対象とする場合、データの追加は事実上自動化可能である。少なからず人的なコストは最小化できる。それ故、こうした分野では、データを追加するという選択肢が選択される可能性は高い。一方、分類問題や自然言語処理のように、ラベル付きサンプルの配備やアノテーションが要求される場合には、データを追加するコストが嵩張ることとなる。データを追加するという解決策を採用する場合、最大のボトルネックとなるのは人間である。

いざデータを追加するという意思決定を下すにしても、具体的にどの程度のデータを追加するべきなのかを予め決定しておかなければならない。その背後に人的なコストパフォーマンスがある以上、闇雲にデータを追加すれば良いという話には断じてなり得ない。一般的に更なるデータ追加を実施する場合、その必要量の見積もりには、既に入手できているデータで実施される。僅かな数のサンプルを追加したところで、汎化誤差が劇的に向上することは無い。そのため、例えば連続した実験で、データ数を倍にしていくなど、訓練データのサイズを対数スケールで変化させて実験することによって、必要なデータ量が見積もられる。

問題解決策:ハイパーパラメタの調節

一般的にハイパーパラメタは手動で設定される。その多くは、例えば初期化メソッドやコンストラクタへの引数として入力される。手動によるハイパーパラメタの調節では、実行時間と利用可能なメモリの制約の範囲で最小の汎化誤差を求めることが目指される。ハイパーパラメタの調節は、モデル表現能力、最適化能力、そして正則化による汎化能力をタスクの複合性に適合するように実施される。モデルの層が多いほど、あるいは層ごとのユニット数が多いほど、モデル表現能力は向上する。しかし、学習アルゴリズム誤差を最小化する関数発見できなかった場合や正則化によって最適化が妨げられている場合、モデルは必ずしもそうした関数学習できるとは限らない。

ハイパーパラメタの調節もまた、正則化同様、コストパフォーマンス観点から選択される「投資」的な取り組みとなる。隠れ層のユニット数を増やせば、確かにモデル表現能力は向上する。しかし、ユニット数が増えれば重み行列のサイズが増えることになるため、メモリ負荷が過大となる。層数を増やした場合も同様だ。この場合は重み行列そのものの個数が増えることがボトルネックとなる。畳み込みニューラルネットワークにおける畳み込みのカーネル幅は、モデル内のパラメタ数に相関している。それ故カーネル幅を広げれば、それだけモデル表現能力は増す。だがカーネル幅が広いほど、出力の次元が減ることになる。ゼロパディングのような方法によってこの影響を減らさない限り、モデルは劣化することになる。だがこのゼロパディングも増価させれば、メモリ負荷が高まる。

したがって、ハイパーパラメタの調節は、それ自体が一種の最適化問題である。つまり調節者は、ハイパーパラメタの組み合わせ最適化問題を解こうとしているのである。この場合、ハイパーパラメタが決定変数となる。最適化すべきコストは、そのハイパーパラメタを利用した訓練結果から得られる検証集合誤差である。機械学習ライブラリを「暗がりに鬼を繋ぐが如く」利用するエンジニアたちが闇雲にハイパーパラメタを操作しようとした場合の盲点となるのは、制御しているモデル最適化の能力が、当のエンジニア自身が持つ最適化の能力に依存している点である。そうなると、もはやハイパーパラメタの調節者は、もはやモデルの出力値を観測することで一喜一憂している場合ではない。

グリッドサーチ

データの追加処理とは異なり、ハイパーパラメタの調節を自動化することは、どのようなモデルにおいても、原理的に実現可能である。ハイパーパラメタの調節が組み合わせ最適化問題であるのならば、組み合わせ最適化アルゴリズムによって、ハイパーパラメタの調節を自動化することが可能になる。例えば「グリッドサーチ(grid search)」は、主にハイパーパラメタが三つ以下の場合に利用される自動化手である。グリッドサーチを用いる場合、ユーザーは各ハイパーパラメタに関して探索対象となる値の集合選択する。この集合は小さく有限の大きさである。その後、グリッドサーチのアルゴリズムを利用することで、各ハイパーパラメタの値の集合のデカルト積の中で、ハイパーパラメタの値の全ての組み合わせに対してモデル学習する。そして、最良の検証集合誤差を出力する実験結果で設定していたハイパーパラメタの組み合わせを、最適な組み合わせとして選択する。

多くの場合、グリッドサーチのユーザーが最初に指定する探索範囲は、過去の研究事例で指定されていた同ハイパーパラメタの最小値と最大値の範囲として保守的に選択される。一般的にグリッドサーチは、その範囲内の大方対数スケール上の値を取る。とはいえグリッドサーチは、ハイパーパラメタの個数が増大していくにつれて、その計算コストを指数関数的に高めてしまう。

ランダムサーチ

「ランダムサーチ(random search)」はより探索効率を高めたグリッドサーチの代替案として知られている。この探索アルゴリズムではまず、各ハイパーパラメタに対する周辺分布を定義する。例えば二値のハイパーパラメタに対してはベルヌーイを、離散的なハイパーパラメタに対してはマルチヌーイを、正の実数値のハイパーパラメタに対してはその対数スケールの一様分布を、それぞれ定義する。グリッドサーチの場合とは異なり、より大きな値の集合探索しながら計算コストとの増大も回避できるように、ハイパーパラメタの値を離散化するべきではない。

ランサムサーチがグリッドサーチよりも効率良く探索できるのは、グリッドサーチとは異なり、ランダムサーチはあるハイパーパラメタの二つの値で同じ結果が得られる場合には無駄な探索を実行しないためである。グリッドサーチの場合は他のハイパーパラメタがこの2回の探索で同じ値を有している一方で、ランダムサーチの場合は通常異なる値を有している。そのため、こえっら二つの値の間の変化によって検証集合誤差に大きな差異が生じない場合、グリッドサーチでは同じ試行を2回繰り返すことになる一方で、ランダムサーチでは他のハイパーパラメタについて独立した探索を2回実行する。

機能的等価物の探索:ハイパーパラメタの組み合わせ最適化

グリッドサーチやランダムサーチによるハイパーパラメタ・チューニングの自動化は、ハイパーパラメタの組み合わせ最適化問題を解くアルゴリズムである。これらの事例をれば、深層学習のハイパーパラメタは、組み合わせ最適化機能を有した別の機会学習で調節することが原理的に可能であることがわかる。

深層学習は元来特徴抽出の自動化を実現する方法として注目を集めた。しかしこの成功の背景にあるのは、深層アーキテクチャの設計の複合性の増大である。それは、設計者が、活性化関数誤差関数、正則項、最適化のような深層アーキテクチャとハイパーパラメタの組み合わせ最適化を実現しなければならないことを意味する。したがって、「ニューラル・アーキテクチャ探索(neural architecture search: NAS)」のような深層アーキテクチャの設計自動化の方法が次のステップとして注目を集めるのは道理である。

ニューラル・アーキテクチャ探索意味論は、深層アーキテクチャの設計を「探索空間(Search Space)」、「探索戦略(Search Strategy)」、「能推定戦略(Performance Estimation Strategy)」の三つに区別するところから始まる。探索空間とは、原理的に表現可能深層アーキテクチャ意味する。探索空間は、タスクにより良く適合する深層アーキテクチャの典型的な質についての事前知識を組み込むことで、予めその範囲を限定することができる。これにより探索が単純化される。しかしながら、事前知識を導入するということは、人間の設計者のバイアスを導入するということでもある。それは、現在人間の設計者が認知している深層アーキテクチャを超える新しいアーキテクチャ発見を阻害するかもしれない。

探索戦略は、探索空間を如何に探索していくのかの詳細となる。ここで関わってくるのは、確率バンディット問題のように、「探索(exploration)」と「利用(exploitation)」のトレードオフである。探索を優先すれば、より良いアーキテクチャを早期に発見できるかもしれない。一方、最適ではない深層アーキテクチャの領域への早期の収束は回避しなければならない。

能推定戦略は、とりわけ未観測データに対する汎化予測精度をはじめとした指標に関する推定過程の戦略である。だが全ての推定能を網羅しようとすれば、計算コストが増大する。それ故この戦略の鍵となるのは、推定の計算コスト削減である。

ハイパーパラメタ最適化についてのハイパーパラメタ最適化

ニューラル・アーキテクチャ探索意味論は、深層アーキテクチャとハイパーパラメタの組み合わせ最適化問題を解くための意味処理規則となっている。その意味論確率バンディット問題とも関連していることからもわかるように、ニューラル・アーキテクチャ探索の具体例としては、強化学習による拡張が著名である。

しかし、こうしたハイパーパラメタの最適化アルゴリズムを実装できたとしても、この最適化アルゴリズムそれ自体もまた、別様のハイパーパラメタの調節を必要としている。したがってニューラル・アーキテクチャ探索意味論は、ハイパーパラメタの最適化アルゴリズムのハイパーパラメタの最適化アルゴリズムの…という、無限後退パラドックスを招いている。このパラドックス脱パラドックス化し得るのは、探索コストの相対的な区別であろう。つまり、ニューラル・アーキテクチャ探索に基づいたハイパーパラメタの最適化の方が、手動による最適化よりも低いコストで実現するなら、無限後退パラドックスは些末な問題へと格下げできる。

プロトタイプの開発:量子アニーリングによるハイパーパラメタ最適化

pyqlearning』のライブラリにおける以下のJupyter notebookによるデモンストレーションでは、シミュレーテッド・アニーリング量子アニーリングによって、簡単な分類モデルにおけるハイパーパラメタの組み合わせ最適化問題を解いている。そしてその結果としてこのノートブックでは、<ハイパーパラメタ最適化についてのハイパーパラメタ最適化>という無限後退パラドックスを実際に観察することに成功した。シミュレーテッド・アニーリングそれ自体や量子アニーリングそれ自体にもハイパーパラメタがあるため、アニーリングのハイパーパラメタ最適化に対してアニーリングのハイパーパラメタ最適化を適用することも不可能ではないであろう。

問題解決策:デバッグ

多くの場合、アルゴリズムの動作がどのような結果を招くのかは、実行してなければわからない。ニューラルネットワークを訓練して、その結果ある一定のテスト誤差を達成したとしても、それが期待される動作なのか、それとも最適化が未然の動作なのかを直接的に知る方法は無い。

深層学習が「システムシステム(System of Systems)」であるという点も、デバッグを困難としている。深層学習システムは、データに対して適応可能な複数のコンポーネントで構成されている。たとえあるコンポーネントでバグが生じていたとして、他のコンポーネントが、そのバグを前提とした上で、データに適合することを可能にしてしまう。その結果、偶然の産物として、モデルは許容可能能を発揮してしまう場合もあり得る。例えばニューラルネットワークバイアスが初期値であるゼロバイアスのまま一向に更新されなくなるようなバグが潜んでいたとしても、そのニューラルネットワーク重み行列の更新のみである程度の能を発揮してしまう可能性もある。それは、重み行列が負のバイアスを補うように適応してしまう可能性があるためである。同様の事例として挙げられるのは、勾配消失や勾配爆発があるエポックで生じたにも拘らず、次回以降のエポックでは訓練が実行され続けた場合のバグである。プログラムの実装次第では、こうした勾配関係の有害が更新パラメタに波及する可能性がある。例えばその場合、確率的勾配降下法Adamのような最適化アルゴリズムは、有害な勾配をゼロ勾配として処理することで、更新パラメタの値を全てゼロにリセットするような副作用をもたらすかもしれない。すると、それまでのエポックまでに実行してきたパラメタ更新が無意味になってしまう。

したがってデバッグ時には、初期化されたパラメタと更新後のパラメタの比較や勾配ベクトルのロギングなどのように、学習に関わる諸要素の可視化が求められる。単に誤差や精度を観測するだけでは、デバッグは成立しない。勾配の有害を検証するためには、逆伝播における微分結果と数値微分の結果比較できるようなプロットが必要になる。特に、多くの機械学習ライブラリでは自動微分機能が搭載されている。偏微分はブラックボックス化されているために、勾配計算に問題が生じていたとしても、機能的には途中で察知することが難しい。故に自動微分で得られた勾配と有限差分によって得られた勾配を比較するような可視化が有用となる。

通常のソフトウェア開発と同じように、深層学習システムをテストする場合も、機能テスト結合テスト単体テスト区別を導入することができる。機能テストではオブジェクト指向分析によって記述される諸概念の責任が果たされているか否かを検証する。ここでいう責任は、深層学習理論によって記述された諸概念を前提としている。上述したように、深層学習システムは副作用を派生させる。その出力値は、多くの場合、確率論的に規定される。したがって、深層学習システムを対象とした機能テスト観点では、テスト自動化が困難となる。一方、とはいえ単体水準でれば、深層学習システム構成している活性化関数損失関数最適化関数、パラメタ更新、正則項の計算などのようなコンポーネントは、数行のソースコードで記述できる。それ故、細かい粒度でれば、各コンポーネントのテスト可能性(testability)は決して低くない。スタブやドライバを用意すれば、半自動化は容易に実践できる。

派生問題:性能改善の自動化、自動化の性能改善

データセットの追加にせよ、ハイパーパラメタの調節にせよ、デバッグにせよ、深層学習の研究開発は部分的に自動化可能である。しかしこう述べた場合の前提となるのは、そうした自動化にはアルゴリズムが必要になるという点である。アルゴリズムをブラックボックス化したところで、アルゴリズムから逃れられる訳ではない。もしアルゴリズムを等閑視した自動化を実施してしまえば、そうして自動化されたデータ蒐集、ハイパーパラメタ・チューニング、そしてテストは、深層学習改善について、最適な結果を生み出さないリスクがある。言い換えれば、<改善の自動化>を実施したければ、<自動化の改善>を問題視しなければならないのである。

こうしたアイロニカルな要因を観察するだけでも、深層学習の研究開発に関する「自己論理的(autologisch)」な推論展開するための手掛かりが得られる。つまり、深層学習最適化のような機能要求するエンジニアたちは、まさに自身の研究開発それ自体を最適化しなければならないのである。<改善の自動化>が<自動化の改善>の必要を派生させるのと同じように、<最適化の研究開発>は<研究開発の最適化>を要求する。だが<研究開発の最適化>を成し遂げるためには、その最適化如何にして可能になるのかを探究しなければならない。それはまた新たな<最適化の研究開発>を必要とする。故に<最適化の研究開発>は、<最適化最適化>による<研究開発の研究開発>を必要としているのである。かくして深層学習の研究開発は、自己言及的コミュニケーションとして構成される。

ここでいうコミュニケーションとしての研究開発とは、言語行為に基づく理性的討議によるコミュニケーション的行為を介した理性的な合意形成によって成立するコミュニケーションではない。何故なら研究開発とは、<理性的主体たちによる合意形成>が<理性的な合意形成>になるという、楽論が通用しないコミュニケーションであるためだ。研究開発というコミュニケーションは、話し合えばわかり合えるという前提が成り立たない不確実な状況に置かれている。上述した通り、研究開発は科学・学問の機能的問題領域と経済機能的問題領域が構造的に結合することで展開されている。したがって、<一体の理性>が研究開発を掌握することはあり得ない。科学・学問の機能における合理性経済機能における合理性との間には差異があるためだ。真偽の二値コードに準拠した合理性が、支払いと非支払い二値コードに準拠した合理性と一致することは、ありそうもないことである。

問題解決策:象徴的に一般化されたコミュニケーション・メディア

あらゆるコミュニケーションは、それがコミュニケーションとして理解されることを成立条件としている。コミュニケーションが成立するか否かは、それが受容されるか拒否されるかの分岐に対応している。この分岐が設定されることで、それ以降のコミュニケーションは異なる道筋を辿ることになる。だがいずれの場合も、コミュニケーションの状態は、コミュニケーションによって変化する。受容されたコミュニケーションは、更なるコミュニケーションの前提として機能する。特に、一度受容された意思決定コミュニケーションは、後続の意思決定コミュニケーション影響を与える。上司の判断が部下の行動を方向付けるのと同じように、一度受容された意思決定コミュニケーションは、後続の意思決定コミュニケーションにおける選択肢を予め限定するのである。

一方、拒否されたコミュニケーションにおいても、受容されたコミュニケーションと同様に、システムに何らかの痕跡を残す。システムは、二度とその拒否されたコミュニケーションが実行される前の状態に回帰することはできない。コミュニケーションは、純粋無垢な状態には回帰できないということである。コミュニケーションは、そうした拒否されたコミュニケーション記憶を想起することで、「その拒否されたコミュニケーションは差し控えるべき」などといった具合に、以降のコミュニケーションの前提を構築する。他方、受容するか拒否するかという問題を未定にした状態で、まさにこの受容と拒否の問題を主題としたコミュニケーションが生起する可能性もある。この場合のコミュニケーションは、<コミュニケーションについてのコミュニケーション>という反省的な自己言及となる。だがこれは受容と拒否の決定を先延ばしにしているに過ぎない。コミュニケーション時間有限であるために、やがて受容と拒否の決定が下されることになる。

原理的に如何なるコミュニケーションも、拒否される可能性を有している。だが科学・学問や経済政治マスメディア教育宗教芸術族、医療などのような各種機能的問題領域のコミュニケーションは、受容される可能性が高くなければならない。と言うのも、これらの機能的問題領域のコミュニケーションが容易に拒否できるようでは、全体社会の社会構造が不確実化してしまうためである。それ故に全体社会は、機能的コミュニケーションの受容可能性を高めるような構造構成している。社会システム理論は、こうした受容可能性の増大に資する機構を「象徴的に一般化されたコミュニケーション・メディア」と名付けている。

象徴的に一般化されたコミュニケーション・メディアは、コミュニケーションの受容と拒否の分岐に対応するために構成されている。それは、あるコミュニケーションの受容が社会的に機能すると認識される場合に、にも拘らずそのコミュニケーションが拒否される可能性否定できない場合に構成される。社会的に機能するというのは、社会における問題を解決するということである。近代社会はそれぞれの機能的問題領域で機能的分化しているのだから、象徴的に一般化されたコミュニケーション・メディアもまた、この各機能的問題領域に対応する形で構成されている。例えば科学・学問の機能システムには「真理(Wahrheit)」が、政治システムには「権力(Macht)」が、経済システムには「貨幣(Geld)」が、システムには「愛(Liebe)」が、宗教システムには「信仰(Glaube)」が、それぞれ対応している。こうしたコミュニケーション・メディアは、コミュニケーションの接続における「選択(Selektion)」と「動機(Motivation)」を予め方向付けることで、コミュニケーションの成果の不確実性を埋め合わせるべく機能する

問題解決策:構造的な結合

それぞれの機能的問題領域における問題解決策コミュニケーションとして作動している機能システムは、相互に関連し合っている。この関連を特に「構造的な結合(Strukturelle Kopplung : Structural coupling)」と呼ぶ。その関連は緩やかである。専らその関連が顕在化するのは、双方のシステムが相互に刺激し合う場合だ。例えば、経済システム法システムとの間には「所有権(Eigentum)」や「契約(Vertrag)」が、法システム政治システムの間には「憲法(Verfassung)」が、政治システム経済システムの間には「租税(Steuern)」や経済指標や調達資金などのような数値が、政治システムマスメディア・システムの間には「世論(Öffentliche Meinung)」が、それぞれ構造的な結合結合点となる。とりわけ株式会社のような企業組織システムは、こうした結合点を主題とした意思決定コミュニケーション形式化させることで、複数の機能的問題領域の結合可能にしている。

ソフトウェア・エンジニアやアーキテクトにもわかり易い表現で言えば、この構造的な結合には、コンポーネント図のアセンブリコネクタのようなインターフェイスが介在している。ただし、一方が他方を制御できる訳ではない。確かに構造的な結合点を介せば、一方から他方へと刺激を与えることで攪乱することは可能だ。だがそれぞれの機能システムは、あくまで自身の機能的問題領域に特化した上で、自的に作動している。たとえ経済の論理で科学・学問が動いているように視えても、支払いと非支払い二値コードに準拠しているなら、それは経済システムの作動である。一方、営利活動との関連から真と偽の二値コードが導入されたのならば、たとえその場が企業であったとしても、そのコミュニケーションは科学・学問的なコミュニケーションとなる。

メディアと形式の差異

機能システム間の構造的な結合は、したがって疎結合状態である。双方は緩やかに結合している。決して一方が他方を制御する訳ではない。この構造的な結合は、組織システムとの関連から形式化される。組織システムの内部には、複数の機能的問題領域が導入されている。研究開発に取り組むIT企業ならば、まず経済と科学・学問の機能的問題領域が導入されている。他にも、政治教育のような機能システムが関わる場合もある。

社会システム理論的に言えば、この緩やかな結合様相は、ゲシュタルト心理学者フリッツ・ハイダーに由来する「メディア(media)」と「形式(form)」の区別として再記述できる。メディア形式区別は、メディア形式の双方が高度に抽象的な関係概念であることを言い表している。端的に言えば、ここでいうメディア(medium)とは、比較的緩やかに関連付いている諸要素の集合である。これに対して形式(form)とは、メディアが提示する諸要素の集合の中から、相互依存比較的高い関係にある諸要素を選択することで、緊密に関連付いている諸要素を指し示す。

更に抽象化して言えば、メディアは、「形態(Gestalt)」が有する凝固した形状を受容する能力と共に、その高度な融解によって特徴付けられる。このことが意味するのは、メディアが、その形態の範疇において、特定の諸要素から構成されているということである。そしてこの諸要素は、相互に緩やかに結合されている。例えば空気は、気体を緩やかに結び付けているメディアである。空気は、それ自体ではノイズを凝縮する訳ではない。だがノイズを伝達することはできる。我々が時計の規則的な音を耳にすることができているのは、空気自体がその音を鳴らしている訳ではないためである。

形式を導入するということは、何らかの区別をマークするということである。この「何らかの区別」の選択候補となり得るのが、メディアから提供された諸要素なのである。形式を想定するということは、<マークされている領域>と<マークされていない領域>の差異を前提にするということを意味する。それは、諸区別区別することで、特定の区別選択するということでもある。言い換えれば、形式はマークされることなしに潜在化している別のあり方でもあり得る区別盲点として位置付けている。

このことは、形式メディア区別にも適用される。形式メディア区別は、それ自体形式としてマークされている。故にこの区別は、何らかの第三項を排除している。しかしながら、この形式メディア区別自己論理的(autologisch)な推論は、メディアにおいても適用される。形式メディア区別は、メディアとして機能することで、様々な区別形式として導入することを可能にする。実際このメディア形式区別を応用している社会システム理論は、このメディアによって、知覚メディア言語メディア、そして上述した象徴的に一般化されたコミュニケーション・メディア理論を導入している。

メディア形式区別を踏襲するなら、象徴的に一般化されたコミュニケーション・メディアに対する形式として導入されるのは、組織システムである。<象徴的に一般化されたコミュニケーション・メディア>を<メディア>として抽象化するなら、この<メディア>に対応する<形式>となるのは、<組織システム>である。組織システムは、象徴的に一般化されたコミュニケーション・メディアに対して、意思決定コミュニケーションという形式を刻印しているのである。例えばその組織システム株式会社であるのならば、経済システム象徴的に一般化されたコミュニケーション・メディアとしての貨幣によって、投資を受けることになる。その際組織システムは、その内部に経営陣や人事部のような階層構造を導入することで、貨幣支払い所有を介した経済的なコミュニケーション主題とした予算配分や経営戦略の意思決定構成する。それは、象徴的に一般化されたコミュニケーション・メディアに刻印された組織システムが、その内部における意思決定構造において、<メディアとしての貨幣>から<形式としての予算配分>や<形式としての給与>を構成しているということである。

階層構造を前提とするなら、この形式化の決定前提となるのは、経営陣や人事部の意思決定である。故にこれらの形式は、組織内部に、地位を形式化させる上でのメディアとして機能する。この<形式としての地位>がメディアとして機能する時、そこに刻印される形式となるのは、権力である。回り回って組織システムは、象徴的に一般化されたコミュニケーション・メディアとしての貨幣を、同様のメディアである権力へと変換しているのである。つまり、ある<象徴的に一般化されたコミュニケーション・メディア>によって形式化されている組織システムは、別の<象徴的に一般化されたコミュニケーション・メディア>を形式化させるメディアとして機能することで、ある機能的問題領域から別の機能的問題領域への緩やかな結合可能にしていることになる。

問題解決策:「不確実性の吸収」としての意思決定

研究開発が不確実な状況下においても成り立っているのは、IT企業のような組織システムが作動しているためである。組織は、目的を追求し続けるシステムである。目的を達成するシステム組織なのではない。もしあらゆる目的が達成されてしまったならば、もはや組織組織として存続する必要が無くなる。組織組織として存続するには、未達の目的を抱え込まなければならない。この意味で、やたら多くの未達の目的を生み出しがちな研究開発は、組織の存続においては有意味主題となる。だがIT企業のような組織システムが研究開発を可能にするためには、研究開発のコミュニケーションが曝されている不確実性を無害化しなければならない。その際重要となるのは、組織システムにおける意思決定機能である。

組織システムもまたコミュニケーションによって構成されているシステムである。だが組織におけるコミュニケーションは、とりわけ意思決定過程として構造化されている点で固有である。逆に言えば、意思決定過程によって構造化されているコミュニケーションは、全て組織システムコミュニケーションである。ハーバート・アレグザンダー・サイモンに倣えば、こうした組織システムにおける意思決定機能は、「不確実性の吸収(absorption of uncertainty)」にある。意思決定は、別のあり方でもあり得る選択肢を否定すると共に、特定の選択肢だけを指し示す。それ故、ある意思決定に従事する構成員は、相互に矛盾する選択肢や、膨大な選択肢が伴うが故の不確実性を分析することの負担から免除される。ただし組織システムは、不確実性を「吸収」する代償として、予算配分、人員配置、新事業部の設立などのように、その構造における複合性を増大させることになる。組織は、その内部における不確実性を吸収するためにも、意思決定を実行しなければならない。

決定不可能性の決定可能性

サイモンの経営学が普及して以来、決定は例外無く、複数の選択可能選択肢の中からの選択として記述されている。サイモンによれば、決定とは、行為に先立って存在している選択なのであって、行為に導く選択の過程である。選択(choice)とは、合理的かつ客観的な条件を認識している限りにおいて、複数の選択肢(alternatives)の中からの一つの選択肢(alternative)を選択すること(selection)を意味する。だが、決定選択の一種であるというのは、半ばトートロジー的な定義である。この定義は、そもそもそうした決定としての選択が、誰により、如何にして可能になるのかについては、何も教えてくれない。

決定が誰による決定なのかは、しばしば決定観察者の盲点となる。決定は、複数の選択肢の中からの選択である。だが決定それ自体は、この選択肢の中には含まれていない。たとえ「決定する」という選択肢を設けたとしても、決定するか否かという<決定についての決定>は、選択肢の中には含まれない。決定それ自体は、<選択される選択肢>と<選択されない選択肢>の区別を導入することで成り立つ。区別するということは、双方を同時的に指し示すということである。故に決定とは、<選択される選択肢>と<選択されない選択肢>の<差異統一>であるということになる。

決定それ自体が選択肢の中には含まれないということは、決定者自身もまた、選択肢の中には現れない。これは、如何なる観察からも派生する問題である。観察者は区別を導入する。だが観察者自身は、その区別の中には含まれない。観察者自身は、観察盲点となる。同様のことが決定でも派生する。決定者は、決定盲点となっているのだ。しかし無論、観察者のいない観察などあり得ない。同様に、決定者のいない決定もまたあり得ないはずだ。

社会システム理論ニクラス・ルーマンによれば、こうした決定に伴う<差異統一>というパラドックス脱パラドックス化しているのは、時間意味形式である。決定という概念は、その決定が下される前と後で、異なる意味を帯びている。決定する前の決定者は、複数の選択可能な開かれた選択肢を観察する。だが決定した後の決定者は、もはやそうした代替的な選択肢は選択可能ではない。それは閉じられた選択肢となる。決定が持つ意味時間と共に変化する。つまり、意思決定過程の時間の流れの中で、差異化されている選択肢は統一へと向かう訳だ。しかしルーマンが指摘するように、こうした脱パラドックス化は、容易に見破られてしまう。こうした時間意味形式では、決定の事前と事後で、その決定が、如何にして別のあり方でもあり得る決定へと変化し得るのかを十分に記述できないのである。

そこでルーマンは、イギリスの経済学者ジョージ・シャックルに倣い、決定に関する時間意味形式を過去と現在と未来の区別によって再記述している。選択可能選択肢とは、現に存在している選択肢を指すのではない。シャックルも述べたように、意思決定者にとっての選択肢とは、意思決定者による想像の産物である。言わば選択可能選択肢とは、意思決定者によって独創(originated)されるのだ。

意思決定は創造的(creative)な活動として、過去による現在の支配や過去による到来すべき未来の歴史の支配などといった枠組みを切断する。それと同時に、意思決定としての選択は、論理や計算のみから成る必然的な選択からも区別される。あらゆる意思決定は非必然かつ可能、すなわち偶発的選択となるのである。

尤も、注意しなければならないのは、意思決定者には恣意的な選択が許される訳ではないということである。むしろ逆である。選択可能選択肢は、選択肢を想像する意思決定者の知識想像力によって制限される。こうした制約条件の下で、意思決定者は、創造的であらねばならない。創造的であるためには、過去や未来から現在を切断すると共に、論理や計算のみから成る必然性世界から自らを区別するという意味で、差異構成する必要がある。つまり意思決定とは、偶発性世界に身を置きながら、差異構成する選択なのである。

決定は常に、現在において実行される。決定が下された瞬間が現在となる。そしてその瞬間、その事前と事後が過去と未来として構成されるのである。過去から現在、現在から未来へと至る時間の流れの中に決定が導入されることで、その時間の流れの中に、決定前として過去と決定後としての未来が導入される。この意味決定とは、時間の時間の中への「再導入(re-entry)」となる。この現在は、過去によって確定している訳でもなければ、未来を確定する訳でもない。何故なら、過去や未来があって現在が確定するのではなく、現在の決定が下されることで、その過去や未来が構成されるためだ。それ以前の問題として言えば、もし過去が現在を確定し、現在が未来を確定するなら、決定はおよそ不要となるどころか、不可能になる。決定は、過去から現在、現在から未来に対する、未確定を前提としている。言い換えれば、過去との不連続な現在と、未知なる未来が無ければ、決定は不可能なのである。

この不連続性の未確定は、セカンドオーダー・サイバネティクスの提唱者であるハインツ・フォン・フェルスターがクルト・ゲーデルの決定不可能命題との関連から記述した「決定不可能(unentscheidbar)」な問題となる。決定者は、原理的に決定不可能な問題についてのみ、決定することができるのである。何故なら、決定可能な問題については、問題設定とその問題解決策の組み合わせの規則が、その主題を司る「ゲームの規則」や「構造」、あるいは「方法」や「理論」によって、既に決定されてしまっているためである。こうした決定可能な問題においては、決定者の努力の有無や能力の高低に関わりなく、何らかの論理によって、自ずと解決策に到達することができてしまう。つまり、あえて意思決定者の役割を定めて、意思決定の過程を試みる必要が無いのである。原理的に決定可能な問題においては、決定者は用済みになる。原理的に決定不可能な問題においてこそ、決定者が求められる。決定可能性を条件付けているのは、決定不可能なのである。

決定不可能な問題に直面している意思決定者は、「ゲームの規則」や「構造」などのような外部要因による影響を受けている訳ではない。この限りで意思決定者たちは、ある種の「自由」を手にしている。だがこの「自由」には「代償」が伴う。それは「責任(Verantwortung)」という「代償」である。意思決定者たちは、自らの決定に起因する失敗や損失観察されたならば、自ら責任を負う覚悟を強いられる。最の場合、辞職せざるを得なくなる。だからこそ責任者たちには、しばしば比較的高い給与が与えられる。こうした報酬は、もし職を失っても済むようにという意味で、リスクヘッジとして機能しているのである。

問題解決策:意思決定としてのプロジェクトマネジメント

意思決定を諸要素とした組織的なコミュニケーション可能にするには、決定不可能な問題で決定していく責任者が必要になる。しかしそうした決定者は、決して深層学習理論方法によって規定されている決定問題に取り組む訳ではない。繰り返すように、決定者は、原理的に決定不可能な問題についてのみ、決定することができるのである

したがって、深層学習の研究開発における意思決定とは、深層学習理論方法によって規定されない問題についての意思決定となる。それは、理論方法によって規定される真偽の二値コードからは逸脱している領域での意思決定である。言い換えれば、研究開発の意思決定は、真偽の二値コードにおける排除された第三項となる。逆に言えば、もし決定しなければならない主題が真か偽かという二値コードに準拠した主題であるのならば、意思決定者は必要ではない。この二値コードから逸脱した排除された第三項においてこそ、責任を負いながらリスクを冒す意思決定者が必要になる。

この点、リスクを冒そうとしないプロジェクトマネージャは、何の役にも立たない。プロジェクトマネージャに要求されるのは、研究開発で言及される個々の意味論が、どのような社会構造を前提として記述されているのかを、区別することである。言い換えれば、研究開発における個々の主題が、どの機能的問題領域に属している問題設定なのかを区別することが、プロジェクトマネージャが踏襲すべき主導的差異となる。

もしプロジェクトで観察されたある主題が、真偽の二値コードに準拠する科学・学問の機能的問題領域に属するのならば、自身の意思決定は必要にならない。データサイエンティスト機械学習エンジニアと共に、単に真理を追究すれば良い。一方、当の主題が科学・学問の機能的問題領域から逸脱している場合は、決定可能性決定不可能区別を導入しなければならない。ある問題が決定可能な問題であるか否かは、現にその問題が決定されているか否かによって、決定できる現実的に典型的な事例となるのは、ステークホルダや上司などの他者による意思決定が下される場合である。たとえ原理的に決定不可能な問題であっても、現実的に決定が下されているのならば、それは決定可能である。逆に言えば、自身が決定しない限りは誰もそれを決定しない問題であるなら、それは決定不可能な問題となる。プロジェクトマネージャは、そうした決定不可能な問題についてのみ、決定していかなければならない

既に述べた通り、これはパラドックスである。決定不可能決定可能性区別は、それ自体が決定不可能である。しかし、如何なる組織システムであれ、そのコミュニケーションにおいては、現に決定が下されている。それは、原理的な決定不可能現実的な決定不可能区別が導入されることで、この決定不可能決定不可能というパラドックス脱パラドックス化されているためである。

プロジェクトマネージャは、常に責任を負いながらリスクを冒す意思決定者として振る舞わなければならない。そうしたプロジェクトマネージャは、決定から逃避することができない。何故なら、決定から逃避するということは、「決定を遅延させる」という決定を下していることになるためだ。同じように、「決定しない」という否定的な選択すら、責任を伴わせた決定として観察される。決定否定するという選択意味するのは、「決定しない」という決定なのである。プロジェクトマネージャがプロジェクトマネージャである限りは、決定しなければならない。何を如何に決定すべきかを決定することも含めて、決定していくしかない。あえて「決定しないこと」によるリスクを「決定すること」によるリスク比較した上で、決定するか否かすら決定するしかない。その意思決定コミュニケーション偶発性に曝されていく可能性をも含め、それがプロジェクトマネジメントなのである。

問題解決策:システムと外部環境の区別

研究開発を担う組織システムは、意思決定コミュニケーションの総体である。意思決定コミュニケーションならば、それは全て組織システムの作動となる。ここで重要となるのは、こうした組織システムが、先述したような自己言及的コミュニケーションによって構成されているということだ。組織システム構成しているのは、組織システムである。組織システム外部環境に位置する何物かが組織構成している訳ではない。組織システム自己言及は、この外部環境への外部言及との差異を確保することで成立している。つまり組織システムは、自己言及外部言及区別を導入することによって、自己言及的コミュニケーション可能にしているのである。

注意しなければならないのは、この自己言及外部言及区別は、それ自体自己言及的構成されているという点である。言うなれば、自己言及外部言及区別は、自己言及の内部へと「再導入(re-entry)」されているのである。自己言及的構成されているのがシステムであるのならば、外部言及的に構成されているのが外部環境である。ここでいう外部環境とは、組織システム外部言及によって構成されている。だが組織システム外部言及は、自己言及の側へと「再導入」されている。故に、組織システム外部環境区別もまた、組織システムの内部へと「再導入」されていることがわかる。組織システム外部環境とは、あくまでも組織システムそれ自体が構成している疑似的な外部環境なのであって、純然たる世界それ自体ではない。

システム外部環境区別は、システムによって構成されている。それはシステムの内部の出来事である。組織システムの内部の出来事となるのは、全て意思決定コミュニケーションである。逆に、意思決定コミュニケーションではない出来事は、全て組織システム外部環境での出来事となる。例えば社外の、学会で発表されている先行研究は、その組織システム外部環境における組織外の出来事である。その科学・学問的なコミュニケーションは、少なからずその組織システムそれ自体の意思決定ではない。しかし研究開発を主題とした組織システムは、外部環境としての科学・学問に対する外部言及自己言及の内部へと「再導入」する。その結果として組織システムは、純然たる世界における科学・学問それ自体ではなく、組織システムの内部に「再導入」された科学・学問を参照する。つまり組織システムは、科学・学問的なコミュニケーション主題とした意思決定コミュニケーション構成することが可能なのである。

研究開発のシステム合理性

システム外部環境区別は、システムの内部へと「再導入」される。この自己言及的システムという概念が意味するのは、システムが必要とする全ての構成要素が、そのシステムそれ自体によって産出されるということである。責任を担うプロジェクトマネージャーの意思決定がそうであるように、組織コミュニケーションにおいては、「決定しない」という決定もまた、組織システムの産物である。組織システム意味論においては、「決定をしない」ということが、<意思決定を「否定」する>という意思決定意味するのである。

このように、システムシステムそれ自体についての「否定」をそれ自体のうちに含み込んでいる場合、システムは厳密な意味で自的となる。言い換えれば、システムが自的に作動し続けるには、自己自身を「否定」する場合の意味論も、自らで調達できなければならないのである。しかしながら、これはパラドックス形式でしか起こり得ない。つまり、システムによるシステムの「否定」が、システムの内部に「再導入」されることでしか成り立たないのである。

しかし一方で、このシステムパラドックス化された形式は、システム合理的な作動を可能にしている。何故なら、システム合理的な作動が可能になるのは、システム外部環境差異というシステム構成している形式が、肯定されると同時に否定される場合に限られるためである。肯定される場合であるというのは、そうでなければ、肯定と否定という区別を実行できるシステム存在しなくなってしまうからである。一方、否定される場合であるというのは、システム外部環境の相互関係と独立関係が、そのシステムにとっては、予見し得ないものとなっているからである。

システムは、基本的には、その外部環境に対しては無関心な形で発現せざるを得ない。だが、考慮しなくても良いという形で排除されていたものの多くが、そうであるにも拘らず注目すべきものである場合や将来的に注目されるべきものとなるかもしれないということを、システムは決して排除する訳にはいかない。とはいえ、現存する諸々の事物や出来事の一切を考慮に入れた世界構想として、このシステム合理性形式化される必要がある訳でもない。システムが合理的に作動できるのは、そのシステムが考慮できるよりも多くの外部環境についてのデータを、そのシステムが考慮しておける場合だけである

この関連から等価機能主義的な方法を前提としている社会システム理論は、システムの作動上の合理性を「システム合理性(System- rationalität)」として観察することになる。システム合理性形式化するのは、外部環境との差異を確保することでその作動を継続しているシステムが、<システム>と<外部環境>の区別システムの内部に「再導入」する場合である。それは言い換えれば、システムが<システム>と<外部環境>の双方を一括して同時的に観察するということだ。自己言及的システムは、世界を<システム>と<外部環境>に区別することによって、<システム>として存続するのであった。故に外部環境とは、世界におけるシステム以外のあらゆる領域である。逆に言えば、<システム>と<外部環境>の統一体は、<世界全体>だということになる。

これを前提にすれば、<システム>それ自体に対する自己言及と<外部環境>に対する外部言及を同時的に遂行する場合、システム世界を通常よりも幅広い視野で眺めていることになる。例えばプロジェクトマネージャーがデータサイエンティスト合理的合意形成する場合ならば、プロジェクトマネージャーは、常に<プロジェクトマネージャーの意見>と<データサイエンティスト意見>を同時に観察しなければならない。<他者の意見>に盲目的になり、<自己意見>だけに固執するようでは、合理的合意は成り立たない。合理的合意形成するためには、自己は<自己意見>に対する自己言及と<他者の意見>に対する外部言及を同時に遂行する必要がある訳だ。

しかし社会システム理論的に言えば、システム合理性は理想郷に過ぎない。何故なら、システム世界全体を観察することは不可能であるためだ。世界全体はあまりに複雑過ぎる。世界全体をシステム観察するには、<システム観察する世界全体>と<その盲点となる世界全体>を区別しなければならない。システムは、<盲点>に盲目的になるからこそ、<観点>の認識を可能にしているのである。あらゆる観察は必ず盲点を派生させる。

盲点無き観察はあり得ない。区別を導入すれば、<差異統一>というパラドックスが派生する。決定者は、決定不可能な問題を決定しなければならない。「決定しないこと」を選択しても、<決定しない>という決定としてパラドックス化される。研究開発の意思決定としてのプロジェクトマネジメントは、パラドックスと無縁ではあり得ないのである。だが、それは理論の欠如や方法上の陥穽を指し示している訳ではない。パラドックスは、まさにそれが観察者の観察を、決定者の決定妨げるが故により創造的な問題解決策探索する契機を生む。それは、その都度の状況の下で立証されるより創造的な問題解決策を、現に機能している問題解決策機能的等価物として探索する契機なのである。

参考文献

  • Elsken, T., Metzen, J. H., & Hutter, F. (2018). Neural architecture search: A survey. arXiv preprint arXiv:1808.05377.
  • Fawcett, T. (2004). ROC graphs: Notes and practical considerations for researchers. Machine learning, 31(1), 1-38.
  • Foerster, H. V. (1989). » Wahrnehmung wahrnehmen «in: Ars Elektronica (Hg.): Philosophien der neuen Technologie.
  • Gödel, K., Kleene, S. C., & Rosser, J. B. (1934). On undecidable propositions of formal mathematical systems (pp. 346-371). Princeton, NJ: Institute for Advanced Study.
  • Gödel, K. (1930). “Die Vollständigkeit der Axiome des logischen Funktionen-kalküls”, Monatshefte für Mathematik und Physik 37, pp. 349-360.
  • Heider, Fritz. (1959) “Thing and Medium,” In On Perception, Event Structure, and Psychological Environment: Selected Papers, New York: InternationalUniversity Press, pp1-34.
  • Luhmann, Niklas. (1968) Vertrauen. Ein Mechanismus der Reduktion sozialer Komplexität, Stuttgart.
  • Luhmann, Niklas., Schorr, Karl Eberhard. (1982) “Das Technologiedefizit der Erziehung und die Pädagogik,” In dies. (Hrsg.), Zwischen Technologie und Selbstreferenz: Fragen an die Pädagogik, Frankfurt, S.11-40.
  • Luhmann, Niklas. (1984) Ökologische Kommunikation, Wiesbaden: Westdeutscher Verlag.
  • Luhmann, Niklas. (1984) Soziale Systeme, Frankfurt am Main : Suhrkamp.
  • Luhmann, Niklas. (1988) Die Wirtschaft der Gesellschaft, Frankfurt am Main, Suhrkamp.
  • Luhmann, Niklas. (1990) Die Wissenschaft der Gesellschaft, Frankfurt am Main, Suhrkamp.
  • Luhmann, Niklas. (1990) Essays on self-reference, New York : Columbia University Press.
  • Luhmann, Niklas. (1997) Die Gesellschaft der Gesellschaft, Frankfurt/M, Suhrkamp.
  • Luhmann, Niklas. (1997) “Globalization or World Society?: How to conceive of modern society,” International Review of Sociology March 1997, Vol. 7 Issue 1, pp67-79.
  • Luhmann, Niklas. (2000) “Familiarity, Confidence, Trust: Problems and Alternatives”, In Gambetta, Diego. ed, Trust: Making and peaking Cooperative Relations, electronic edition, Department of Sociology, University of Oxford, chapter 6, pp. 94-107.
  • Shackle, G. L. S. (1961). Decision order and time in human affairs. Cambridge University Press.
  • Shackle, G. L. S. (1979). Imagination and the Nature of Choice. Columbia University Press.
  • Simon, Herbert Alexander. (1969) The sciences of the artificial, Cambridge, MA.
  • Simon, Herbert Alexander. (1976) Administrative behavior: a study of decision-making processes in administrative organization, 3th Edition, Free Press.
  • Simon, Herbert Alexander. (1977) The new science of management decision, revised edition, Englewood Cliffs.
  • Simon, Herbert Alexander. (1996) The sciences of the artificial, 3rd, MIT press.