Webクローラ型人工知能によるパラドックス探索暴露機能の社会進化論

スポンサーリンク

派生問題:偶発性定式の社会的文化的進化は如何にして可能になるのか

機能システムにおける偶発性定式の社会的機能は、問題を設定することが問題の解決策となり、潜在化しているパラドックスを暴露することがコミュニケーションを活性化させるという等価機能主義的な社会システム理論観察によって、や明快となった。一方で偶発性定式は、その意味論において、歴史に左右されないほどの抽象性を獲得したことで一般化している。他方で偶発性定式は、個別具体的なコミュニケーションの如何なる文脈であっても、その文脈に応じた意味構成することができている。そして偶発性定式は、解決不可能なパラドックス主題化することで反復的な問題設定を可能にすると共に、その主題貢献することが必然的であるかのような認識を普及させることができている。

しかし、偶発性定式に関するルーマンの洞察は、彼自身も認める通り、二つの理由で未完に終わっている。このことが、以下での問題設定となる。

その第一の理由は、全体社会との関連にある。ルーマンは、偶発性定式が全体社会に対して如何なる影響を及ぼすのかについて、結論を出せずにいた。この点から言えば、社会進化の岐路に立たされた全体社会に対して偶発性定式が如何にして関わるのかという派生問題を設定することができるようになる。偶発性定式偶発性必然性というパラドックス脱パラドックス化として機能することを前提とするならば、偶発性定式としての諸概念が主題となるのは、このパラドックスが顕在化している場合である。この状況は、必然的な偶発性社会構造を攪乱することで、変異性を増大させていることを意味する。言い換えれば、社会進化の契機にこそ、偶発性定式意味論的に動員される可能性が高まるのである。

しかしこの関連から、ルーマンの偶発性定式に関する洞察が未完である第二の理由についても、我々は留意しておかなければならない。それは偶発性定式の記述の問題と関わる。我々はルーマンが取り上げた主題以外にも偶発性定式があり得るのではないかと懸念しなくてはならないのだ。上述した各種の偶発性定式は、あくまでルーマンが社会構造意味論観察して記述したことで探索的に発見した成果である。それ故に、別のあり方でもあり得る方法理論を採用すれば、また別様の偶発性定式を抽出できるかもしれない。

偶発性定式の発現が社会的文化進化の兆候であるとするならば、社会構造意味論を前提とした進化論的に長期的な展望からこの主題コミュニケーションを分析することが、別のあり方でもあり得る偶発性定式の発見探索を可能にする。その際、社会構造意味論を前提とした社会文化進化において、言語というメディアには、相対的に時間的に制約された意味の貯蔵庫として、特殊な有用性を認めることができる。ルーマンも認めているように、ある社会構造に対応する意味論は、何よりも言語的な形式によって保持される。多くの言語の変遷を読み取ることで、意味論が如何にして活用されているのかを読み取ることができる。無論その全ての意味論言語が社会理論として有用である訳ではない。問題を設定し、その主題における貢献として機能するか否かは、その都度の観察によって区別しなければならない。

ここで鍵となるのは、「進化(evolution)」の意味論だ。専ら進化論という主題において注目されてきたのは、ダーウィニスト、ネオ・ダーウィニスト、そして社会ダーウィニストによる貢献である。しかしこれらの進化論は、等価機能主義的な社会システム理論における社会進化論とは、全くの別物となる。ルーマンの社会進化論は創発との関連から記述されている。創発的な進化とは、社会構造意味論変異していく現象を意味している。

問題解決策:ダーウィニズムにおける進化の意味論

元来ダーウィニズム(Darwinism)は、チャールズ・ロバート・ダーウィンが生物界の変異を説明する際に提唱した進化の概念を意味していた。したがって、ダーウィニズム進化論は、厳密には同じではない。進化論が進化に関わる諸概念を整理した理論であるのに対して、ダーウィニズムとは、進化が如何にして実現し得たのかを指し示す意味論であったのだ。

進化意味論は、ダーウィン以前から語り継がれていた。彼の業績は、進化に関連する多くの証拠を纏め上げた点にある。ダーウィンによると、進化とは生物における性質の累積的な変化を意味する。そしてこの進化という現象は、本質的に三つの原理の相互作用によって成立する。それは「突然変異(mutation)」、「遺伝(heredity)」、そして「生存闘争(strggle for existence)」だ。そもそも生物の個体には、たとえ同じ種であっても、それぞれ様々な変異性を兼ね備えている。そうした変異の中には、世代から世代へと受け継がれることで遺伝する変異もある。更に遺伝する変異の中には、生存闘争における生存確率を高める変異や、繁殖力を高める変異も含まれている。結果的に、生存や繁殖に有利となった個体はその性質をより多くの個体に伝えることができる。反面、不利となった個体の子は減少していく。

この進化の三原理における根幹を成しているのは、ダーウィンがアルフレッド・ラッセル・ウォーレスと共に提唱した「自然選択(natural selection)」の仮説である。この説によれば、生物に生起する変異は、厳しい生存闘争の舞台となる自然環境によって選択される。生存闘争は所与の自然環境に最も上手く適応した個体群に対して有利に働く。自然選択における選択肢となるのは、希少な資源を奪い合う個々の生物の遺伝子(gene)である。進化という現象は、この自然選択によって方向付けられている。

問題解決策:ネオ・ダーウィニズムにおける進化の意味論

ダーウィンは自然選択進化の中核に位置付けた。彼は色や形や諸々の器官をはじめとした「形質(character)」の遺伝進化の要因であると考えていた。しかしダーウィンの死後、動物学者アウグスト・ヴァイスマンが生殖質の独立説を唱えた。ヴァイスマンによると、遺伝情報は次世代の出発点となる配偶子を生成する生殖細胞にあるのに対して、身体構成する体細胞に生起した変異の効果が次世代に受け継がれることはない。つまり体細胞の変異遺伝は無関係なのである。ヴァイスマンによれば、遺伝する性質を世代から世代へと伝承していく生殖質は、身体の他の部分の変異と関わりなく不変である。遺伝する変異は、雄雌の生殖質が両性混合されることによってのみ生じる。この変異自然選択が伴うことで進化が実現する。これによりヴァイスマンは「自然選択万能」の仮説を提示した。

ここからネオ・ダーウィニズムが始まる。ネオ・ダーウィニズムでは、ダーウィニズムにおいて信頼されていた混合遺伝説が否定される。混合遺伝説とは、両親の中間的な性質が子の形質として受け継がれていくという仮説だ。だがこの混合遺伝説では、形質変異の連続性を肯定することになる。事実ダーウィンは、自然が跳躍しないことを主張していた。その思想は、進化という概念を漸進的で連続的な進歩として捉える進歩史観に結び付いていく。しかしながら、これでは全ての個体の形質がいずれ平均化されてしまう。それは個体間の差異が消失することを意味する。これを問題視したネオ・ダーウィニストたちは、形質の離散性を指摘するグレゴール・ヨハン・メンデルの粒子遺伝説を導入することによって、ダーウィニズムに伴う問題を乗り越えようとした。

粒子遺伝説は、同時代の専門家たちが見過ごしていたメンデルの秘めたる業績であった。それは混合遺伝説とは真っ向から対立する仮説である。メンデルによれば、形質(character)にはその元となる粒子状の要素(element)がある。形質遺伝する場合、この要素が次世代へと受け継がれていくのである。粒子遺伝説が言い表しているのは、一対の染色体(chromosome)における対立形質に関する対立遺伝子(allele)が減数分裂的に離散することで別々の細胞に分配されるということである。尤もメンデルは、「遺伝子」という用語を使っていなかった。彼は単に遺伝的な要素を説明していただけであった。しかしこのメンデルの研究によって、遺伝子に言及する分子生物学が発展することになった。メンデルが論じた遺伝的な要素は、現代の「遺伝子」とほぼ同義であると言えよう。

分子生物学的に言えば、遺伝情報を伝達するメディアとして機能しているのは、デオキシリボ核酸(DNA)に他ならない。DNAは、アデニン(A)、シトシン(C)、グアニン(G)、そしてチミン(T)の4種類の塩基と1種類の糖とリン酸から構成されている。DNAにおける構成単位となるのは、これら4種類の塩基の中の一つを含んだヌクレオチドだ。DNA分子の構造は、ヌクレオチドが結び付いた2本の鎖による二重螺旋構造になっている。DNAを介して伝達される遺伝情報は、このA、C、G、Tの一次元配列に格納されている。この配列によって、遺伝コード構成される。如何にして生物のたんぱく質を構成するのかは、このコードによって規定される。たんぱく質を構成するのはアミノ酸だ。遺伝コードは、このアミノ酸の接続を規定することによって、生物のたんぱく質を構成しているのである。だがDNAの塩基が4種類であるのに対して、アミノ酸は20種類ある。1個の塩基に1個のアミノ酸を対応させていては、たんぱく質の構成が限定されてしまう。したがって遺伝コードにおいては、1個のアミノ酸に3個の塩基が対応するように設定される。つまり3個の塩基による4^3=64通りの組み合わせによって、20個のアミノ酸の接続を可能にしているのである。この3個の塩基によって1個のアミノ酸を規定するためのコードをトリプレット・コドンと呼ぶ。たんぱく質におけるアミノ酸配列は、複数のコドンが連鎖することで構成される。こうして構成されたたんぱく質が酵素として機能することで、生物の形質が規定される。それ故に遺伝子は特定のたんぱく質を合成するDNAの部分列となる。細胞システムにおけるDNAの大多数は特に細胞分裂時に核内に発現する染色体に局在する。それ故この染色体構造がDNAの担い手であると考えられている。

ネオ・ダーウィニズムは分子生物学と共に発展してきた。進化生物学者クリントン・リチャード・ドーキンスは、この遺伝子の利己的な側面を強調して論じている。ここでいう「利己的(selfish)」であるというのは、自己の生存率と繁殖率を他者の生存率と繁殖率よりも高めることを意味する。逆に利他的であるというのは、他者の生存率や繁殖率を自己の生存率と繁殖率よりも高めることを意味する。例えば子供を守り育てる親の行動は、一見して利他的である。この場合、親は自己の生存率を犠牲にすることで、子供という他者の生存率を高めようとしているのだ。しかしながらドーキンスによれば、自然選択の単位は遺伝子だという。生物の行動が選択されるのではなく、遺伝子こそが選択されるのだ。たとえある遺伝子によって方向付けられた行動が一見して利他的であったとしても、その行動が遺伝子それ自体の複製可能性を高めるのならば、以後その遺伝子はその行動を頻繁に促進するようになるのである。事実子供を守り育てる親の行動は、親から子供へと受け継がれた遺伝子を守り通すという点で、遺伝子それ自体の生存率や繁殖率を高めることに貢献する。こうした行動は、生物個体の視点で観れば利他的であっても、遺伝子の視点で観れば利己的なのである。彼の遺伝子中心視点によれば、生物個体は遺伝子によって利用される乗り物に過ぎない。遺伝子は、親の身体から子供身体へと乗り換えていくことによって、自己の生存と繁殖を維持しているのである。

問題解決策:社会ダーウィニズムにおける進化の意味論

ドーキンスは、彼の進化生物学を社会的文化進化にも適用しようとしている。その発端となるのが、彼自身が提唱した「ミーム(meme)」の概念だ。ミームは社会的文化進化における遺伝子に相当する比喩である。ミーム理論によれば、社会や文化進化は、ミーム自然選択によって生じてきた。コミュニケーションにおいて発生する情報や行動は全てミームによって方向付けられている。マスメディアやウェブ上で伝達されるデータの洪水にもミームが絡んでいる。我々の行動様式やアイディアや概念規定は、全てミームによって予め限定されている。ただしミームは、自己を正確に複製する訳ではない。それ故にある行動様式、アイディア、概念のミームは、他の行動様式、アイディア、概念のミーム結合することや、互いに修正し合うことができる。こうして新たなミーム構成される。個々のミームの中から選択されたミームがより効率的に自己を複製するミームとして生存していく。我々が現在自明視している諸々の行動様式、アイディア、概念規定は、こうして生き残ったミームによって規定されているのである。

ミーム理論社会ダーウィニズムにも影響するところ多大であった。だが元々の社会ダーウィニズムは、自然選択説を人間社会に応用することで、弱肉強食の生存闘争は社会において必然であるという見解を正当化するために持ち出された説であった。しかしながらハーバート・スペンサーのような社会システム理論家たちは、この社会ダーウィニズム進歩の原理としても位置付けている。スペンサーは生存闘争を強調するだけではなく、競争社会は最終的に闘争の無い社会に到達するという思想も展開していた。事実スペンサーの社会ダーウィニズム進化論とキリスト教の融和を目指す理論でもあった。彼の進化論は、 無神論を強調するドーキンスのそれとは全く別物なのである。

これは社会ダーウィニズムではない

ドーキンスに由来するミームの社会進化論は、比喩に頼り過ぎている。生物界の進化概念を社会的文化進化を説明する比喩として用いれば、新たな発見も確かに得られるだろう。しかしルーマンが指摘しているように、比喩を用いた分析方法では、類似していれば何でも結び付けて構わないという誘惑に駆られてしまう。例えば社会ダーウィニズムが弱肉強食の生存闘争を正当化するために利用されていたのは、こうした誘惑に魅了されてしまった者たちがいたためだ。

もとよりルーマンも、進化のみならず、オートポイエーシス構造的な結合など、生物を言い表す様々な概念を社会学に導入してきた。だが彼がこうした概念を援用していたのは、ただ単に類似していたためではない。彼の概念の抽象化による機能的な再利用可能性の確保から始まる等価機能分析比較の観点から観れば、進化オートポイエーシス構造的な結合は、生物に限らず、普遍的な現象なのである。もとより生命システムや細胞システム神経システムにおける進化オートポイエーシス構造的な結合と、意味システム心理システム社会システムにおける進化オートポイエーシス構造的な結合との間には、差異もあるだろう。それぞれのシステムは、それぞれ別様の形式で、進化オートポイエーシス構造的な結合を実行しているのである。だからこそルーマンは、比喩による分析方法ではなく、等価機能分析方法を実践したのだ。進化オートポイエーシス構造的な結合は、それぞれのシステムの作動を「比較」するための概念であるという点で、機能的に等価である。進化オートポイエーシス構造的な結合という概念を援用することによって、等価機能主義的な社会システム理論家たちは、諸々のシステムの「異同」を観察することができるようになるのである。

以下からは、専ら等価機能主義方法によって、社会進化という社会システムの現象を観察していくことになる。ただしこれは、社会ダーウィニズムではない。我々は全く別の様相から社会進化論に接近していくことにする。

問題解決策:スペンサーの「適者生存」

社会学の創始者の一人であるハーバート・スペンサーは、最も早期に社会進化論に取り組んだ者の一人である。スペンサーは、有機体の隠喩を採用することで、社会を「システム」として把握していた。彼の社会学は、この社会システムを維持のシステム、分配のシステム、そして規制のシステム区別することで、社会システムの「構造」と「機能」を分析する方法を提起している。系譜の遡及に拘る者たちならば、この社会有機体説を構造機能主義の先駆けとして位置付けるだろう。

スペンサーは、自然や生物のみならず、社会や文化宗教もまた進化するものとして捉えた。スペンサーが論じた進化とは、単一性から多数性への変異、単純性から複雑性への変異、あるいは同質性から異質性への変異を抽象的に描写した概念である。こうした彼の社会進化論は、自由放任と有機体的社会観に特徴付けられている。社会進化の初期の段階では、戦争が生活するための事業となっていた。だが教会が支配的となった時代になると、戦争以外の選択肢が増大することで、次第に自由度が拡張されていく。教会の支配の時代では、社会進化は知識や知的能力で成立していた。

ところが近代社会に突入すると、産業化によって、更に自由度が増していく。この段階になると、社会に様々な産業能力が広まる。産業の制度化は、この能力に対応するように構築された。スペンサーが指摘した進化とは、分業による協働の進展を意味する。だが多数性、複雑性、そして異質性が増大していけば、社会や文化に混沌が這い寄る。そこでスペンサーは、社会や文化がこうした混沌に対処するためには、「適者生存(survival of the fittest)」の自然選択が必要であると考えた。例えば職業の自然選択は、多数性、複雑性、そして異質性の増大に対応する社会組織を成立させる礎となった。このようにスペンサーは、あくまで社会構造自然変異として進化を捉えていた。そこに人間中心主義的な発想は無い。そのため彼は、人類の「進歩(progress)」ではなく、社会構造進化(evolution)を強調したのである。

問題解決策:パーソンズの「二重の偶発性」

スペンサーの社会進化論は、言わば社会における弱肉強食を承認するために有用となる理論である。ここでいう強者とは、適者生存による生き残りである。パーソンズは、こうした社会進化論を提唱したスペンサーの批判者として現われた。パーソンズによれば、アメリカ社会はもはやスペンサーの社会進化論が適用される状況ではない。アメリカ社会は、社会の外部に位置する境地(Frontier)を目指して自己を拡張させても、社会の内部における矛盾した対立関係を解消できる訳ではなくなった。地平の彼方にあるとされた境地は、はもう無い。境地が無くなれば、既存の大地を巡る競争に打ち勝つことで生き残るしかない。社会の内部の矛盾した対立関係は、いつまでも解消されないのだ。

パーソンズによれば、この状況は「ホッブズ的問題」を生み出す。つまり、限られた利益を巡り個々人が功利的に自己の利益を追求する場合、社会的な秩序は如何にして可能になるのかという問題が発生するのである。個々人が互いに相手の出方次第で選択を変えるようになれば、その混沌とした状況は、「二重の偶発性(Double contingency)」を生み出す。パーソンズは、この問題を共通の価値や規範を受容することで解消しようとした。ここでいう受容は、二つの要因で成り立つ。第一に、個々人が共通の価値や規範を自身のうちに内面化することである。そして第二に、共通の価値や規範を具体的に制度化することである。パーソンズは、この価値や規範を巡る内面化と制度化によって、二重の偶発性という問題を乗り越えようと考えたのである。

パーソンズが想定する社会システムは、地位と役割システムである。地位の構造に帰属された個々人がその地位に相当する役割を演じることによって、社会的な秩序は安定的に維持される。個々人が社会の構造に方向付けられる形で社会の安定性に貢献する機能を担うことで、社会の構造もまた維持されるのである。

パーソンズの構造機能主義方法から記述された社会システム理論には、動態的な社会観が欠けているという批判が殺到した。だがその実、彼は社会システムを静態的な社会としては捉えていなかった。彼もまた社会進化を論じていたからである。パーソンズによれば、これまでの社会進化は原始、中間、近代へと進展していた。原始社会から中間社会への進化は、主に言語によって実現した。中間社会から近代社会への進化は、規範的な秩序を制度化した法システムをはじめとしたコードによって果たされる。とりわけ原始社会から中間社会への進化において鍵となったのは、書き言葉である。書き言葉で記述された記録は社会システムの安定化に貢献する。記述された記録は、文化の累積的な発展を基礎付ける。書き言葉社会システム文化システム分化を促進させることで、文化システムの射程を拡張した。文化内容は、書き言葉で記述されることによって、相互行為時間的な文脈や空間的な文脈に左右されずに表現されることになる。

近代になると、社会進化は専ら機能的に分化したサブシステムの再配列によって果たされるようになった。パーソンズによれば、様々な要因から進化することへの圧力を受けると、社会システムは内的に分化する。言い換えれば、進化しようとする社会システムは、役割機能的に分化させるのである。この機能的な分化によって、それぞれの役割はそれぞれの専門分野の問題解決に特化することになる。それが結果として社会全体の問題解決能力の増大に資するという訳だ。しかし、機能的な分化によって、既存の社会的な秩序もまた変異することになる。この秩序の変異を放置しておけば、社会は混沌した状況で分裂していくことになる。そこで社会システムは、恒常性を発揮することによって、社会の外部へと分裂していくそれぞれの機能システムを改めて再配列する。それにより、社会システムはそれぞれの機能システムを社会の内部に包摂しようとするのだ。この包摂に成功すると、社会システムは新しい価値や規範を共有できるようになる。個々人に内面化されるべき価値や規範も変わる。価値や規範を具体化する制度もまた変化する。こうして一旦混沌と化した社会システムが安定化することで、一先ず社会進化の決着が付くのである。

問題解決策:ルーマンの「前適応的な自然漂流」

しかし、これまでのシステム理論家たちの社会進化論では、複合性偶発性で満ちた環境の中で、如何にして特定のシステムが存続し得るのかを十分に説明できない。組織システムであれ運動システムであれ、どのようなシステム環境複合性を縮減することで存続している。生存能力を持つシステム環境から選択されるという視点を導入しても、システム環境への適応という概念を導入しても、別のあり方でもあり得る進化形式の中から特定の形式だけが選択される理由を説明したことにはならないのである。

ルーマンは社会についてのシステム理論の視点から、この進化問題を論述している。だがその進化論は、従来の社会進化論とは明確に区別されている。ルーマンの抽象的な定義によれば、システムの「進化」とは、生起する見込みのないことが高い確率で起こり得るようになるべく、構造変異していくことを意味する。ここでいう「変異(Variation)」は、コミュニケーションにおける否定や誤解や意図的な誤解により意味形式が変容した場合に生じる。例えばそれは、法的紛争やテロ行為などのようなコミュニケーションによって生じるのである。この意味の変容が特に期待の不安定化に関わる場合、構造は不安定化する。この状況は「破局(Katastrophe)」の状況だ。システムオートポイエーシスを維持するには、この災禍の如き不安定化を招いている意味形式複合性を縮減しなければならない。そのためには、これらの意味形式の中から意味論として機能し得る形式を規定する必要がある。こうして特定の意味形式が採用されることを、ルーマンは進化における「選択(Selektion)」と名付けている。選択された意味論の候補が実際に意味処理規則として機能し始めると、不安定化した意味形式は正常化する。この正常化をルーマンはシステム構造の「再安定化(Restabilisierung)」と呼ぶ。

このように、社会システム進化変異、選択、再安定化の区別で説明されている。ただし、進化により変異するのは構造である。進化では、社会それ自体は変化しない。近代社会は、進化しても、近代社会のままである。社会システムはそのままなのだ。と言うのも社会システムは、構造上の変異が生じた場合に、全体社会の内部で機能的に分化しているサブシステムモジュールを再配列するからである。これにより、構造上の変異から派生した複合性を縮減することに特化した機能的なサブシステムを改めて用意することが可能になる。

このサブシステムとしての機能システムが再配列されるのは、意味論による影響である。社会システム構造上の変異から改めて意味論が選択されると、その社会システムコミュニケーションは、その意味論が貯蔵する主題における適切な貢献へと機能的に方向付けられていく。特定の意味論に依拠する社会システムは、その意味論で指示し得る特定の主題を前提とした特定の貢献しかできない。だからその貢献は世界の部分への貢献に過ぎないのである。依拠する意味論が異なるそれぞれの社会システムは、それぞれ別様の機能的な方向性に特化した社会システムへと分化していく。これが全体社会のサブシステムである機能システムとして再安定化していくのである。

前適応的な自然漂流

こうしたルーマンの社会進化論には、目的論的な自然観との接点が無い。システムは、何らかの目的を達成するために進化しているのではないのだ。環境はあくまでも不確定である。システムは、その都度環境の不確定性に見合うように構造を組み替えている。故にその進化もまた偶発的に引き起こされる。ただしその変異は、決して外部の環境への「適応(adaptation)」なのではない。何故なら自己言及的でオートポイエーシス的なシステムは、作動の閉鎖性を有しているからだ。ウンベルト・マトゥラーナとフランシスコ・ヴァレラが述べたように、進化における変異は、「自然漂流(natural drift)」として生じる。すなわち、システムシステム自身でその構造コードを組み替えることによって、進化が成り立つのである。

ここでいう進化(evolution)は、進歩(advances)ではない。それは段階的な過程を通じて進展していく発展とは別物である。むしろルーマンの進化概念は、創発の概念に直結している。この意味進化には飛躍が伴う。ただしここで注意しなければならないのは、進化の前提となり得る条件が全く無いという訳ではないということだ。実際、生物の進化の中には、しばしば他の機能を担っていた形質進化の前提となる機能に転用されることで成り立つ進化もある。よく引き合いに出される仮説が示しているように、爬虫類から鳥類への進化には、こうした機能の転用が伴っていた。単に鳥類を爬虫類の進化形態であると考えるだけでは、この進化はあまりにも起こりそうもない現象と思えてしまうために、到底信じられなくなる。だが、元々爬虫類が羽毛を有していたと考えれば、この進化も無理なく受け入れられるようになる。この場合、爬虫類の羽毛は体温調節のために機能していたと推論できる。そして、この羽毛が飛翔するための機能として転用されることによって、空を飛ぶ鳥類の進化が本格的に現実化するようになったのである。

進化論においては、こうした既存の機能の転用による進化を「前適応(preadaptation)」と呼ぶ。この前適応による進化は、社会システム進化においても十分に起こり得る現象である。例えば元来コンピュータは、アメリカ政府の国勢調査におけるデータを処理するために機能していた。コンピュータ・ネットワークは、国防総省の情報管理のために機能していた。大型のコンピュータは、専門組織によって事実上独占されていた。しかし後に1970年代のハードウェア関連のハッカーたちやUnix関連のハッカーたちが一般市民を前にしても機能するツール設計したことによって、社会構造はWebを利用する一般市民を背景に変異したのである。ハッカーたちによるパーソナル・コンピュータやLinuxの設計は、かくして社会進化を引き起こしたのだ。

「前適応」の用語法

ルーマンは「前適応」を指して「前適応進歩(preadaptive advances)」という用語を使用していた。だがこの用語では、システム理論における進化が「適応」や「進歩」に結び付いてしまうという誤解を与え兼ねない。そのためここでは、一先ず「前適応」という用語を使うだけに留めて置いた。

社会構造の変異

構造は、選択肢を限定する選択として機能するのであった。構造が予め選択肢を限定しているからこそ、システムは限られた選択肢を冗長的に選択し続けることが可能になる。それによりシステムオートポイエーシスを維持できるようになる訳だ。しかし、環境が突如偶発的に構造が前提としている選択肢とは別のあり方でもあり得る選択肢を突き付けてきた場合、構造機能不全となる。この危機を乗り越えるには、構造を組み替える必要がある。その結果として意味論の再構成が始まる。かくしてシステム構造進化するのである。

ルーマンによれば、社会進化におけるシステム分化の進展は、メディア形式の新しい差異を導入することに関わっている。と言うのも、従来の歴史的な拘束や制度的な拘束から自律化できる新しいメディア構成することによって、そうした拘束から解放された形式構成することも可能になるためである。だとすれば、進化における「破局」と各システム分化が伴う時、新しいメディアを如何にして設計するのかが、社会進化を成立させる鍵となる。

機能的等価物の探索:社会進化の知覚メディア

従来の歴史的な拘束や制度的な拘束から自律化できる新しいメディア設計することが、社会進化を成立させる鍵となる。この点、マーシャル・マクルーハンのメディア論は、社会進化メディアの関連性を明示する理論として読み取れる。マクルーハンによれば、メディアを契機とした社会進化は、「感覚比(Sense Rations)」の変異を経由することで実現する。感覚比とは、五感の配分率である。活字メディアが中心となっていた時代では、視覚的(visual)な感覚の配分率が高まっていたのに対して、電子メディアの時代では触覚的(tactile)な感覚が優位となる。

この論点はベンヤミンの『複製技術時代の芸術作品』で展開される知覚メディアの美学とも関連している。ベンヤミンが論じる触覚手続き記憶的にパターン化された知覚の反復による習慣形成へと結実していくのであった。マクルーハンの場合は、電子メディア触覚は「パターン認識(pattern recognition)」へと結実していく。また双方は、過剰刺激に対する全身での享受を意味するという点で一致している。実際マクルーハンは、活字メディアが単一感覚的な知覚をもたらすのに対して、電子メディアは複合感覚的で同時多発的な知覚をもたらすと述べていた。この描写は、ベンヤミンが論じたショック作用が至近距離から感覚器官へと四面楚歌の如く流れ込む事態の言い換えである。

歴史的裏付け:グーテンベルグ銀河系

マクルーハンは、ヨハネス・グーテンベルグが15世紀に活版印刷術を発明したことに多大な関心を抱いていた。彼によれば、この複製技術の登場は、写本文化の終焉を意味していた。確かに活字の印刷が可能になったことにより、写本の筆写者や修道士たちが職を失った。だがそれよりも重要なのは、印刷技術の社会的な影響力である。マクルーハンによれば、グーテンベルグの発明は書き言葉の機械化を招いた。そして、民族主義と民族語を確立へと導いたという。

大量の本が複製することが可能になると、印刷という新しいメディアは、人々に私的なアイデンティティの観念を形成させた。それにより人々は、言語の標準化をそれまで実現不可能であった水準で強制されることになった。印刷された書き言葉は、「正しい」綴りや読み書き(literacy)の尺度となったのである。

文章という旧いメディアは衰退しなかった。グーテンベルグ銀河系意味論では、むしろそれが強化されるに至る。マクルーハンによると、アルファベットが登場する以前の時代では、人間たちのコミュニケーションは全ての五感を同時的に駆使していたという。というのも、何かを物語るためには、話し言葉のみならず、<ボディ・ランゲージ>によって、全身を動かすと共に、視ることと聴くことの両方が求められたからである。マクルーハンはこの関連から、書き言葉が普及される以前の時代では、話し言葉に対応した聴覚空間(acoustic space)が広がりを見せていたという。

ところがアルファベットという書き言葉メディアとして普及すると、話し言葉に携わる者たちが受ける同時多発的な感覚は、「視覚」という単一の感覚へと縮減されることとなった。聴覚空間には、方向や地平が無い。だが書き言葉が普及すると、その空間有限で線的な秩序で構造化された合理的な空間へと変異することになった。このことによりマクルーハンは、グーテンベルグの活字出版が線的で連続的な思考を我々に強制するようになったと指摘している。

マクルーハンに倣えば、このグーテンベルグ銀河系の線的な連続性は、その後の社会進化に多大な影響を与えている。視覚が強化され、視覚の感覚比が高まると、聴覚は脇に追いやられた。この感覚比変異によって、文字文化意味論言語的なコミュニケーションを超えて社会システムへと影響を与えることとなった。例えば経済の領域では、工場や鉱石類の短距離輸送で使用されてきたベルトコンベア・システム象徴されるように、産業を線的で連続的な秩序で特徴付けてきた。学問の領域では、アイザック・ニュートンやルネ・デカルトなどのような観測者たちが、物理的な現象を空間時間の中に位置付けることによって、宇宙を線的に捉えようとしてきた。芸術の分野では、遠近法が開発されている。また文学の分野では、時系列という線的な構造によって物語を進める形式が自明視されていた。

しかしながら電子メディアが普及すると、この線的で連続的な秩序が破綻することになる。電子メディアメッセージは複合感覚的で同時多発的なショック効果を生み出す。電子メディアのユーザーの感覚比は、あらゆる感覚を総動員するべく変異する。とりわけその中でも重視されるのが、ベンヤミンも注目していたように、触覚なのであった。もはや活字メディアで集中的に動員されていた視覚は、五感のうちの一つに過ぎなくなる。

電子メディアの代表作はテレビである。マクルーハンはテレビの映像を二次元平面的なモザイクに喩えている。モザイクは不連続で非線的である。活字メディアのユーザーとは異なり、テレビのモザイクを閲覧するユーザーは、その映像を線的に視認することができない。テレビのモザイクは、連続性を持たないのである。だから視覚の感覚比が相対的に高まることもない。マクルーハンはむしろ、テレビは触覚感覚比を高めるという。確かにテレビは眼で視るツールだ。だがそこには音声が伴う。そして、例えば映像に映し出される公民権運動のデモ行進の参加者たちの主張や身振り素振りを家族と談話しながら視聴することができていたことから察するに、テレビのユーザーは全感覚を総動員している。

マクルーハンはテレビの歓迎者ではない。ブラウン管に釘付けのまま育ったテレビっ子たちは、触覚感覚比を高める一方で、視覚の感覚比を相対的に低めてしまう。視覚の感覚比の低迷は、従来の活字メディアに対する対応能力の低下を意味する。それ故にテレビを見続ければ、それだけ教科書や論文を集中して熟読する能力が衰えていくのである。だからマクルーハンは、テレビの教育への「影響」を阻止するためには、活字メディアも併用しなければならないと考えていた。

知覚メディアを背景とした構造的な結合の歴史における「共進化」

こうした社会システムメディアを見渡して観れば、ヴァレラが述べている認知システム外部環境構造的な結合歴史進化を背景にしているということが、これまで以上に明確化してくる。と言うのも、マクルーハンやベンヤミンが取り上げる知覚メディアが我々の認知システム変異形式的に方向付ける一方で、我々の認知システムの再安定化がまた別の新しいメディア設計へと社会システムコミュニケーションを方向付ける可能性があるからだ。

認知システムは、この意味で、単に外部環境による刺激に適応するために進化してきた訳ではない。言わば認知システム外部環境前適応自然漂流によって「共進化(co-evolution)」してきたことになる。そしてこの進化は、「意味」を構成するシステム神経システム生命システムが共に偶発性に曝されている以上、後も起こり得ることになる。

派生問題:偶発性定式の発見探索は如何にして可能になるのか

ルーマンは、生態的なコミュニケーションという全体社会の様々な機能システムが目まぐるしく関連付いた複合的な問題に対する自身の社会システム理論を少しでも単純化して説明するために、「共鳴(Resonanz; Resonance)」という用語を用いている。それは、作動の閉鎖性を保持した自己言及的でオートポイエーシス的なシステムが、如何にして外部環境から放たれた攪乱的な刺激を享受し得るのかを単純化して記述した概念である。システムは、自己言及的に構成した自己自身の構造に条件付けられた上で、外部環境による刺激から影響を受ける。どのように影響を受けるのかは、システム自身が決める。構造的に結合しているシステム同士が相互に影響し合う場合においても、事は同様である。

物理学的に言えば、独立したシステム共鳴するのは、それ固有の振動数に準拠してのみのことである。それは神経生物学における構造的な結合と同じように、システム構成した<システム>と<外部環境>の区別の「選択(selection)」に準拠している。同じことは、社会システム心理システムにも該当する。確かに社会システム理論的に言えば、オートポイエーシス的で自己言及的なシステムが他のシステム共鳴することは、ありそうもないことであるかのように思える。それは偶発的であると解さざるを得ない。進化論的に観ても、社会はその環境必然的に反応しなければならないという道理は全く無い。まさにその反応の選択性こそが、社会的文化進化を可能にしてきたはずだ。

しかしながら、意味論的に観察するならば、社会システム心理システム構造は、とりわけ言語による構造的な結合を介して、絶えず同期的に活性化している。ある種の共起関連が発現しているのは、双方のシステム概念を抽象化し、汎化すれば認識可能になる。いずれのシステムも「意味」を構成するシステムである。それぞれのシステム意味処理規則は、歴史文化的に方向付けられている。そしてその形式となるのは、情報の継続的な意味処理である。それは、作動の閉鎖性を保持するシステムが、自己言及的に自らの内部環境区別を導入することで、状態や出来事観察する営みに準拠している。そうした状態や出来事観察可能になることで、初めてシステム情報を見出す。

故に情報システムの内部で構成されている。外部環境にあるのは、精々データ程度だ。社会システム心理システム外部環境や境界線で生起しているこうした情報処理は、実際には「意味」を構成するシステムの内部で実行されている。したがって、複数の社会システム心理システム共鳴は、意味(Sinn)共鳴に他ならない。それは、構文や形式の記号論的な指し示しに限らず、否定矛盾、あるいはこれらの潜在的な可能性によって構成された意味(Bedeutung)の揺らぎをも包含している。

一方、神経システムに関する生物学的な研究が明かしているように、共鳴の発動可能性が高まるのは、システム機能的代替可能性が低下した場合である。つまり、機能的に特化したシステムほど、共鳴能力を高めているのである。目や耳のような感覚器官、神経システム免疫システムは、進化の過程で試行された周波数の範囲でしか共鳴できない。

しかし、まさにその構造的な制約こそが、システム組織化された学習能力を与える。実際には、社会システムは多くの生態的な破局に直面している。全体社会は既に、直ぐにでも人類を滅亡させられるほどのテクノロジーを手にしている。だが、機能的な分化を成し遂げた近代社会社会構造には、この事態に反応する余地があまりにも少な過ぎる。それぞれの機能システムは、二値コードプログラムによって構造的に制約された範囲でのみ、外部環境共鳴できるからだ。だがこのことは、単に共鳴が稀少であることを意味するのではない。「意味」を構成するシステムという観点では、むしろ社会はその内部で様々な意味の揺らぎを体験している。「意味」を構成するシステムの内部では、共鳴は過剰になっている。この稀少な共鳴と過剰な共鳴パラドックスは、システムの内的環境と外的環境区別を導入することで、脱パラドックス化されるしかあるまい。

意味」を構成するシステム共鳴可能性に共通して言えることは、とりわけその可能性言語的な構造で制約されているという点である。言語化可能な事柄は、皆コミュニケーション主題にすることもできれば、意識的に思考することもできるであろう。しかし、我々が見聞きすることのできる対象範囲が狭いスペクトルに縛られているのと同じように、コミュニケーション思考もまた言語に束縛されている。そして、より重要かつ決定的なのは、そうした発話や記述が、連続的(sequentially)に秩序付けられてしまっているということである。だからこそ我々は、全ての主題について同時に言及することができないのだ。言語は、語彙、文法、否定の用法などのような構造によって、複合性時間化する。複合性は選択を強制するのだが、言語はとりわけその選択を連続的に秩序付けられた選択になるように束縛するのである。

以上の社会システム理論を前提とすれば、如何に偶発性に曝された不確実な社会進化と言えども、それが言語的な構造による制約を受けて結実していると推論することができる。だとすれば、偶発性定式の社会的文化進化の兆候もまた、この言語的な構造において立ち現れるはずである。つまり偶発性定式の社会的文化進化は、それまで偶発性定式として主題化されてきた既成概念が、既存の言語的な構造による制約を逸脱することで構成されるということだ。

問題解決策:カルチュロミクス

エレツ・エイデンとジャン=バティースト・ミシェルが提唱した「カルチュロミクス(Culturomics)」は、偶発性定式の社会的文化進化可能性に対する言語観察という点において、データサイエンスを活用した具体例の一つとなるであろう。「カルチュロミクス」という名称は、ゲノム解析を意味するゲノミクス(genomics)に倣った造語で、膨大な文献資料を材料に語彙などの変化を定量的に分析して、文化の潮流や人類の営みを分析する学問を意味する。

言葉は、まるで化石のように、ページという地層の中に埋まっている。カルチュロミクスの研究者は、考古学者であるかのように、言葉の化石を発掘しようとする。こうして研究者たちは、文化潮流を分析しようと試みているのである。

法則の例外に向けて

エイデンとミシェルは、マーテイン・ノヴァクが創設したProgram for Evolutionary Dynamics(PED)に思想的な影響を受けたことで、社会文化進化に強い関心を持ち始めた。手始めとして二人が取り組んだのは、定義や定量化が比較的容易な言語であった。言語文化の縮図であると共に、文化の伝達メディアでもあるためだ。

とりわけ二者の関心を惹き付けたのは、不規則動詞の文法だ。言葉の使い方は文化的影響に曝されている。西洋文化においても、例えばdirveのような動詞のように、一部の動詞は不規則で、その他の動詞は規則的に活用される。こうした動詞の活用の差異は、何故、如何にして成立したのかが二者の探究主題になった。

エイデンとミシェルは、言語の社会的文化進化を研究する上での手掛かりを求めた。そこで彼らは「ジップの法則(Zipf’s law)」が自らの研究方法の重要な背景知識となり得ることを発見する。この法則は、ジョージ・キングズリー・ジップが1937年の時点で既に実践していたデータ分析によって発見されている。それは文献における単語の出現頻度に焦点を定めた言語データの蒐集から始まった。ジップは集めたデータから各単語をその出現頻度に応じて順位付けて観た。そこでジップは、単語の出現頻度とその順位が逆比例の関係にあることを発見する。順位の値が10倍になると、その順位に該当する単語の出現頻度が10分の1になるという訳だ。

ジップは当初小説を対象にこのデータ分析を試みていた。だがジップが後に直ぐ気付いたように、この法則は新聞記事や様々な出版物にも当て嵌まる。そしてジップは膨大なデータから、各単語の頻度分布が正規分布ではなく「べき乗分布」に従うことに気付いた。その原因については未だに判明していない。だが機能的に観るなら、この時点で既に「ジップの法則」には普遍性と抽象性が備わっていたと考えられる。

エイデンとミシェルはこの「ジップの法則」が所与の標準化された前提として受け入れる一方で、この法則の例外を探索することが社会的文化進化の兆候を発見することに結び付くと考えた。先に取り上げた英語の不規則動詞は、まさにこの法則を裏切る傾向を示している。このことを説明するために、エイデンとミシェルは宛ら歴史意味論風の論調で英語の不規則動詞の変遷を取り上げている。

英語の不規則動詞には長い歴史がある。現代の研究者たちがインド・ヨーロッパ祖語と呼ぶ古の言語は、6000年以上前から使用されている。それは現代のドイツ語、英語、フランス語、スペイン語など、様々な言語に思想的な影響を与えてきた。この祖語には単語の時制的な変異を司る「母音交差(ablaut)」という規則がある。これは動詞に含まれている母音を変化させることで時制を変化させるという規則を意味する。例えばsingやringは、過去形ならばsangとrangに、過去分詞ならばsungとrungに変異する。これは語尾に「-ed」などの接頭辞を付加させる訳ではない。エイデンとミシェルは、この変異規則が不規則動詞の「化石」であるという。

「-ed」などといった接頭辞は、母音交差規則を絶滅へと追い遣る「隕石」となった。この隕石は、紀元前250年から紀元前500年ごろのスカンジナビアで使用されていたドイツ祖語に由来している。この祖語は、ドイツ語やオランダ語や英語をはじめとした現代のゲルマン諸語に多くの影響を与えている。このドイツ祖語自体はインド・ヨーロッパ祖語を継承して活用されていた。そのため母音交差の規則も受け継いでいた。だが後に新たに登場してきた動詞の中には、徐々に母音交差とは相性のい単語も見受けられるようになった。そこでドイツ祖語の使用者たちは、「-ed」という別の規則を考案した。つまりドイツ祖語においては、で言う規則動詞の方が例外的であった訳だ。

しかしこの活用は、その利便性によって、急速に普及するに至った。これが後の「デンタル・サフィックス(dental suffix)」となる。相対的に母音祖語に由来する不規則動詞は、文字通りその不規則性ゆえの扱い難さによって、淘汰されることになった。それは単語が使われなくなるという意味ではない。従来不規則動詞であった単語が規則動詞として再設定されるということである。具体例は数多に挙げられる。例えば動詞のhelpの過去分詞は、でこそhelpedだが、かつてはholpであった。

「如何にして可能になっているのか」という問題設定

この歴史を前提とすれば、言語に対する進化論的な問題設定は容易となる。不規則動詞は、そのユースケースにおいて、規則化による淘汰の圧力に曝され続けている。helpのような単語はその圧力に屈した一方で、dirveのような動詞は未だに不規則動詞のまま生存しているという事態は、ある種のを提示している。すなわち、それが「如何にして可能になっているのか」を問うことができるのだ。

エイデンとミシェルは、この問題設定に対する問題解決策として、中世から近代に至るまでの英語の文法書を調査した。不規則動詞が規則化される淘汰の圧力は現在も続いている。だがある動詞が特定の期間内で規則化される確率は、その頻度に依存することを発見した。すなわち、不規則動詞の半減期(half-life)はその使用頻度の平方根に比例する。例えばある不規則動詞の100分の1の使用頻度しかない不規則動詞は、規則動詞化されるまでに要する時間が当該不規則動詞の10分の1になる。

この法則もまた機能的な再利用可能性が高い。と言うのも、ある不規則動詞の歴史をデータとして蒐集していれば、それをこの法則に当て嵌めることで、別の不規則動詞が規則動詞になるまでの経過時間を予測することが可能になるからだ。エイデンとミシェルによれば、driveという英単語は、後も約7800年間は不規則動詞として生存し続けるという。尤も、それは英語という言語それ自体が生き残っていればという前提の下ではある。

ビッグデータ技術との合流

2007年ごろには、エイデンとミシェルは上述した方法を応用することで、本の中の単語数を計測することでその背景にある社会的文化進化の傾向を知ることができるという確信を持つことができていた。しかし、この方法を応用するには膨大なデータが必要になる。ただでさえこの時代は、GoogleやFacebookなどのような企業によって、ビッグデータ技術が普及しつつある時期であった。膨大なデータは目と鼻の先にある。だがそれは研究者に触れられる場所にある訳ではない。社会的文化進化を探索するためのデータは、や大学や研究機関のような専門組織ではなく、企業が所有している。だから研究者たちは、一方では権威として知の普遍的妥当性を保証する人格として讃えられながら、他方では企業に頭を下げてデータを貰い受ける境遇を甘んじて受け入れている。

こうした状況は、Googleをはじめとした企業による万物の徹底的なデータ化という潮流に端を発している。この姿勢をビッグデータの論者たちは「データフィケーション(Datafication)」という用語で取り上げている。データフィケーションという概念が指し示しているのは、ビッグデータの時代がデータ分析の一点張りとなるのではなく、そのための事前準備となるデータの蒐集と蓄積こそが重要となるということだ。

Dataficationとは、直訳すれば「データ化」で、データ化可能な対象を徹底的にデータ化していく思想を含意している。データフィケーションの一例として挙げられるのは、Google Booksだ。それは、あらゆる書籍を著作権法で許される限りにおいてデジタル化して、世界中で誰もがインターネットを介して無料で書籍の内容を閲覧できるようにするシステムである。図書館と手を組んだGoogleは、自動で本のページをめくる特殊なスキャナを開発して、大量の書籍を自動でデジタル化した。

GoogleがGoogle Booksで図書館の書物を画像化するだけでなく、その中に書き込まれているテクストデータをも電子データ化しようと奮起する時、データフィケーションの思想が顕著に表れてくる。単に書籍の各ページをデジタル画像に変換してPDFファイルで展開する程度であれば、著者の死後著作権が切れた書籍を対象にした「プロジェクト・グーテンベルグ(Project Gutenberg)」が既に1971年から取り組んでいた。しかしGoogleは、それだけでは満足しなかった。更に光学文字認識(optical character recognition)を援用することにより、Googleはその画像データの中に埋め込まれているテクストデータをもコンピュータで処理できるようにしたのである。

テクストがデータ化されたことで、本の内容を対象とした文章の索引作成や検索も自動化できるようになった。文字の出現頻度や分布状況を統計的に解析することも可能になった。特定の単語やフレーズが初めて登場した年代や人気が出た時期も推定できるようにもなっている。

n-gram

だがこのデータフィケーションの思想は、決して容易に受け入れられてきた訳ではない。著作権侵害という法的問題との相対は不可避であった。エイデンとミシェルはGoogle Booksのデータを研究のために利用したいと考えたが、ビッグデータを他者に公開することによって派生してしまう法的問題に直面することになった。

そこでエイデンとミシェルは、自分たちの分析方法がGoogle Booksの全データを必要としている訳ではないということを念頭に置いて、それぞれの本における単語の出現頻度とその本が記述された年代だけでも貴重なデータとなり得ると考えた。これならば、ビッグデータの全ての公開を求めずに済むために、著作権法などの法的問題を回避できる。だが、データサイエンスや統計学方法を利用すれば、一部のデータから全体のデータを予測できてしまう恐れもあるかもしれない。そこでエイデンとミシェルは、出現頻度が極端に少ない単語についてはあえてデータセットから除外することによって、全体のデータの復元を理論上不可能とした。

かくして、エイデンとミシェルはGoogle booksのデータを手に入れることになる。そして、このデータに基づいて制作された単語の年代別使用頻度の検索システムをn-gramと命名する。エイデンとミシェルはこの検索システムを利用することで、例えば世間から名声を浴びた個人の名前、思想統制的な検閲の対象となってきた言葉、あるいは「ルシタニア号事件」や「パールハーバー」などのような社会的な記憶の対象となるような出来事や状況に関する言語歴史的変遷を探索している。

蒐集と分析の対象をn-gramのデータに限定すれば、著作権による保護を脅かすことはあり得ない。また、不規則動詞の研究が例示するように、一つの単語の出現頻度を定量化するだけでも、我々は多くの発見を手にすることができる。単語の出現頻度を集計することは、コンピュータを利用すれば簡単にできてしまう。

加えてエイデンとミシェルの研究は、企業にとっても有用であることがわかる。と言うのも、単語や句の使用頻度を分析すれば、人々の意識思考過程を知るための効果的な切り口が得られる。それは検索サービスを基盤に設立されたGoogleのようなデータ駆動型の企業にとっては、とりわけ魅力的なツールとなる。マスメディアのような機能システムから観ても、カルチュロミクスの研究結果は有用な情報を提供するであろう。個人名の知名度を定量化することができれば、パパラッチも誰を追い掛け回すべきかの判断に迷うことも無くなるはずだ。

機能的等価物の探索:Webクローラ

カルチュロミクスは、Google Booksに象徴されるような法的制約の他にも、歴史的な制約を受けている。と言うのも、カルチュロミクスが対象にし得る文献の大半は、19世紀以降の西洋文化である。それも特に、識字(literacy)の率の高い文化に限定される。

上述した問題設定との関連で言えば、分析すべきなのは西洋社会の過去の傾向だけではない。社会的文化進化は、未来で起こり得る出来事だ。我々は社会的文化進化の軌跡を発見探索するだけではなく、その兆候を予測しなければならない。

だとすると、n-gramのような自然言語処理方法否定する必要は無いにせよ、そのメディアをGoogle Booksやその他の「書物」に限定することには全く何の必然性も有用性も無いということを弁えておくべきであろう。実際、ウェブ上にはリアルタイムで次々と新たなハイパーテクストが生成され続けている。これらの言語を対象とすれば、社会的文化進化の兆候を読み解くことも不可能ではない。

ハイパーテクスト

ハイパーテクストの直接的な創始者とされるテッド・ネルソンは、かつて「ザナドゥ・ハイパーテクストシステム(Xanadu hypertext system)」を考案していた。彼が目指したのは、文献の中から様々な要約を選別した上で、その保存や提供を可能にすることであった。

ネルソンがハイパーテクスト期待したのは、言わばこの文献の相互テクスト的な接続可能性形式化させるためのメディアとしての機能である。この目論見のためにネルソンが不可欠と考えたのは、複製技術のコピー機能に依拠した記憶装置の設計だ。複製技術のコピーには、構築したデータの安全性を確保する「セーフティ・コピー(safety copies)」としての機能と、過去のデータを検索する「追跡(backtrack)」としての機能が帯びている。あるデータ処理がどのような状態であったのかを保存しておけば、エラーや失敗をデバッグすることも、以前の状態に関して再考察することも、容易くなるであろう。

しかしネルソンは、あらゆるデータを恣意的にコピーしてしまうようなコンピュータでは満足しなかった。それでは、僅かな変更点や追加点を繰り返し提示しても、元の部分が冗長的に繰り返し記録されてしまう 。過去のデータ処理に無駄が生じてしまっては、その履歴がユーザーに過剰な刺激を与えてしまう。そうなればユーザーは、いざ過去のデータを遡及する時に、データの洪水という過負荷に曝される。

それ故ネルソンは、情報処理やデータ処理における基本的な構造を見直した上で、「ヴァーチャリティ(virtuality)」という概念に直結した代案を提出した。ヴァーチャリティの設計においては、思い付いた瞬間に欲しいデータを蒐集し、視た「瞬間」理解することを可能にする「概念的な構造(conceptual structure)」と「感覚(feel)」が重視される。この設計に方向付けられたユーザーは、恰も猫が獲物に「飛び付き(Pounce)」、獲物の一部を刈り取るかのように、データの「断片」を切断することが可能になる。

データの「断片」を切断することが重視されるのは、可能なデータの選択を限定するためである。特にネルソンはこの問題を「枠組みの問題(framing problem)」と名付けている。つまり、複合的なデータの中で枠組みされて区別されたデータの一部分を断片的に展示すると同時に、それが世界の全体を表象しているかのように魅せることが問題となったのである。

無論、枠組みの中で蒐集されたデータの関連付けは、その配列次第で別様にもあり得る。したがって、ここで新たな問題として派生してくるのは、ここで関連付けられたデータと別様にもあり得る配列で関連付けられたデータとの潜在的な関連性を探査することとなる。つまり、それぞれに枠組みされたデータ間の相互比較が必要となるのだ。

ネルソンがデータの変更履歴や過去の姿の再確認を意味する「歴史的な追跡(Historical backtrack)」を強調するのも、このためである。現在の枠組みで蒐集されているデータと別様の枠組みで蒐集され得るデータとの機能的な関連性を視覚化することは不可欠となる。そのためにネルソンが示唆するのは、データの様々なヴァージョン、類似した構造、別様の設計など、複雑化した諸々のデータの構造間における同一性と差異を強調することなのである。

この関連からハイパーテクスト記憶装置は、まず蒐集した資料同士を任意に連結させるための貯蔵措置として機能しなければならない。それは、過去のデータを瞬間単位で追跡可能にすると共に、そのデータを現在で蘇生できるように、時間を軸とした「索引(Index)」として機能する。このような記憶装置は、以前の状態の再構築が容易となる。これによりユーザーは、過去の知識を現在において再認することの負担を軽減することになる。同じデータの素材でも、その組み換え次第で別様にもあり得るヴァージョンを再構築することも可能だ。

それ故ネルソンのハイパーテクスト理論は、過去の出版物を新たな出版物に包摂することによって、恰もベンヤミンの批評方法の如く、新たな見解を柔軟に提示することを目標にするのである。

ワールド・ワイド・ウェブ

こうしたネルソンの構想は、1990年代に普及したティム・バーナーズ=リーの「ワールド・ワイド・ウェブ(World-Wide Web ; WWW)」へと受け継がれていった。WWWがネルソンのザナドゥ・ハイパーテクストシステムの一部を継承したメディアであることは間違いない。だがWWWとザナドゥのシステムとの間には、明確な差異もある。

ザナドゥのハイパーテクストにおいては、リンクは双方向的となる。加えてそのリンクの対象となるのは、文献の全体を収めたページではない。リンクは文献の一部に向けられる。

これに対してWWWは、ハイパーテクスト設計者が「アンカーリンク(anchor link)」として指し示した一方向のリンクのみを展示している。ユーザーの立場からすれば、WWWは単純明快であった。ザナドゥにおける文献のあらゆる箇所からあらゆる箇所への双方向的なリンクでは、WWWの場合に比べて、それぞれの関連性を把握することが困難になってしまう。

WWWは、URL(Uniform Resource Locator)とHTTP(Hyper Text Transfer Protocol)とHTML(Hyper Text Markup Language)で構成されている。念のために説明しておくと、URLとはウェブ上で提供されている情報とそれを提供しているコンピュータを特定するための形式に他ならない。HTTPとは、情報を送信するサーバと情報を受信するクライアントの間で、情報を送受信する形式である。そしてHTMLとは、マルチメディア情報を画面で表示する形式や、情報源に接続するための形式や、データの記述するための形式である。WWWのユーザーは、閲覧用ソフトであるブラウザ(Browser)を利用して、情報送信者がHTMLで指定した形式の通りに配列された情報を受信する。

WWW上でも、HTMLの配列に働き掛けるPHP(Hypertext Preprocessor)やHTTP通信機能を兼ね備えたAjax(Asynchronous JavaScript + XML)を駆使すれば、ヴァーチャリティの設計は可能になるだろう。アンカーリンクや動画像の動的な配列によって、「概念的な構造」と「感覚」に依拠した「枠組み」を設計することができるのである。

だがネルソンは、単純明快なアンカーリンクによりデータを関連付けていくWWWを容認してはいない。彼は、ザナドゥよりも単純な形式機能するアンカーリンク拡張していくWWWを「紙の模倣(imitation of paper)」という侮蔑的な言葉表現している。ネルソンによれば、絶えず途切れている一方通行のリンクと不十分にしか運営されていないヴァージョンやコンテンツで構成されているWWWは、ザナドゥのハイパーテクストの構想を矮小化したものに過ぎないという。

ザナドゥとWWWの差異

しかしWWW専門組織のみならず大衆にも受け入れられたのは、理由の無いことではない。ザナドゥでは、文献は一極集中型のサーバに保存される。何故なら、一極集中型として形式化しないことには、双方向性のリンクや「歴史的な追跡」に一貫性を保つことができなくなるためだ。それ故一度作成した文献は、作成者であっても取り消すことができない。データを変更するためには、データの「修正版」を再度アップロードしなければならない。

一方でWWWでは、サーバが分散している。ウェブに接続できる環境であれば、サーバは物理的な場所を選ばない。サーバを独自に開発することも許される。クライアントの増加と共に、自由にライセンスを取ることもできる。

セマンティック・ウェブ

だがHTMLタグで記述されているハイパーテクストは、コンピュータからすれば、可読可能(machine-readable)ではあっても、理解可能(machine-understandable)ではなかった。そこでHTMLで指し示されているデータにメタデータを付与することによって、コンピュータがその意味を自動で理解できるようにする「セマンティック・ウェブ(semantic web)」という技術が開発された。この技術はXMLの技術を応用したメタデータの記述形式であるRDF(Resource Description Framework)やテクスト間の関係を指し示すデータ記述言語であるOWL(Web ontology language)をはじめとした複数の技術によって成り立つ。

RDFは、主語と述語と目的語の関連付けによってデータモデルを構築する。主語はリソースとして、述語はプロパティとして、そして目的語はプロパティの値となるオブジェクトとして言及される。RDFでは、これらの関係を「有向ラベル付きグラフ(directed labeled graph)」で表現する。リソースとオブジェクトノードとなるなら、プロパティはアーク(arc)となる。逆に言えば、オブジェクトであったノード同時にリソースにもなり得る。一つのモデルで目的語として言及されるデータは、他のモデルでは主語として言及される場合もある。こうしてあるグラフにおけるプロパティと別のグラフにおけるリソースを連鎖的に関連付けることによって、ウェブ上に散在したデータを次々と構造化できるようになる訳だ。

尤も、一つのリソースが複数のプロパティと接続される場合は多聞に及ぶ。ただグラフを作成するだけでは、膨大なノードとアークの中で有意味なデータが埋もれてしまうことになるだろう。そこで、用語や語彙とそれらの関連性を明確に表現する技術が必要になる。

OWLはこの関連から注目を集めている。OWLという名称が表すontologyとは、単に哲学者が論じる存在論という意味ではない。セマンティック・ウェブの世界では、ontologyは推論規則や分類体系を意味する。共通の分類体系で整理されたデータを共通の推論規則で分析することによって、コンピュータは高い精度で分析対象世界の知識を処理することが可能になる。

OWLは、基本的にクラス(class)という概念でデータを整理する。ここでいうクラスとは、ウェブ上に存在する事物を意味する。個々に表記されたクラスには、データの意味や属性や関係性を指し示す機能がある。OWLの表記は、クラス間の異同、クラスのプロパティ、プロパティの形式などを定義する文法規則によって記述される。クラスは抽象的な概念を説明する表記だ。OWLでは、個別具体的な事象を説明するために、このクラスをインスタンス化することもできる。例えば「スマートフォン」というクラスがあれば、Androidはそのインスタンスとなり得るだろう。

セマンティック・ウェブの様相論的な限界

しかし、セマンティック・ウェブ設計思想には看過し難い問題も含まれている。セマンティック・ウェブは確かに機械でも理解可能なメタデータの形式化に貢献していると言えるだろう。だがセマンティック・ウェブ蒐集可能になるのは、現実で利用されている意味処理規則に準拠したデータに限られる。これでは、意味という概念をあまりにも矮小化してしまう。セマンティック・ウェブは、現実に付与されたメタデータの通りにデータの意味を指し示すことができる。その一方で、セマンティック・ウェブ意味処理規則可能性に対しては沈黙せざるを得ない。

これは、セマンティック・ウェブの様相論的な限界を意味している。例えばRDFの文法上、リソースとプロパティとオブジェクトの関連性が全く変化しないのならば、そのグラフAが指し示すのは、常に同一のメタデータだということになる。たとえこのグラフAとは一切接続していない全く別のグラフBがその編成を変化させていたとしても、このグラフAは同一の意味を指し示す訳だ。グラフAが別様の意味指し示し始めるのは、そのグラフAのリソースやオブジェクトが別のグラフXのノードと関連を持ち始めた時である。

しかし、グラフAのリソースやオブジェクトとは無関係なグラフBが更新されたとしても、グラフAはその影響を受けているはずだ。グラフBの更新時、確かにグラフAはこの更新による影響を受ける対象としては選択されていない。だが、言い方を変えれば、「非影響範囲」としては選択されている。更に言い換えるなら、グラフBはグラフAに対して「影響を与えない」という影響を与えている。

あるメタデータがメタデータ足り得るのは、<そのメタデータが指し示すデータ>と<そのメタデータが指し示さないデータ>との間に差異構成されているためだ。様相論理学的に言えば、定義上、メタデータが<指し示すデータ>を指し示すのは必然である。一方そのメタデータにとって、<指し示さないデータ>は偶発的だ。データの母集団が増大した場合や別途でメタデータが定義された場合、<指し示さないデータ>も変異する。するとそのメタデータは、<そのメタデータが指し示すデータ>と<そのメタデータが指し示さないデータ>との間に構成されていた差異を再度吟味しなければならなくなる。何故なら、<指し示さないデータ>が変異し続けている以上、その中に<指し示すデータ>が生成されている可能性否定できないからだ。もし<指し示さないデータ>の中に<指し示すデータ>が含まれたまま放置されているのならば、そのメタデータはメタデータとしての性質を喪失することになる。

故にメタデータは、絶えずこの差異を再構成し続けなければならない。しかしセマンティック・ウェブは、そのようには設計されていない。グラフAが変化するのは、そのグラフAと関連付いているグラフXが変化した場合か、グラフAそれ自体が変化する条件が整った場合のみだ。<非関連>という形式で関連付いている別様のグラフBが変化しても、グラフAは無反応に終わる。

機能的拡張案:人工知能

Webクローラは、基本的に上述したセマンティック・ウェブの文法で記述されたハイパーテクストのメタデータを読み解くことで、そのハイパーテクスト内容を把握する。そしてWebクローリングとWebスクレイピングを施したHTMLに含まれているハイパーリンクを辿ることによって、次のハイパーテクストへと読み進めていき、網の目を渡り歩く蜘蛛(spider)の如く、文書から文書へと渡り歩いていく。

これを「検索エンジン」へと応用する場合には、Googleの創設者たちによって設計されたPageRankアルゴリズムのように、各Webページを順位付けるアルゴリズムが必要になる。何故なら、いざキーワード検索された際に、そのキーワードにマッチする複数のWebページのうち、どれを優先して表示するべきなのかを判断しなければならないからだ。PageRankの初歩的な発想では、この判断基準が各Webページの重要度によって導入された。あるWebページの重要度は他のWebページから貼られている当該Webページへのハイパーリンクの個数によってスコアリングするというのが、このアルゴリズムの基礎となる。

しかし被リンク数で各Webページの重要度を計測しようとした場合、検索エンジン最適化(Search engine optimization: SEO)における不正行為によって容易にスコアを偽装できてしまう。故にPageRankアルゴリズムはあくまでも基礎的な発想でしかないというのは、留意しておくべきことだ。実際には、こうした不正行為や日々量産される新たなWebページへの対策として、様々なアルゴリズム設計され続けている。

主題の抽出機能としての文書自動要約

異論を受け付けない事柄として、「何か」を主張することが貢献となるような主題として、問題設定の対象となる諸概念こそが、偶発性定式として機能する。抽象性や一般性が高い一方で、個別具体的な状況での出現頻度の高い主題を抽出する上では、文書の「自動要約(Automatic summarization)」が欠かせない機能となる。

インタルジット・マニらが的確に整理しているように、自動要約アルゴリズムの主導的差異は「抜粋(extract)」と「抄録(abstract)」の区別として導入されている。

「抜粋とは、入力情報から複製された資材の全体を含めている要約である。それ故、25%の圧縮率である典型的な抜粋は、文書の資材の25%の部分を提供している。このことから、文書の25%の語か、文書の25%の文か、あるいは文書の25%の段落などが思い付くであろう。」
Mani, I. (2001). Automatic summarization (Vol. 3). John Benjamins Publishing, p6.

「これに対して、抄録とは、入力内容には表れない資材を多少は含む要約である。典型的には、抄録は入力内容のある程度の言い換えを含めている。一般的には、抄録は高程度の凝縮の可能性を提供する。すなわち、短い抄録は長い抜粋よりも多くの情報を提供するのである。(抜粋と同じように、抄録も完全な文で構成される必要は全く無いが、通常は完全な文として構成される。)」
Mani, I. (2001). Automatic summarization (Vol. 3). John Benjamins Publishing, p6.

抄録は、更に「指示抄録(indicative abstract)」と「詳細抄録(informative abstract)」に区別される。

「指示抄録は、より深く読む文書を選択するための参照機能を提供する。そのため、指示抄録はその情報を読み込むか否かを決定しようとするユーザーの手助けになることを目的とする。これに対し、詳細抄録は幾つかの詳細度に応じた情報源に含まれる顕著な情報の全てを担う。」
Mani, I. (2001). Automatic summarization (Vol. 3). John Benjamins Publishing, p8.

この指示抄録と詳細抄録の区別は、指示抄録、詳細抄録、そして「批評抄録(critical abstract)」の区別拡張される。

「批評抄録は、原文の主題を評価することで、著者の著作の質に関する抄録の制作者の視点を表現する。」
Mani, I. (2001). Automatic summarization (Vol. 3). John Benjamins Publishing, p8.

そのため、批評抄録には主題に対する意見やフィードバックなど、原文にある以上の情報をもたらす。この意味で、批評抄録は自動要約システム機能的な範囲を少し逸脱しているとされる。

マニのガイドラインに従えば、抜粋に基づいた自動要約妥当性検証は、抜粋した個々の自然文に対するスコアリングによって実施されていた。H.P.エドモンドソンが1960年代に古典的なパラダイムを提唱して以来、この傾向は続いている。エドモンドソンは、手掛かり語やキーワード、あるいは文の位置などといった素性に焦点を当ててスコアを割り振っていた。後続の研究者たちも、このパラダイムを叩き台とすることで、様々なアルゴリズムを提案している。要するに、如何にして重み付けを施すかが、抜粋に基づいた自動要約の鍵となっている。

しかし、全ての要約に対して抽出が妥当となる訳ではない。人間が読もうと思うような要約の長さには限度がある。そのため、ページ数の多い本や文書数の多い資料などのような長い題材では、非常に高い圧縮率が求められる。更に、複数の文書を要約する場合は、文書間の差異類似性特徴付ける必要がある。そのため、要約器は単なる抜粋以上である必要がある。そして、人間の抄録作成者たちは、抜粋ではなく抄録を作成している。抄録は、原文の情報の再構成一般化、特化によって成り立っている。

尤も、抄録の自動生成もまた長らく研究され続けている。手掛かりを探し出すのも容易い。例えば簡単な抄録のテンプレートを用意しておいて、対象文書から抜き出した重要語や頻出語をそのテンプレートに埋め込んでいくという方法も、立派な抄録生成方法である。もう少し自然言語処理風な方法を取り上げるなら、Wordnetのように概念階層が記録されているコーパスを参照するのも、方法の一つであろう。こうしたコーパスは、特定の主題において、汎化されたテクストと特化されたテクストの関連を検索することを可能にする。

文書の抽出の技術

ハロルド・P・エドモンドソンの古典的研究は、自動要約における抽出技法の研究を基礎付けている。エドモンドソンは、化学を主題とした200の科学論文のコーパスを使用した。各論文は100 ~ 3900語の長さとなっている。彼はこれらのコーパスから、特徴を次のように区別している。

  • 手掛かり語(cue words)
  • タイトル語(title words)
  • キーワード(key words)
  • 文の位置(sentence location)

文の位置以外の語は、ストップワードを除外した上で選抜されている。手掛かり語はコーパスの訓練データの部分集合から選択される。一方、その他の特徴は要約の対象となる文書から選択される。タイトル語は、主題、副題、見出し語など、文書に含まれる単語である。各タイトル語には、最良の性能を伴わせるべく、人手で重み付けされている。この有人処理の前提にあるのは、著者が情報量のあるタイトルを採用する傾向があるという想定である。

手掛かり語は、コーパス頻度を前提に訓練用コーパスから抽出される。この語は、「ボーナス語(bonus words)」と「スティグマ語」に区別された上で参照される。この区別は、エドモンドソンによれば、正の関連(positively relevant)と負の関連(negatively relevant)の差異に対応する。ボーナス語は、抽出対象の選択の根拠として参照される。該当する単語となるのは、閾値を超えるコーパス頻度の高い単語となる。例えば、significant、impossible、hardlyなどのような単語は、文を抽出すべきか否かの選択に影響を与えるであろう。他にも、比較級(comparatives)、 最上級(superlatives)、結論に関する副詞(adverbs of conclusion)、価値の用語(value terms)、 関係疑問視(relative interrogatives)、因果関係の用語(causality terms)が該当する。

これに対してスティグマ語とは、抽出対象として選択しない根拠として参照される。該当する単語となるのは、ボーナス語とは逆に、閾値を下回る単語となる。スティグマ語は、照応表現(anaphoric expressions)、卑下する表現(belittling expressions)、無意味な詳細表現(insignificant-detail expressions)、言質を与えない表現(hedging expressions)で構成されている。ちなみにエドモンドソンは、ボーナス語にもスティグマ語にも属さない語をNull語(Null words)と呼んでいる。いずれにしても、文書が単語単位で分解されていることは、マニも述べているように、注意しておくべきであろう。

一方、文の位置という特徴は、二つの方法から観察される。一つ目の方法は、節見出しのリストを人手で構築していく方法だ。例えばこの方法では、文は「概要」、「本文」、「結論」などのように、見出しごとに重み付けていくことで特徴付けられる。二つ目の方法は、文中の順序を参照する方法となる。とりわけ最初の段落や最後の段落に出現する文には正の重み付けがなされる。

抽出は、上述した4つの特徴をそれぞれ重み付ける次のような線形関数に準拠している。

$$W(s) = \alpha C(s) + \beta K(s) + \gamma L(s) + \sigma T(s)$$

ここで、Wは文sの総合的な重みで、Cは手掛かり語、Kはキーワード、Lは文の位置、Tはタイトル、C(s)は文sに対するCの重みを意味する。各重みと調整パラメタα、β、γ、σは、有人で作成されている。これらは訓練データの抜粋との比較からフィードバックを得ることで調整されている。

マニはこの線形関数を再解釈することで一般化を試みている。例えばC(s)は、ボーナス語やスティグマ語を含めるように一般化することができる。また、要約の対象となる文書の性質は、その文書が言及している領域によって異なる。そうした特定の領域には要約の手掛かりとなる「句」が存在している。そうした手掛かり句を収集しておけば、それが要約の判断材料となる。

K(s)は、文書を特徴付けるキーワードとの関連から、比較的頻繁に出現する用語は顕現的であるという想定に基づいた指標だ。あるトピックに関する文書ならば、そのトピックに対する多くの参照を期待できる。伝統的には、機能語やストップワードを除外することで文書の内容語を発見する方法が提案されてきた。そうすることで、頻度の閾値が設定された。この閾値が指し示しているのは、用語の重要度はその出現頻度に相対的に比例するということであった。

L(s)は、位置の特徴である。顕現的な文は段落の最初の文や最後の文として出現する傾向にあるなどといった位置情報は、この指標の基礎的な概念となっている。ただしこの情報は、文の構造に左右されてしまう。新聞や論文のように段階的に構造化されている文書であれば、定量的な比較は容易であろう。しかし、逸話風の興味を惹くことを目指した文体では、この限りではない。顕現的な文の出現場所はその文書の構造に依る。

最後に、T(s)は、タイトルや主題、記事の大見出し、ユーザのプロファイル、クエリ中に存在する用語などの要因に基づいて文sに割り振られる加算用語の重み付けである。このことから、読み手に左右される場合の要約にも応用が利くことがわかる。と言うのも、ユーザの焦点に合う主題やトピックであればこの重み付けを強め、逆に焦点に合わない主題やトピックであれば、この重み付けを弱めることで調節することが容易であるためだ。

以上のようなエドモンドソンのパラダイムは、文書自動要約方法論を探究する上での出発点となっている。基本的にこのパラダイムの派生問題を解決していくことが、文書自動要約の研究を方向付けているとも言えよう。実際、マニも指摘しているように、エドモンドソンの方法論には幾つかの陥穽がある。

方法論的陥穽の一つは、要素列ではなく一つの要素のみを単独で抽出してしまう点にある。文と文の間には談話構造的な言語関係がある。これによって、一貫性の無い要約が得られる可能性がある。例えば、同じことが次の文で議論されている場合、要約の冗長性が増してしまう。あるいは、文の代名詞が要約した文中には含まれない前文を抽出してしまっているかもしれない。こうした可能性を考慮するなら、ある特定の文を抜粋した場合、その抜粋が後続の抜粋に影響を与える構造が必要になる。

線形関数圧縮率に言及していないのも問題であろう。圧縮率は要約の精度とトレードオフの関係で結び付いている。だが上記のモデルはこの指標と紐付いていない。例えば、文書中で最も顕現的な概念であるAが、s1とs2の双方によって漸く意味付けられる場合、最低二つの文を抜粋して要約する場合であればAに対応できるが、一つの文のみを抜粋して要約しなければならない場合には、Aを表すことができない。高い圧縮率で要約することには、概念の意味を削ぎ落すリスクが伴う。逆に低い圧縮率で要約しようとすれば、要約文章が冗長的になるリスクがある。このことから、適切な要約率すら計算可能にするパラダイムが必要になる。

次に挙げられるのは、この方法論の前提にある一次方程式では、強力な要約のモデルとはならない場合があるという点である。上述した圧縮率を含めたモデルを設計するには、より高い複合性が要求されるかもしれない。そうした場合に、非線形のモデルが用いられる場合もある。

他にも、文の位置と文の形態素水準の特徴だけを参照していることや、モデルがアドホック過ぎる点もまた、このパラダイムの限界となっている。単語水準でのモデル化では、構文、意味、談話水準での特徴盲点となる。そして上記の線形関数経験的な研究によってモデル化されている。しかし、何が要約を要約たらしめているのかについては、何も理論的に興味深いことは述べていないのである。

要約精度の比較の観点としてのCombined match

マニは、自動文書要約された文の精度に対する比較の観点を導入する上で、特に抄録の検証に用いられるCombined matchという方法を取り上げている。文書の自動要約でコーパスを利用する場合、原文書と訓練要約文書との類似度を計測することによって、その要約の精度を把握することが可能になる。ただし、自動要約は抜粋(extract)と抄録(abstract)に区別される。それぞれにおいて、原文書との比較の観点が異なってくる。

原文書と訓練抜粋文書との比較の場合、文の位置情報に基づくため、比較的単純だ。例えば、ラベリング対象となる要素が文で、要約が抽出された文の系列である場合、特定の文の系列番号が抜粋された要素の中に含まれているか否かを検証することで比較することができる。更に言えば、抜粋された要素の系列番号を参照できない場合も想定できる。その場合は、文書の類似計算で参照されるような、Jaccard係数、Dice係数、Simpson係数をはじめとした係数を利用することで文の比較の観点を設定することができる。

一方、訓練要約が抄録としての要約である場合、比較の観点は複合的になる。マニらは、こうした場合の抄録をある種の「クエリ(query)」として参照することで、文書中の文を抄録との類似性によってランク付ける方法を提案している。このランク付けにおいては、二つの異なる語彙の重なり合いの測定が用いられる。発想としては、全体的に所与の抄録との類似度の高い文を抽出するという方法になる。利用する尺度は、次のようなコサイン類似度の変形型となる。

$$sim(x, y) = N_1 + \frac{\sum_{i=1}^{N_2}x_iy_i}{\sqrt{\sum_{i=1}^{N_2}(x_i^2)\sum_{i=1}^{N_2}(y_i^2)}}$$

ここで、$$x_i$$は文xにおける単語iのTF-IDFの重みとなる。$$y_i$$は文yにおける同様の重みとなる。このyには抄録の文が代入される。

$$N_1$$はxとyに共通して出現する単語の個数を表す。一方、$$N_2$$はxとyの総単語数である。

要約精度の比較の観点としてのIndividual-match

Combined matchの代替案として挙げられるのは、Individual-matchである。この方法では、各原文が抄録の各文とそれぞれに比較される。その際、抄録の文との最長原文文字列一致(longest source string match)に基づいた類似度が計算される。Combined matchとは異なり、原文の中から、抄録のいずれかの文に非常によく似ている文を抽出するという発想だ。極端な場合、抽出された抜粋文は、抄録の文と全く同じであることもあり得る。こうした観点から言えば、この方法によって生成される要約文は、抄録と類似した複数の文から成る。逆に言えば、原文の特徴をよく表す文であっても、抄録との差異が大きければ、抽出の対象外となる。

要約文の抽出に実際に制作済みの抄録を参照する方法は、抄録との類似性に対する相対評価によって原文を選抜する仕組みとなる。したがって、この方法は要約文の候補を絞り込む上でも機能する。言い換えれば、抄録との類似性の低い文を要約における有用性の無い文として除外する上でも、この方法機能する。

教師あり学習による文書要約

文書自動要約は、しばしばフィルターによって実行される。例えばジュリアン・クピークらが提案していたベイズフィルターによる自動文書要約の学習アルゴリズムは、この一例として挙げられる。

クピークらの成果は、機械学習による自動文書要約を研究する者たちによって標準的に参照されている。クピークらが設計したのは、各検証用の文が要約として抜粋されるべきか否かの確率計算するアルゴリズムだ。彼らが使用したコーパスは、21の異なる科学論文集から作成されている。それらは188個の「全文と要約の組み合わせ」から構成されている。各要約は、専門の抄録作成者によって記述されている。平均的な文の長さは3文程度であった。

実験時、次の特徴が参照されている。

  • 文の長さ
  • 手掛かり句
  • 文の位置情報
  • 固有名詞

これらの特徴は、文書の自動要約における抜粋のための抽出技法で取り上げたエドモンドソンのパラダイムで登場する特徴と一部重複している。だが厳密には若干の差異がある。例えばここでいう手掛かり句とは、「in summary」などのように、結論などのような特定の節の最初の文をはじめとする句であった。また文の位置情報として参照されたのは、段落の最初、中間、最後か否かであった。

クピークらが設計したベイズフィルターアルゴリズムは次の通りだ。

$$P(s \in E|F_1, …, F_n) = \frac{\prod_{i=1}^{n}P(F_i|s \in E)P(s \in E)}{\prod_{i=1}^{n}P(F_i)}$$

左辺は、文のn個の特徴に関する確率表現している。各特徴二値となる。これらの二値特徴が与えられた時、原文の中の文sが抜粋Eに含まれる確率が、左辺となる。$$P(F_i|s \in E)$$は、抜粋された文に特徴$$F_i$$が出現する確率を表している。一方$$P(F_i)$$は原文のコーパスに特徴$$F_i$$が出現する確率を表している。

この学習アルゴリズムで検証用文書の自動要約を試行したところ、要約が長くなるに連れて性能も向上したという。例えば全ての文字列の長さの25%の要約によって84%の文の再現率を達成している。

抽出技法の限界

マニは、抜粋と抄録の区別を導入した上で、抜粋のための抽出に関する方法論上の限界を纏め上げている。抜粋のための抽出の方法は、経験的に評価されてきた単純な手続きを提供する。一般的には、文の位置情報と手掛かり句の特徴が抽出において最も有用になるようだ。この方法に準拠する自動要約システムは、コーパスによって比較的容易に学習できる。そしてこの方法は、文よりも細かい形態素水準においても、あるいは逆に文以上の水準においても、同様に応用することができる。

しかし、抜粋と抄録の差異を前提とした場合、抄録の最も重要な側面となるのは、抄録の制作者が自分自身の言葉で原文を言い換えていることではない。むしろ重要となるのは、ある水準の原文の抽象化を実行することで、ある程度の圧縮が可能になるという要因である。

このことは、主題化されている情報意味に関する知識や、意味水準での推論能力を必要とする。抽出の方法には、少なからずその抽出対象についての知識が要求される。結局のところ、特定の領域に関する知識は、その領域に固有の特徴となる。例えば統計情報を指し示す記事における数値の特徴は、統計に固有の特徴となるだろう。またそうした特徴は、その領域に対して学習された特別な規則や関数表現される。

しかしながら、この類の知識はその領域において内在的である。出力によって明示されるのは、全て入力の構成要素である。これを前提とすれば、抽出の方法には根本的な陥穽がある。構文的にも意味的にも、任意の「集約」や「一般化」が欠落しているのである。

確かに自動要約において、抜粋と抄録の区別を導入するなら、抜粋は比較コンピュータで処理し易い。何故なら、抜粋の場合、プログラムで新たなテキストを構成しなくても良いからだ。

抜粋は、テキストの抽出によって成り立つ。抽出の実装は困難ではない。抽出は、抄録を構成するのに必要な付加的な知識源と比較して、コストの低い方法である。ここでいう知識源とは、ある程度の一般化を提供する概念体系や、文の意味を構築してテキストを生成する場合に特に必要な言語知識を意味する。

抽出の方法で要求される解析は、表層的な解析として特徴付けられる。ほとんどの解析は、単語程度か、より小さなセグメントを対象にする。談話水準の情報は、使用されるとしても、ほとんどが固有名詞間の参照を確定するためか、あるいは代名詞の解読のために利用されるだけだ。

しかし、全ての要約に対して抽出が妥当となる訳ではない。人間が読もうと思うような要約の長さには限度がある。そのため、ページ数の多い本や文書数の多い資料などのような長い題材では、非常に高い圧縮率が求められる。更に、複数の文書を要約する場合は、文書間の差異類似性特徴付ける必要がある。そのため、要約器は単なる抜粋以上である必要がある。そして、人間の抄録作成者たちは、抜粋ではなく抄録を作成している。抄録は、原文の情報の再構成一般化、特化によって成り立っている。

抽出の基本単位となる要素は「文(sentence)」である。段落やトピックに対応するテキストのセグメントが基本単位になっていないことには、実用上の理由と言語学的な理由がある。実用上の理由は、圧縮率に対するより良き制限を課せられるからだ。例えば長すぎる段落は、要求される圧縮率を超える抜粋を構成する原因となるかもしれない。

段落よりも文単位の抽出を好む言語学上の理由は、記述されているテキストにおいて固有であって、出版や書式の制約も反映させているからだ。一方、「文」は様々な種類の段落や文書とは異なって、構文、意味、解析の重要単位を担ってきた。とりわけ意味の論理的な記述は、文の意味の正確な概念を提供する。例えば文は論理式で表現される。それは命題を意味すると解釈される。こうした概念は、談話全体にまで拡張できる。

抽出の単位にトピックを採用するという選択肢もあるだろう。しかし、トピックという概念は抽象度が高く、長らく特定することが難しいとされた。単語、句、節のように、文を更に分解することで得られる要素もある。だがこうした要素を対象とした場合、抜粋はしばしば断片的となってしまう。要約が原文の有意義な情報提供を目指すものならば、原文に登場するキーワードを処理する程度で満足してはならないのである。

単一文書要約と複数文書要約の差異

文書自動要約の対象となる文書は、「文」で構成されている。多くの文書において、この「文」は決して単一ではない。それ故に文書自動要約方法論は、「複数文書要約(Multi-document summarization: MDS)」へと応用されている。定義上、MDSは単一の文書要約の拡張となる。WWWセマンティック・ウェブの爆発的な拡大によって、膨大な文書をWeb上で取得できるようになったことから、複数の文書の共通性差異性を比較した上で要約する技術の必要性が増した。一目で多数の文書の主題を把握できるようになることの有用性は高い。

新聞やテレビ番組、ブログ記事やソーシャルネットワークなどのような電子メディアが普及すれば、一つの主題を反復的かつ冗長的に取り上げられることも稀ではなくなった。これにより、類似した情報源が何度も再利用されることになる。そのため、玉石混交の有象無象の中から、関連文書間の共通性や一定の主題におけるそれぞれの文書の差異を要約することが要求されるようになる。いわゆる「キュレーションサイト」は、この問題設定に対する「手動」による解決策の一例となっている。

複数文書を対象とした抄録(abstract)の制作は、専門家による要約作成とは厳密に区別される。例えば論文の要約(abstract)は、当該論文の要約に過ぎない。別の論文の要約は、その論文の主題それ自体というよりは、関連研究や先行研究の概要に言及する場合に記述される。それは精々論文の冒頭部で取り上げられるのであって、当該論文の要約に登場することはあまりない。

複数文書要約の問題設定の背景にあるのは、こうした伝統的な専門家による要約ではなく、WWWセマンティック・ウェブ、あるいは比較的最近で言えば「ビッグデータ」との関連である。複数文書の総データ量は、単一文書要約の対象になるような文書の比ではない。それは逆に言えば、要約時に求められる情報圧縮率が、複数文書を対象にした途端に跳ね上がるということだ。この圧縮を成し得るには、複数の文書のそれぞれを逐次的に取り上げるような要約手法ではなく、それぞれの文書を横断的に観察することで、共通性差異を抽出し、場合によってはそれぞれの情報を融合し、文を合成しなければならない。

したがって、複数文書要約と単一文書要約は、問題設定からして全く別物であることは、初めに留意しておくべきであろう。言い換えれば、単一文書要約の問題解決策は、複数文書要約の問題設定では有用ではないのである。複数文書要約の問題設定においては、また新たな機能する問題解決策を探索しなければならない。

単一文書要約の問題解決策を選択してしまった場合の盲点となるのは、複数文書間の冗長性に他ならない。類似する複数の文書を順番に一つずつ要約して並べれば、類似した要約文書が冗長的に配列されるだけだ。故に要約以前の前処理として、類似する文書をクラスタリングしておくことが要求される。クラスタごとに要約していくことによって、予め冗長な要約を繰り返す可能性を低めておかなければならない。

文書間の冗長性の検出

マニのガイドラインに従うなら、複数文書要約において重要となるのは、文書間の冗長性を予め特徴付けておくことである。幾つか例示しておこう。

意味的等価性

二つの文書の諸要素が同一の意味を有する場合、それらは意味的に等価(semantic equivalence)となる。ここでマニは、各諸要素が同一条件で真である場合に限り、それらが意味的に等価となると仮定している。他の文書と意味的に等価である文書は互いに冗長であると見做すことができる。

意味的等価性は、二つの要素が文字列としてどのように表現されているのかには依存せずに同一の意味を持つことを意味する。任意の意味的に等価な要素は互いにパラフレーズの関連にある。

文字列同一性

二つの文書に含まれる文字列が厳密に同一である場合、それらは文字列的に同一(string identity)となる。形態素に分解したリストや配列の諸要素が全く同一である場合も、これに該当する。

文字列同一性は、複数の文が反復的に記述されていることを意味する。この点でこの同一性は諸要素の重複関係を指し示す。

情報的等価性

二つの文書を読んだ人間が同一の情報を有していると判断できる場合、それらの文書は情報的に等価(informationaly equivalence)となる。この等価性もまた冗長性として把握して、要約時に除去することができる。

ポイントは、ここで初めて人間の判断が介在していることである。

情報的包摂

ある文書Aが別の文書Bの情報を包含している場合、AはBを情報的に包摂(informationaly subsumption)している。ここで、要素Aは要素Bの情報以上の付加的な情報を含めている。

この情報包摂概念は、集合の粒度に対する認識次第では、見解が分かれることがある。

文書間の差異の検出

冗長性は複数文書要約の問題設定における一側面に過ぎない。もう一つの側面として関連してくるのは、文書間の差異である。確かに意味的等価性と比較すれば、情報的等価性や情報包摂の関係は、一定の差異を指し示すことがある。だがいずれにせよこれらの指標は、ほぼ同一の時間軸で得られた同一の情報源を出発点としてしまっている。全くの未知の文書が既知の文書と如何に類似しているのかを計算するには汎化や近似が必要になる。

プロトタイプの開発:文書自動要約技術

ハンズ・ピーター・ルーンが60年以上前に提唱していた自動要約アルゴリズムが、近年『入門 ソーシャルデータ 第2版――ソーシャルウェブのデータマイニング』で紹介されていた。このアルゴリズムはルーンの文書要約アルゴリズムは単純明快で、相互に近接し合う状態で頻出する単語やトークンを含んだ文を抽出していくという手続きになる。しかし、『入門 ソーシャルデータ 第2版――ソーシャルウェブのデータマイニング』で紹介されているコードは、Python3の環境では動作せず、関数の粒度が粗く、そして日本語には対応していない。そこで、この問題の解消に向けて、再設計と再記述を試みた。

成果物については、GitHubのaccel-brain-code/Automatic-Summarizationに配置している。デモ用のPython Scriptsとしては、WebページやWeb上のPDFファイルのURLをコマンドライン引数に指定することで、対象文書の重要文を抽出することができる。これは典型的な抜粋による要約技術に過ぎない。だが対象文書の重要文を引用するというユースケースにおいては、十分に機能する。

スポンサーリンク