World-Wide Webの社会構造とWebクローラ型人工知能の意味論 | Accel Brain

World-Wide Webの社会構造とWebクローラ型人工知能の意味論

Accel Brain; Console×

派生問題:偶発性定式の発見探索は如何にして可能になるのか

ルーマンは、生態的なコミュニケーションという全体社会の様々な機能システムが目まぐるしく関連付いた複合的な問題に対する自身の社会システム理論を少しでも単純化して説明するために、「共鳴(Resonanz; Resonance)」という用語を用いている。それは、作動の閉鎖性を保持した自己言及的オートポイエーシス的なシステムが、如何にして外部環境から放たれた攪乱的な刺激を享受し得るのかを単純化して記述した概念である。システムは、自己言及的構成した自己自身の構造に条件付けられた上で、外部環境による刺激から影響を受ける。どのように影響を受けるのかは、システム自身が決める。構造的に結合しているシステム同士が相互に影響し合う場合においても、事は同様である。

物理学的に言えば、独立したシステム共鳴するのは、それ固有の振動数に準拠してのみのことである。それは神経生物学における構造的な結合と同じように、システム構成した<システム>と<外部環境>の区別の「選択(selection)」に準拠している。同じことは、社会システム心理システムにも該当する。確かに社会システム理論的に言えば、オートポイエーシス的で自己言及的システムが他のシステム共鳴することは、ありそうもないことであるかのように思える。それは偶発的であると解さざるを得ない。進化論的にても、社会はその環境に必然的に反応しなければならないという道理は全く無い。まさにその反応の選択こそが、社会的文化的進化可能にしてきたはずだ。

しかしながら、意味論的に観察するならば、社会システム心理システム構造は、とりわけ言語による構造的な結合を介して、絶えず同期的に活性化している。ある種の共起関連が発現しているのは、双方のシステム概念を抽象化し、汎化すれば認識可能になる。いずれのシステム「意味」構成するシステムである。それぞれのシステム意味処理規則は、歴史文化的に方向付けられている。そしてその形式となるのは、情報の継続的な意味処理である。それは、作動の閉鎖性を保持するシステムが、自己言及的に自らの内部環境に区別を導入することで、状態や出来事を観察する営みに準拠している。そうした状態や出来事が観察可能になることで、初めてシステム情報を見出す。

故に情報システムの内部で構成されている。外部環境にあるのは、精々データ程度だ。社会システム心理システム外部環境境界線で生起しているこうした情報処理は、実際には「意味」構成するシステムの内部で実行されている。したがって、複数の社会システム心理システム共鳴は、意味(Sinn)共鳴に他ならない。それは、構文や形式記号論的な指し示しに限らず、否定矛盾、あるいはこれらの潜在的な可能性によって構成された意味(Bedeutung)の揺らぎをも包含している。

一方、神経システムに関する生物学的な研究が明かしているように、共鳴の発動可能性が高まるのは、システム機能的代替可能性が低下した場合である。つまり、機能的に特化したシステムほど、共鳴能力を高めているのである。目や耳のような感覚器官、神経システム免疫システムは、進化の過程で試行された周波数の範囲でしか共鳴できない。

しかし、まさにその構造的な制約こそが、システム組織化された学習能力を与える。実際には、社会システムは多くの生態的な破局に直面している。全体社会は既に、直ぐにでも人類を滅亡させられるほどのテクノロジーを手にしている。だが、機能的な分化を成し遂げた近代社会の社会構造には、この事態に反応する余地があまりにも少な過ぎる。それぞれの機能システムは、二値コードプログラムによって構造的に制約された範囲でのみ、外部環境共鳴できるからだ。だがこのことは、単に共鳴が稀少であることを意味するのではない。「意味」構成するシステムという観点では、むしろ社会はその内部で様々な意味の揺らぎを体験している。「意味」構成するシステムの内部では、共鳴は過剰になっている。この稀少な共鳴と過剰な共鳴パラドックスは、システムの内的環境と外的環境の区別を導入することで、脱パラドックス化されるしかあるまい。

「意味」構成するシステム共鳴可能性共通して言えることは、とりわけその可能性言語的な構造で制約されているという点である。言語可能な事柄は、皆コミュニケーション主題にすることもできれば、意識的に思考することもできるであろう。しかし、我々が見聞きすることのできる対象範囲が狭いスペクトルに縛られているのと同じように、コミュニケーション思考もまた言語に束縛されている。そして、より重要かつ決定的なのは、そうした発話や記述が、連続的(sequentially)に秩序付けられてしまっているということである。だからこそ我々は、全ての主題について同時に言及することができないのだ。言語は、語彙、文否定の用などのような構造によって、複合性時間化する。複合性選択を強制するのだが、言語はとりわけその選択連続的に秩序付けられた選択になるように束縛するのである。

以上の社会システム理論を前提とすれば、如何に偶発性に曝された不確実な社会進化と言えども、それが言語的な構造による制約を受けて結実していると推論することができる。だとすれば、偶発性定式社会的文化的進化の兆候もまた、この言語的な構造において立ち現れるはずである。つまり偶発性定式社会的文化的進化は、それまで偶発性定式として主題化されてきた既成概念が、既存の言語的な構造による制約を逸脱することで構成されるということだ。

問題解決策:カルチュロミクス

エレツ・エイデンとジャン=バティースト・ミシェルが提唱した「カルチュロミクス(Culturomics)」は、偶発性定式社会的文化的進化可能性に対する言語観察という点において、データサイエンスを活用した具体例の一つとなるであろう。「カルチュロミクス」という名称は、ゲノム解析を意味するゲノミクス(genomics)に倣った造語で、膨大な文献資料を材料に語彙などの変化を定量的に分析して、文化の潮流や人類の営みを分析する学問を意味する。

言葉は、まるで化石のように、ページという地層の中に埋まっている。カルチュロミクスの研究者は、考古学者であるかのように言葉の化石を発掘しようとする。こうして研究者たちは、文化潮流を分析しようと試みているのである。

法則の例外に向けて

エイデンとミシェルは、マーテイン・ノヴァクが創設したProgram for Evolutionary Dynamics(PED)に思想的な影響を受けたことで、社会文化進化に強い関心を持ち始めた。手始めとして二人が取り組んだのは、定義や定量化が比較的容易な言語であった。言語文化の縮図であると共に、文化の伝達メディアでもあるためだ。

とりわけ二者の関心を惹き付けたのは、不規則動詞の文だ。言葉の使い方は文化影響に曝されている。西洋文化においても、例えばdirveのような動詞のように、一部の動詞は不規則で、その他の動詞は規則的に活用される。こうした動詞の活用差異は、何故、如何にして成立したのかが二者の探究の主題になった。

エイデンとミシェルは、言語社会的文化的進化を研究する上での手掛かりを求めた。そこで彼らは「ジップの法則(Zipf’s law)」が自らの研究方法の重要な背景知識となり得ることを発見する。この法則は、ジョージ・キングズリー・ジップが1937年の時点で既に実践していたデータ分析によって発見されている。それは文献における単語の出現頻度に焦点を定めた言語データ蒐集から始まった。ジップは集めたデータから各単語をその出現頻度に応じて順位付けてた。そこでジップは、単語の出現頻度とその順位が逆比例の関係にあることを発見する。順位の値が10倍になると、その順位に該当する単語の出現頻度が10分の1になるという訳だ。

ジップは当初小説を対象にこのデータ分析を試みていた。だがジップが後に直ぐ気付いたように、この法則新聞記事や様々な出版物にも当て嵌まる。そしてジップは膨大なデータから、各単語頻度分布が正規分布ではなく「べき乗分布」に従うことに気付いた。その原因については未だに判明していない。だが機能的るなら、この時点で既に「ジップの法則」には普遍性抽象が備わっていたと考えられる。

エイデンとミシェルはこの「ジップの法則」が所与の標準化された前提として受け入れる一方で、この法則の例外を探索することが社会的文化的進化の兆候を発見することに結び付くと考えた。先に取り上げた英語の不規則動詞は、まさにこの法則を裏切る傾向を示している。このことを説明するために、エイデンとミシェルは宛ら歴史意味論風の論調で英語の不規則動詞の変遷を取り上げている。

英語の不規則動詞には長い歴史がある。現代の研究者たちがインド・ヨーロッパ祖語と呼ぶ古の言語は、6000年以上前から使用されている。それは現代のドイツ語、英語、フランス語、スペイン語など、様々な言語に思想的な影響を与えてきた。この祖語には単語の時制的な変異を司る「母音交差(ablaut)」という規則がある。これは動詞に含まれている母音を変化させることで時制を変化させるという規則を意味する。例えばsingやringは、過去形ならばsangとrangに、過去分詞ならばsungとrungに変異する。これは語尾に「-ed」などの接頭辞を付加させる訳ではない。エイデンとミシェルは、この変異規則が不規則動詞の「化石」であるという。

「-ed」などといった接頭辞は、母音交差規則を絶滅へと追い遣る「隕石」となった。この隕石は、紀元前250年から紀元前500年ごろのスカンジナビアで使用されていたドイツ祖語に由来している。この祖語は、ドイツ語やオランダ語や英語をはじめとした現代のゲルマン諸語に多くの影響を与えている。このドイツ祖語自体はインド・ヨーロッパ祖語を継承して活用されていた。そのため母音交差の規則も受け継いでいた。だが後に新たに登場してきた動詞の中には、徐々に母音交差とは相単語も見受けられるようになった。そこでドイツ祖語使用者たちは、「-ed」という別の規則を考案した。つまりドイツ祖語においては、今で言う規則動詞の方が例外的であった訳だ。

しかしこの活用は、その利便によって、急速に普及するに至った。これが後の「デンタル・サフィックス(dental suffix)」となる。相対的に母音祖語に由来する不規則動詞は、文字通りその不規則ゆえの扱い難さによって、淘汰されることになった。それは単語が使われなくなるという意味ではない。従来不規則動詞であった単語が規則動詞として再設定されるということである。具体例は数多に挙げられる。例えば動詞のhelpの過去分詞は、今でこそhelpedだが、かつてはholpであった。

問題再設定:「如何にして可能になっているのか」という問題設定は、如何にして可能になっているのか

この歴史を前提とすれば、言語に対する進化論的な問題設定は容易となる。不規則動詞は、そのユースケースにおいて、規則化による淘汰の圧力に曝され続けている。helpのような単語はその圧力に屈した一方で、dirveのような動詞は未だに不規則動詞のまま生存しているという事態は、ある種のを提示している。すなわち、それが「如何にして可能になっているのか」を問うことができるのだ。

問題解決策:言語の歴史的意味論

エイデンとミシェルは、この問題設定に対する問題解決策として、中世から近代に至るまでの英語の文書を調査した。不規則動詞が規則化される淘汰の圧力は現在も続いている。だがある動詞が特定の期間内で規則化される確率は、その頻度に依存することを発見した。すなわち、不規則動詞の半減期(half-life)はその使用頻度の平方根に比例する。例えばある不規則動詞の100分の1の使用頻度しかない不規則動詞は、規則動詞化されるまでに要する時間が当該不規則動詞の10分の1になる。

この法則もまた機能的再利用可能性が高い。と言うのも、ある不規則動詞歴史データとして蒐集していれば、それをこの法則に当て嵌めることで、別の不規則動詞が規則動詞になるまでの経過時間を予測することが可能になるからだ。エイデンとミシェルによれば、driveという英単語は、今後も約7800年間は不規則動詞として生存し続けるという。尤も、それは英語という言語それ自体が生き残っていればという前提の下ではある。

問題解決策:ビッグデータ

2007年ごろには、エイデンとミシェルは上述した方法を応用することで、本の中の単語数を計測することでその背景にある社会的文化的進化の傾向を知ることができるという確信を持つことができていた。しかし、この方法を応用するには膨大なデータが必要になる。ただでさえこの時代は、GoogleやFacebookなどのような企業によって、ビッグデータ技術が普及しつつある時期であった。膨大なデータは目と鼻の先にある。だがそれは研究者に触れられる場所にある訳ではない。社会的文化的進化探索するためのデータは、今や大学や研究機関のような専門組織ではなく、企業所有している。だから研究者たちは、一方では権威として知の普遍的妥当性を保証する人格として讃えられながら、他方では企業に頭を下げてデータを貰い受ける境遇を甘んじて受け入れている。

こうした状況は、Googleをはじめとした企業による万物の徹底的なデータ化という潮流に端を発している。この姿勢をビッグデータの論者たちは「データフィケーション(Datafication)」という用語で取り上げている。データフィケーションという概念が指し示しているのは、ビッグデータの時代がデータ分析の一点張りとなるのではなく、そのための事前準備となるデータ蒐集と蓄積こそが重要となるということだ。

Dataficationとは、直訳すれば「データ化」で、データ化可能な対象を徹底的にデータ化していく思想を含意している。データフィケーションの一例として挙げられるのは、Google Booksだ。それは、あらゆる書籍を著作権で許される限りにおいてデジタル化して、世界中で誰もがインターネットを介して無料で書籍の内容を閲覧できるようにするシステムである。図書館と手を組んだGoogleは、自動で本のページをめくる特殊なスキャナを開発して、大量の書籍を自動でデジタル化した。

GoogleがGoogle Booksで図書館の書物を画像化するだけでなく、その中に書き込まれているテクストデータをも電子データ化しようと奮起する時、データフィケーションの思想が顕著に表れてくる。単に書籍の各ページをデジタル画像に変換してPDFファイルで展開する程度であれば、著者の著作権が切れた書籍を対象にした「プロジェクト・グーテンベルグ(Project Gutenberg)」が既に1971年から取り組んでいた。しかしGoogleは、それだけでは満足しなかった。更に光学文字認識(optical character recognition)を援用することにより、Googleはその画像データの中に埋め込まれているテクストデータをもコンピュータで処理できるようにしたのである。

テクストデータ化されたことで、本の内容を対象とした文章の索引作成や検索も自動化できるようになった。文字の出現頻度や分布状況を統計的に解析することも可能になった。特定の単語やフレーズが初めて登場した年代や人気が出た時期も推定できるようにもなっている。

n-gram

だがこのデータフィケーションの思想は、決して容易に受け入れられてきた訳ではない。著作権侵害という的問題との相対は不可避であった。エイデンとミシェルはGoogle Booksのデータを研究のために利用したいと考えたが、ビッグデータを他者に公開することによって派生してしまう的問題に直面することになった。

そこでエイデンとミシェルは、自分たちの分析方法がGoogle Booksの全データを必要としている訳ではないということを念頭に置いて、それぞれの本における単語の出現頻度とその本が記述された年代だけでも貴重なデータとなり得ると考えた。これならば、ビッグデータの全ての公開を求めずに済むために、著作権などの的問題を回避できる。だが、データサイエンスや統計学方法を利用すれば、一部のデータから全体のデータを予測できてしまう恐れもあるかもしれない。そこでエイデンとミシェルは、出現頻度極端に少ない単語についてはあえてデータセットから除外することによって、全体のデータの復元を理論上不可能とした。

かくして、エイデンとミシェルはGoogle booksのデータを手に入れることになる。そして、このデータに基づいて制作された単語の年代別使用頻度検索システムn-gram命名する。エイデンとミシェルはこの検索システムを利用することで、例えば世間から名声を浴びた個人の名前、思想統制的な検閲の対象となってきた言葉、あるいは「ルシタニア号事件」や「パールハーバー」などのような社会的な記憶の対象となるような出来事や状況に関する言語歴史的変遷を探索している。

蒐集と分析の対象をn-gramデータに限定すれば、著作権による保護を脅かすことはあり得ない。また、不規則動詞の研究が例示するように、一つの単語の出現頻度を定量化するだけでも、我々は多くの発見を手にすることができる。単語の出現頻度を集計することは、コンピュータを利用すれば簡単にできてしまう。

加えてエイデンとミシェルの研究は、企業にとっても有用であることがわかる。と言うのも、単語や句の使用頻度を分析すれば、人々の意識思考過程を知るための効果的な切り口が得られる。それは検索サービスを基盤に設立されたGoogleのようなデータ駆動型の企業にとっては、とりわけ魅力的なツールとなる。マスメディアのような機能システムからても、カルチュロミクスの研究結果は有用な情報を提供するであろう。個人名の知名度を定量化することができれば、パパラッチも誰を追い掛け回すべきかの判断に迷うことも無くなるはずだ。

機能的等価物の探索:Webクローラ

カルチュロミクスは、Google Booksに象徴されるような的制約の他にも、歴史的な制約を受けている。と言うのも、カルチュロミクスが対象にし得る文献の大半は、19世紀以降の西洋文化である。それも特に、識字(literacy)の率の高い文化に限定される。

上述した問題設定との関連で言えば、分析すべきなのは西洋社会の過去の傾向だけではない。社会的文化的進化は、未来で起こり得る出来事だ。我々は社会的文化的進化の軌跡を発見探索するだけではなく、その兆候を予測しなければならない。

だとすると、n-gramのような自然言語処理方法否定する必要は無いにせよ、そのメディアをGoogle Booksやその他の「書物」に限定することには全く何の必然性も有用も無いということを弁えておくべきであろう。実際、ウェブ上にはリアルタイムで次々と新たなハイパーテクストが生成され続けている。これらの言語を対象とすれば、社会的文化的進化の兆候を読み解くことも不可能ではない。

ハイパーテクスト

ハイパーテクストの直接的な創始者とされるテッド・ネルソンは、かつて「ザナドゥ・ハイパーテクスト・システム(Xanadu hypertext system)」を考案していた。彼が目指したのは、文献の中から様々な要約を選別した上で、その保存や提供を可能にすることであった。

ネルソンがハイパーテクスト期待したのは、言わばこの文献の相互テクスト的な接続可能性形式化させるためのメディアとしての機能である。この目論見のためにネルソンが不可欠と考えたのは、複製技術のコピー機能に依拠した記憶装置の設計だ。複製技術のコピーには、構築したデータの安全を確保する「セーフティ・コピー(safety copies)」としての機能と、過去のデータ検索する「追跡(backtrack)」としての機能が帯びている。あるデータ処理がどのような状態であったのかを保存しておけば、エラーや失敗をデバッグすることも、以前の状態に関して再考察することも、容易くなるであろう。

しかしネルソンは、あらゆるデータを恣意的にコピーしてしまうようなコンピュータでは満足しなかった。それでは、僅かな変更点や追加点を繰り返し提示しても、元の部分が冗長的に繰り返し記録されてしまう 。過去のデータ処理に無駄が生じてしまっては、その履歴がユーザーに過剰な刺激を与えてしまう。そうなればユーザーは、いざ過去のデータを遡及する時に、データの洪水という過負荷に曝される。

それ故ネルソンは、情報処理やデータ処理における基本的な構造を見直した上で、「ヴァーチャリティ(virtuality)」という概念に直結した代案を提出した。ヴァーチャリティの設計においては、思い付いた瞬間に欲しいデータ蒐集し、視た「瞬間」理解することを可能にする「概念的な構造(conceptual structure)」と「感覚(feel)」が重視される。この設計に方向付けられたユーザーは、恰も猫が獲物に「飛び付き(Pounce)」、獲物の一部を刈り取るかのようにデータの「断片」を切断することが可能になる。

データの「断片」を切断することが重視されるのは、可能データ選択を限定するためである。特にネルソンはこの問題を「枠組みの問題(framing problem)」と名付けている。つまり、複合的なデータの中で枠組みされて区別されたデータの一部分を断片的に展示すると同時に、それが世界の全体を表象しているかのように魅せることが問題となったのである。

無論、枠組みの中で蒐集されたデータの関連付けは、その配列次第で別様にもあり得る。したがって、ここで新たな問題として派生してくるのは、今ここで関連付けられたデータと別様にもあり得る配列で関連付けられたデータとの潜在的な関連を探査することとなる。つまり、それぞれに枠組みされたデータ間の相互比較が必要となるのだ。

ネルソンがデータの変更履歴や過去の姿の再確認を意味する「歴史的な追跡(Historical backtrack)」を強調するのも、このためである。現在の枠組みで蒐集されているデータと別様の枠組みで蒐集され得るデータとの機能的な関連を視覚化することは不可欠となる。そのためにネルソンが示唆するのは、データの様々なヴァージョン、類似した構造、別様の設計など、複雑化した諸々のデータ構造間における同一性差異を強調することなのである。

この関連からハイパーテクスト記憶装置は、まず蒐集した資料同士を任意に連結させるための貯蔵措置として機能しなければならない。それは、過去のデータを瞬間単位で追跡可能にすると共に、そのデータを現在で蘇生できるように、時間を軸とした「索引(Index)」として機能する。このような記憶装置は、以前の状態の再構築が容易となる。これによりユーザーは、過去の知識を現在において再認することの負担を軽減することになる。同じデータ素材でも、その組み換え次第で別様にもあり得るヴァージョンを再構築することも可能だ。

それ故ネルソンのハイパーテクスト理論は、過去の出版物を新たな出版物に包摂することによって、恰もベンヤミンの批評方法の如く、新たな見解を柔軟に提示することを目標にするのである。

ワールド・ワイド・ウェブ

こうしたネルソンの構想は、1990年代に普及したティム・バーナーズ=リーの「ワールド・ワイド・ウェブ(World-Wide Web ; WWW)」へと受け継がれていった。WWWがネルソンのザナドゥ・ハイパーテクスト・システムの一部を継承したメディアであることは間違いない。だがWWWザナドゥシステムとの間には、明確な差異もある。

ザナドゥハイパーテクストにおいては、リンクは双方向的となる。加えてそのリンクの対象となるのは、文献の全体を収めたページではない。リンクは文献の一部に向けられる。

これに対してWWWは、ハイパーテクストの設計者が「アンカーリンク(anchor link)」として指し示した一方向のリンクのみを展示している。ユーザーの立場からすれば、WWWは単純明快であった。ザナドゥにおける文献のあらゆる箇所からあらゆる箇所への双方向的なリンクでは、WWWの場合に比べて、それぞれの関連を把握することが困難になってしまう。

WWWは、URL(Uniform Resource Locator)とHTTP(Hyper Text Transfer Protocol)とHTML(Hyper Text Markup Language)で構成されている。念のために説明しておくと、URLとはウェブ上で提供されている情報とそれを提供しているコンピュータを特定するための形式に他ならない。HTTPとは、情報を送信するサーバと情報を受信するクライアントの間で、情報を送受信する形式である。そしてHTMLとは、マルチメディア情報を画面で表示する形式や、情報源に接続するための形式や、データの記述するための形式である。WWWのユーザーは、閲覧用ソフトであるブラウザ(Browser)を利用して、情報送信者がHTMLで指定した形式の通りに配列された情報を受信する。

WWW上でも、HTMLの配列に働き掛けるPHP(Hypertext Preprocessor)やHTTP通信機能を兼ね備えたAjax(Asynchronous JavaScript + XML)を駆使すれば、ヴァーチャリティの設計は可能になるだろう。アンカーリンクや動画像の動的な配列によって、「概念的な構造」と「感覚」に依拠した「枠組み」を設計することができるのである。

だがネルソンは、単純明快なアンカーリンクによりデータを関連付けていくWWWを容認してはいない。彼は、ザナドゥよりも単純な形式機能するアンカーリンクで拡張していくWWWを「紙の模倣(imitation of paper)」という侮蔑的な言葉表現している。ネルソンによれば、絶えず途切れている一方通行のリンクと不十分にしか運営されていないヴァージョンやコンテンツで構成されているWWWは、ザナドゥハイパーテクストの構想を矮小化したものに過ぎないという。

ザナドゥとWWWの差異

しかしWWW専門組織のみならず大衆にも受け入れられたのは、理由の無いことではない。ザナドゥでは、文献は一極集中型のサーバに保存される。何故なら、一極集中型として形式化しないことには、双方向リンクや「歴史的な追跡」に一貫を保つことができなくなるためだ。それ故一度作成した文献は、作成者であっても取り消すことができない。データを変更するためには、データの「修正版」を再度アップロードしなければならない。

一方でWWWでは、サーバが分散している。ウェブに接続できる環境であれば、サーバは物理的な場所を選ばない。サーバを独自に開発することも許される。クライアントの増加と共に、自由にライセンスを取ることもできる。

セマンティック・ウェブ

だがHTMLタグで記述されているハイパーテクストは、コンピュータからすれば、可読可能(machine-readable)ではあっても、理解可能(machine-understandable)ではなかった。そこでHTMLで指し示されているデータメタデータを付与することによって、コンピュータがその意味を自動で理解できるようにする「セマンティック・ウェブ(semantic web)」という技術が開発された。この技術はXMLの技術を応用したメタデータの記述形式であるRDF(Resource Description Framework)やテクスト間の関係を指し示すデータ記述言語であるOWL(Web ontology language)をはじめとした複数の技術によって成り立つ。

RDFは、主語と述語と目的語の関連付けによってデータモデルを構築する。主語はリソースとして、述語はプロパティとして、そして目的語はプロパティの値となるオブジェクトとして言及される。RDFでは、これらの関係を「有向ラベル付きグラフ(directed labeled graph)」で表現する。リソースとオブジェクトノードとなるなら、プロパティはアーク(arc)となる。逆に言えば、オブジェクトであったノードは同時にリソースにもなり得る。一つのモデルで目的語として言及されるデータは、他のモデルでは主語として言及される場合もある。こうしてあるグラフにおけるプロパティと別のグラフにおけるリソースを連鎖的に関連付けることによって、ウェブ上に散在したデータを次々と構造化できるようになる訳だ。

尤も、一つのリソースが複数のプロパティと接続される場合は多聞に及ぶ。ただグラフを作成するだけでは、膨大なノードとアークの中で有意味データが埋もれてしまうことになるだろう。そこで、用語や語彙とそれらの関連を明確に表現する技術が必要になる。

OWLはこの関連から注目を集めている。OWLという名称が表すontologyとは、単に哲学者が論じる存在論という意味ではない。セマンティック・ウェブ世界では、ontologyは推論規則や分類体系を意味する。共通の分類体系で整理されたデータ共通推論規則で分析することによって、コンピュータは高い精度で分析対象世界知識を処理することが可能になる。

OWLは、基本的にクラス(class)という概念でデータを整理する。ここでいうクラスとは、ウェブ上に存在する事物意味する。個々に表記されたクラスには、データ意味や属や関係を指し示す機能がある。OWLの表記は、クラス間の異同、クラスのプロパティ、プロパティの形式などを定義する文規則によって記述される。クラスは抽象的な概念を説明する表記だ。OWLでは、個別具体的な事象を説明するために、このクラスをインスタンス化することもできる。例えば「スマートフォン」というクラスがあれば、Androidはそのインスタンスとなり得るだろう。

セマンティック・ウェブの様相論的な限界

しかし、セマンティック・ウェブの設計思想には看過し難い問題も含まれている。セマンティック・ウェブは確かに機械でも理解可能メタデータ形式化に貢献していると言えるだろう。だがセマンティック・ウェブ蒐集可能になるのは、現実で利用されている意味処理規則に準拠したデータに限られる。これでは、意味という概念をあまりにも矮小化してしまう。セマンティック・ウェブは、現実に付与されたメタデータの通りにデータ意味を指し示すことができる。その一方で、セマンティック・ウェブ意味処理規則可能性に対しては沈黙せざるを得ない。

これは、セマンティック・ウェブ様相論的な限界を意味している。例えばRDFの文上、リソースとプロパティとオブジェクトの関連が全く変化しないのならば、そのグラフAが指し示すのは、常に同一のメタデータだということになる。たとえこのグラフAとは一切接続していない全く別のグラフBがその編成を変化させていたとしても、このグラフAは同一の意味を指し示す訳だ。グラフAが別様の意味を指し示し始めるのは、そのグラフAのリソースやオブジェクトが別のグラフXのノードと関連を持ち始めた時である。

しかし、グラフAのリソースやオブジェクトとは無関係なグラフBが更新されたとしても、グラフAはその影響を受けているはずだ。グラフBの更新時、確かにグラフAはこの更新による影響を受ける対象としては選択されていない。だが、言い方を変えれば、「非影響範囲」としては選択されている。更に言い換えるなら、グラフBはグラフAに対して「影響を与えない」という影響を与えている。

あるメタデータメタデータ足り得るのは、<そのメタデータが指し示すデータ>と<そのメタデータが指し示さないデータ>との間に差異構成されているためだ。様相論理学的に言えば、定義上、メタデータが<指し示すデータ>を指し示すのは必然である。一方そのメタデータにとって、<指し示さないデータ>は偶発的だ。データ母集団が増大した場合や別途でメタデータが定義された場合、<指し示さないデータ>も変異する。するとそのメタデータは、<そのメタデータが指し示すデータ>と<そのメタデータが指し示さないデータ>との間に構成されていた差異を再度吟味しなければならなくなる。何故なら、<指し示さないデータ>が変異し続けている以上、その中に<指し示すデータ>が生成されている可能性否定できないからだ。もし<指し示さないデータ>の中に<指し示すデータ>が含まれたまま放置されているのならば、そのメタデータメタデータとしての質を喪失することになる。

故にメタデータは、絶えずこの差異再構成し続けなければならない。しかしセマンティック・ウェブは、そのようには設計されていない。グラフAが変化するのは、そのグラフAと関連付いているグラフXが変化した場合か、グラフAそれ自体が変化する条件が整った場合のみだ。<非関連>という形式で関連付いている別様のグラフBが変化しても、グラフAは無反応に終わる。

埋め合わせとしてのWebクローラ

セマンティック・ウェブ様相論的な限界は、Webクローラアルゴリズムの設計思想を方向付ける制約条件の一つであった。と言うのも、メタデータモデリングが不完全である以上、メタデータが指し示してはくれない潜在的な諸データを「探索(search)」せざるを得ないためだ。それ故、Webクローラアルゴリズム設計で問われるのは、データ探索効率である。実際、歴史の初期に登場したWebクローラは皆、WWWの<全体>を探索することを目指していた。それらのWebクローラが、<完全>なるメタデータはあり得ないというセマンティック・ウェブ様相論的な限界を埋め合わせる認知的な期待の対象として登場したと仮定できるのならば、その後のWebクローラ歴史は、その埋め合わせに対する期待期待外れに終わることで成立していると考えられる。

検索エンジン主題とした「情報検索(Information Retrieval)」のアルゴリズム設計が明らかとしているように、文書蒐集する際には、「索引(Index)」を構成する必要がある。通常検索エンジンの索引とは、全ての異なる単語位置関係と、文書についての巨大なデータベースを設計することから始まる。アプリケーションのユースケースにも左右されるものの、必ずしも文書それ自体をデータベースに蓄積しなければならないという訳ではない。もし文書の全てを保存するとなれば、膨大なデータストアが必要になってしまうからだ。

索引は、文書位置関係に関するリファレンス(Reference)として設計されていれば良い。例えばそれはファイルシステムのパスやURLとなる。最終的には、ユーザーによって入力された検索キーワードに含まれる「問い合わせ(Query)」に基づいてランク付けされた文書のリストを返すことが、検索エンジン機能となる。

PageRankアルゴリズム

索引に関連する文書を全て返すだけであれば、検索エンジンとしての機能要求は容易に達成できる。だがその文書集合を如何にソートして出力するのかは、検索エンジン内部で構造化されているアルゴリズムの設計次第である。

Googleの検索エンジンには当初PageRankアルゴリズムが搭載されていた。このアルゴリズムはGoogleの創始者たちによって設計されていた。このアルゴリズムは、全てのWebページに、そのWebページがどの程度重要なのかというスコアを割り当てる。この重要度はそのWebページリンクしている他のWebページの重要度の合計と、それらの他のWebページのそれぞれが有しているハイパーリンクの数から計算される。数学的に再記述するなら、以下のようになる。

$$PR(p) = (1 – \gamma) + \gamma\sum_{\{d \in in(p)\}}^{}\frac{PR(d)}{\mid out(d)\mid}$$

ここで、pはスコアリングされているWebページを表す。in(p)はpを指すページの集合で、out(d)はdのリンク集合意味する。定数γは、1未満の値で、ユーザーが別のWebページ要求する確率を表す減衰係数となる。

このように、PageRankアルゴリズム確率モデルは、あるWebページ上でハイパーリンククリックしたユーザーがある特定のWebページ回遊して到着する確率モデルとして設計されていた。他の著名なWebページからリンクされていればいるほど、そのWebページに到達する確率は高まる。尤も、単純にあるWebページの価値をそのページとリンクしている別のWebページからの価値によって計算しようとすれば、ハイパーリンクのハイパーリンクのハイパーリンクと言った具合に、無限後退に陥る。そこでPageRankアルゴリズムでは、初期化戦略の一環として、全てのWebページのスコアの初期値を予め決定しておく方法が採用されていた。

全体のWebクローラから局所的なWebクローラへ

一般的に検索エンジンは、検索結果のページにおけるエンドユーザーのクリックログを解析することで、文書集合を如何にソートするべきなのかを学習することができる。インターネット広告の指標を読めば直ぐにわかるように、このクリックの前提にあるのは、検索結果のインプレッション(Impression)である。多くの場合、クリック率(Click Through Rate: CTR)と述べた場合の母数に該当するのは、この検索結果がどの程度の頻度でエンドユーザのディスプレイに表示されたのかを表すインプレッションなのである。しかしそのインプレッションそのものの母数は、検索エンジン背景にあるWebクローラ探索アルゴリズムに左右される。それ故に<検索エンジンにおける最適化>と<Webクローラ探索アルゴリズムにおける最適化>は厳密に区別されなければならない。前者はしばしば、後者のアルゴリズムをブラックボックス化した上で実施される。

検索エンジンアルゴリズムが如何に洗練されていたとしても、その検索結果は、検索エンジンによって予めインデックスされた(indexed)情報以上の質にはなり得ない。インデックスされていないWebページ検索され得ないためである。それ故に検索エンジンの研究開発者たちは、1990年代後半から2000年代前半にかけて、索引の担保範囲(coverage)を追究するようになった。その範囲の追究は、言わば全体性を志向していた。実際、PageRankに次ぐスコアリングとランキングに基づいたWebクローラアルゴリズムは、当初はWWW全体のインデックス化を志向した上で設計されていた。だがその志向は、次第に非現実的な想定であるとして、期待外れに終わるようになった。如何にハードウェアと帯域幅のリソースを自由に利用できる環境があっても、検索エンジン進化Web進化に追い付くことはあり得なかったのである。

「話題」と「対象」の形式

任意のエンドユーザによる任意のクエリ(Query)に応答するという検索エンジンの能力は、次第に限定された機能として認識されるようになる。そこで検索エンジンの研究開発者たちは、局所的なWebクローラ認知的に期待するようになる。そうして、遅くても2005年ごろには、局所的なWebクローラアルゴリズムの開発が大きな注目を集めるようになった。そうした局所的なWebクローラは、しばしば「話題準拠型クローラ(Topical crawler)」や「集中型クローラ(focused crawlers)」などと呼ばれながら、全体性を志向してきたWebクローラの設計思想を言わば「脱中心化(decentralizing)」した。新しい局所的なWebクローラは、特定の主題や趣味嗜好に応じて特化した情報探索可能にするアルゴリズムとして期待されるようになったのだ。それはエンドユーザごとに個別化(personalization)された情報検索可能にする。そして、局所的に限定された主題や趣味嗜好に特化している分、そうした検索エンジンは豊富な情報抽出可能にした。

データモデリングの関連から言えば、話題準拠型のWebクローラの設計における主導的差異となるのは、「話題(topics)」と「対象(targets)」の区別である。Webクローラ探索アルゴリズムを評価するためには、「話題」とそれに対応する関連した「対象」が必要になる。理論的には、検索エンジンやユーザー評価から得られた頻出クエリを使用することで、「話題」と「対象」のデータセットを生成できる。だがこの作業は、何らかの自然言語処理技術でも利用しない限りは、管理コストが高まる。WWWの動的に更新される質を前提とすれば、こうしたデータセットを最新の状態に保つのは困難極まりない。当時の研究開発者たちは、例えばかつてのYahoo!が運営していたディレクトリ型の検索エンジンのように、既に作成されているデータセットを幅優先探索型のWebクローラ蒐集することで利用していたという。

こうしたユースケースで実装されたWebクローラは、サブカテゴリに対応した子ノードを持たない「葉(Leaves)」となるWebページを識別するべく設計されている。「話題」を導き出すために利用されるのは、5つ以上の外部リンクを有した「葉」である。そうした「葉」の持つ「話題」の情報は、三つに区別できる。第一に、ディレクトリ階層上の単語が「話題」に対応した「キーワード(Keyword)」として捉えられる。第二に、外部リンクはその「話題」の「対象」を表す。そして第三に、そのディレクトリの編集者によって作成されている「対象」のURL先のハイパーテクストから、「話題」の「説明(description)」が得られる。「話題」の「キーワード」と「説明」の差異は、クエリの短さに対応している。一方で「話題」の「キーワード」は、短いクエリに対応した「話題」のモデルとして、クローラ学習対象となる。他方で「話題」の「説明」は、「話題」のより詳細な表現として、クローリングされたWebページの関連を評価するために参照される。

個別化の形式としてのレコメンドエンジン

話題準拠型クローラが注目を集めた時期と、協調フィルタリングやアソシエーション・ルール・マイニングを用いたレコメンドエンジンが注目され始めた時期か重なるのは、単なる偶然ではない。個別化という個々のユーザーの趣味嗜好や関心に応じたカスタマイズは、決してビッグテータに対する過剰な期待を実現させる流れから生じた右肩上がりの進歩意味しているのではない。この状況は、クローラアルゴリズム設計が直面していたような、全体性の志向に対する期待外れから派生した認知的な期待として構成されていたのである。

しかしユーザーカスタマイズシステム(user customization systems)にも幾つかの制限があった。こうしたレコメンデーションを成立させるためには、まずユーザーによる貢献が必要になる。特にユーザーの興味関心や趣味嗜好が変化した場合には、それに対応したマスタデータや行動ログを蒐集しなければならない。そのためにはユーザーの協力が必要になる。加えてこうしたカスタマイゼーションの理論は、項目(Item)を提示する順序を決定するアルゴリズムからは独立している。そのため単純にレコメンドエンジンを実装しただけでは、表示する項目に過不足が生じてしまう。

ルールベースとコンテンツベースの差異

ルールベースのレコメンドシステム(rule-based recommendation system)では、予め規定された論理的な規則によってレコメンデーションが実行される。そうした規則は、回遊ログ、クリックログ、あるいは購買ログなどをはじめとしたユーザーの行動ログに関連する。だがそこに個別化アルゴリズムは含まれない。これに対してコンテンツベースレコメンドシステム(contents-based recommendation system)では、項目の説明を分析することで、ユーザーの個々にとって特に興味深いと予測できる項目を識別する。レコメンドシステム構造は、項目の表現に基づいて異なる。だがレコメンデーションに用いられる多くのアルゴリズムは、決定木(Decision Trees)、近傍法(Nearest Neighbor Methods)、ナイーブベイズ(Naïve Bayes)などのように、「分類(classification)」をモデル化している。

「そうしたアルゴリズムは、コンテンツベースレコメンドシステムの重要な要素である。何故なら、これらのアルゴリズムは、それぞれのユーザーの関心をモデル化する関数学習するためである。新しい項目とユーザーのモデルが与えられた場合、この関数は、ユーザーがその項目に関心を持っているか否かを予測する。多くの分類学習アルゴリズムは、ユーザーが目に見えない項目を好む確率の推定値を提供する関数を生成する。この確率は、レコメンドされる項目のリストをソートするために利用することも可能である。あるいは、これらのアルゴリズムは、関心度のような数値を直接的に予測する関数を生成することもできる。」
Pazzani, M. J., & Billsus, D. (2007). Content-based recommendation systems. In The adaptive web (pp. 325-341). Springer, Berlin, Heidelberg., 引用はp.332より。

ユーザーの興味関心や趣味嗜好を学習することで次なる探索に役立てるという点では、レコメンドシステムWebクローラ機能的等価物である。しかしレコメンデーションアルゴリズム探索するのは、Webクローラの場合とは異なり、レコメンドすべき項目(Item)である。ここで項目(Item)として設計されるのは、多くの場合バナー(Banner)かランディングページ(Landing page)である。バナーの画像やランディングページハイパーテクストは、商品についての印象喚起する街路名のように機能する。こうした項目は、遊歩者としての閲覧者がWebページ回遊する上でのユーザーインターフェイスとして機能する。つまりレコメンドシステム学習する回遊クリックのログは、エンドユーザーの印象喚起した歴史(history)と潜在的な相関があると考えられる。

だが無論、こうしたコンテンツベースレコメンドシステムもまた、ユーザーの興味関心や趣味嗜好に関する情報が与えられなければ、品質の高い成果を上げられない。結局のところレコメンドエンジンも、時間の経過と共に変異するユーザーという<人格>の全体像を知り尽くさなければ、完璧なレコメンデーションは成立させられないのだ。たとえ「レコメンデーション」という用語を「広告配信システム」や「プッシュ通知」に言い換えたところで、この限界が解決されることはない。

機能的拡張案:人工知能

Webクローラは、基本的に上述したセマンティック・ウェブの文で記述されたハイパーテクストメタデータを読み解くことで、そのハイパーテクスト内容を把握する。そしてWebクローリングとWebスクレイピングを施したHTMLに含まれているハイパーリンクを辿ることによって、次のハイパーテクストへと読み進めていき、網の目を渡り歩く蜘蛛(spider)の如く、文書から文書へと渡り歩いていく。

これを「検索エンジン」へと応用する場合には、Googleの創設者たちによって設計されたPageRankアルゴリズムのように、各Webページを順位付けるアルゴリズムが必要になる。何故なら、いざキーワード検索された際に、そのキーワードにマッチする複数のWebページのうち、どれを優先して表示するべきなのかを判断しなければならないからだ。PageRankの初歩的な発想では、この判断基準が各Webページの重要度によって導入された。あるWebページの重要度は他のWebページから貼られている当該Webページへのハイパーリンクの個数によってスコアリングするというのが、このアルゴリズムの基礎となる。

しかし被リンク数で各Webページの重要度を計測しようとした場合、検索エンジン最適化(Search engine optimization: SEO)における不正行為によって容易にスコアを偽装できてしまう。故にPageRankアルゴリズムはあくまでも基礎的な発想でしかないというのは、留意しておくべきことだ。実際には、こうした不正行為や日々量産される新たなWebページへの対策として、様々なアルゴリズムが設計され続けている。

主題の抽出機能としての文書自動要約

異論を受け付けない事柄として、「何か」を主張することが貢献となるような主題として、問題設定の対象となる諸概念こそが、偶発性定式として機能する抽象一般が高い一方で、個別具体的な状況での出現頻度の高い主題抽出する上では、文書の「自動要約(Automatic summarization)」が欠かせない機能となる。

インタルジット・マニらが的確に整理しているように、自動要約アルゴリズムの主導的差異は「抜粋(extract)」と「抄録(abstract)」の区別として導入されている。

抜粋とは、入力情報から複製された資材の全体を含めている要約である。それ故、25%の圧縮率である典型的な抜粋は、文書の資材の25%の部分を提供している。このことから、文書の25%の語か、文書の25%の文か、あるいは文書の25%の段落などが思い付くであろう。」
Mani, I. (2001). Automatic summarization (Vol. 3). John Benjamins Publishing, p6.

「これに対して、抄録とは、入力内容には表れない資材を多少は含む要約である。典型的には、抄録は入力内容のある程度の言い換えを含めている。一般的には、抄録は高程度の凝縮の可能性を提供する。すなわち、短い抄録は長い抜粋よりも多くの情報を提供するのである。(抜粋と同じように、抄録も完全な文で構成される必要は全く無いが、通常は完全な文として構成される。)」
Mani, I. (2001). Automatic summarization (Vol. 3). John Benjamins Publishing, p6.

抄録は、更に「指示抄録(indicative abstract)」と「詳細抄録(informative abstract)」に区別される。

指示抄録は、より深く読む文書選択するための参照機能を提供する。そのため、指示抄録はその情報を読み込むか否かを決定しようとするユーザーの手助けになることを目的とする。これに対し、詳細抄録は幾つかの詳細度に応じた情報源に含まれる顕著な情報の全てを担う。」
Mani, I. (2001). Automatic summarization (Vol. 3). John Benjamins Publishing, p8.

この指示抄録詳細抄録区別は、指示抄録詳細抄録、そして「批評抄録(critical abstract)」の区別拡張される。

批評抄録は、原文の主題を評価することで、著者の著作の質に関する抄録の制作者の視点を表現する。」
Mani, I. (2001). Automatic summarization (Vol. 3). John Benjamins Publishing, p8.

そのため、批評抄録には主題に対する意見フィードバックなど、原文にある以上の情報をもたらす。この意味で、批評抄録自動要約システム機能的な範囲を少し逸脱しているとされる。

マニのガイドラインに従えば、抜粋に基づいた自動要約妥当性検証は、抜粋した個々の自然文に対するスコアリングによって実施されていた。H.P.エドモンドソンが1960年代に古典的なパラダイムを提唱して以来、この傾向は続いている。エドモンドソンは、手掛かり語やキーワード、あるいは文の位置などといった素に焦点を当ててスコアを割り振っていた。後続の研究者たちも、このパラダイムを叩き台とすることで、様々なアルゴリズムを提案している。要するに、如何にして重み付けを施すかが、抜粋に基づいた自動要約の鍵となっている。

しかし、全ての要約に対して抽出妥当となる訳ではない。人間が読もうと思うような要約長さには限度がある。そのため、ページ数の多い本や文書数の多い資料などのような長い題材では、非常に高い圧縮率が求められる。更に、複数の文書要約する場合は、文書間の差異類似性特徴付ける必要がある。そのため、要約器は単なる抜粋以上である必要がある。そして、人間抄録作成者たちは、抜粋ではなく抄録を作成している。抄録は、原文の情報再構成一般化、特化によって成り立っている。

尤も、抄録の自動生成もまた長らく研究され続けている。手掛かりを探し出すのも容易い。例えば簡単な抄録のテンプレートを用意しておいて、対象文書から抜き出した重要語や頻出語をそのテンプレートに埋め込んでいくという方法も、立派な抄録生成方法である。もう少し自然言語処理風な方法を取り上げるなら、Wordnetのように概念階層が記録されているコーパスを参照するのも、方法の一つであろう。こうしたコーパスは、特定の主題において、汎化されたテクストと特化されたテクストの関連を検索することを可能にする。

文書の抽出の技術

ハロルド・P・エドモンドソンの古典的研究は、自動要約における抽出の研究を基礎付けている。エドモンドソンは、化学を主題とした200の科学論文のコーパスを使用した。各論文は100 ~ 3900語の長さとなっている。彼はこれらのコーパスから、特徴を次のように区別している。

  • 手掛かり語(cue words)
  • タイトル語(title words)
  • キーワード(key words)
  • 文の位置(sentence location)

文の位置以外の語は、ストップワードを除外した上で選抜されている。手掛かり語はコーパスの訓練データの部分集合から選択される。一方、その他の特徴要約の対象となる文書から選択される。タイトル語は、主題、副題、見出し語など、文書に含まれる単語である。各タイトル語には、最良の能を伴わせるべく、人手で重み付けされている。この有人処理の前提にあるのは、著者が情報量のあるタイトルを採用する傾向があるという想定である。

手掛かり語は、コーパス頻度を前提に訓練用コーパスから抽出される。この語は、「ボーナス語(bonus words)」と「スティグマ語」に区別された上で参照される。この区別は、エドモンドソンによれば、正の関連(positively relevant)と負の関連(negatively relevant)の差異に対応する。ボーナス語は、抽出対象の選択の根拠として参照される。該当する単語となるのは、閾値を超えるコーパス頻度の高い単語となる。例えば、significant、impossible、hardlyなどのような単語は、文を抽出すべきか否かの選択影響を与えるであろう。他にも、比較級(comparatives)、 最上級(superlatives)、結論に関する副詞(adverbs of conclusion)、価値の用語(value terms)、 関係疑問視(relative interrogatives)、因果関係の用語(causality terms)が該当する。

これに対してスティグマ語とは、抽出対象として選択しない根拠として参照される。該当する単語となるのは、ボーナス語とは逆に、閾値を下回る単語となる。スティグマ語は、照応表現(anaphoric expressions)、卑下する表現(belittling expressions)、無意味な詳細表現(insignificant-detail expressions)、言質を与えない表現(hedging expressions)で構成されている。ちなみにエドモンドソンは、ボーナス語にもスティグマ語にも属さない語をNull語(Null words)と呼んでいる。いずれにしても、文書単語単位で分解されていることは、マニも述べているように、注意しておくべきであろう。

一方、文の位置という特徴は、二つの方法から観察される。一つ目の方法は、節見出しのリストを人手で構築していく方法だ。例えばこの方法では、文は「概要」、「本文」、「結論」などのように、見出しごとに重み付けていくことで特徴付けられる。二つ目の方法は、文中の順序を参照する方法となる。とりわけ最初の段落や最後の段落に出現する文には正の重み付けがなされる。

抽出は、上述した4つの特徴をそれぞれ重み付ける次のような線形関数に準拠している。

$$W(s) = \alpha C(s) + \beta K(s) + \gamma L(s) + \sigma T(s)$$

ここで、Wは文sの総合的な重みで、Cは手掛かり語、Kはキーワード、Lは文の位置、Tはタイトル、C(s)は文sに対するCの重み意味する。各重みと調整パラメタα、β、γ、σは、有人で作成されている。これらは訓練データ抜粋との比較からフィードバックを得ることで調整されている。

マニはこの線形関数を再解釈することで一般化を試みている。例えばC(s)は、ボーナス語やスティグマ語を含めるように一般化することができる。また、要約の対象となる文書質は、その文書が言及している領域によって異なる。そうした特定の領域には要約の手掛かりとなる「句」が存在している。そうした手掛かり句を収集しておけば、それが要約の判断材料となる。

K(s)は、文書特徴付けるキーワードとの関連から、比較的頻繁に出現する用語は顕現的であるという想定に基づいた指標だ。あるトピックに関する文書ならば、そのトピックに対する多くの参照を期待できる。伝統的には、機能語やストップワードを除外することで文書内容語を発見する方法が提案されてきた。そうすることで、頻度の閾値が設定された。この閾値が指し示しているのは、用語の重要度はその出現頻度に相対的に比例するということであった。

L(s)は、位置の特徴である。顕現的な文は段落の最初の文や最後の文として出現する傾向にあるなどといった位置情報は、この指標の基礎的な概念となっている。ただしこの情報は、文の構造に左右されてしまう。新聞や論文のように段階的に構造化されている文書であれば、定量的な比較は容易であろう。しかし、逸話風の興味を惹くことを目指した文体では、この限りではない。顕現的な文の出現場所はその文書構造に依る。

最後に、T(s)は、タイトルや主題、記事の大見出し、ユーザのプロファイル、クエリ中に存在する用語などの要因に基づいて文sに割り振られる加算用語の重み付けである。このことから、読み手に左右される場合の要約にも応用が利くことがわかる。と言うのも、ユーザの焦点に合う主題やトピックであればこの重み付けを強め、逆に焦点に合わない主題やトピックであれば、この重み付けを弱めることで調節することが容易であるためだ。

以上のようなエドモンドソンのパラダイムは、文書自動要約方法論を探究する上での出発点となっている。基本的にこのパラダイムの派生問題を解決していくことが、文書自動要約の研究を方向付けているとも言えよう。実際、マニも指摘しているように、エドモンドソンの方法論には幾つかの陥穽がある。

方法論的陥穽の一つは、要素列ではなく一つの要素のみを単独で抽出してしまう点にある。文と文の間には談話構造的な言語関係がある。これによって、一貫の無い要約が得られる可能性がある。例えば、同じことが次の文で議論されている場合、要約冗長性が増してしまう。あるいは、文の代名詞が要約した文中には含まれない前文を抽出してしまっているかもしれない。こうした可能性を考慮するなら、ある特定の文を抜粋した場合、その抜粋が後続の抜粋影響を与える構造が必要になる。

線形関数圧縮率に言及していないのも問題であろう。圧縮率は要約の精度とトレードオフの関係で結び付いている。だが上記のモデルはこの指標と紐付いていない。例えば、文書中で最も顕現的な概念であるAが、s1とs2の双方によって漸く意味付けられる場合、最低二つの文を抜粋して要約する場合であればAに対応できるが、一つの文のみを抜粋して要約しなければならない場合には、Aを表すことができない。高い圧縮率で要約することには、概念の意味を削ぎ落すリスクが伴う。逆に低い圧縮率で要約しようとすれば、要約文章が冗長的になるリスクがある。このことから、適切な要約率すら計算可能にするパラダイムが必要になる。

次に挙げられるのは、この方法論の前提にある一次方程式では、強力な要約モデルとはならない場合があるという点である。上述した圧縮率を含めたモデルを設計するには、より高い複合性要求されるかもしれない。そうした場合に、非線形のモデルが用いられる場合もある。

他にも、文の位置と文の形態素水準の特徴だけを参照していることや、モデルがアドホック過ぎる点もまた、このパラダイムの限界となっている。単語水準でのモデル化では、構文、意味談話水準での特徴盲点となる。そして上記の線形関数経験的な研究によってモデル化されている。しかし、何が要約要約たらしめているのかについては、何も理論的に興味深いことは述べていないのである。

要約精度の比較の観点としてのCombined match

マニは、自動文書要約された文の精度に対する比較観点を導入する上で、特に抄録の検証に用いられるCombined matchという方法を取り上げている。文書自動要約でコーパスを利用する場合、原文書と訓練要約文書との類似度を計測することによって、その要約の精度を把握することが可能になる。ただし、自動要約抜粋(extract)と抄録(abstract)に区別される。それぞれにおいて、原文書との比較観点が異なってくる。

文書と訓練抜粋文書との比較の場合、文の位置情報に基づくため、比較的単純だ。例えば、ラベリング対象となる要素が文で、要約抽出された文の系列である場合、特定の文の系列番号が抜粋された要素の中に含まれているか否かを検証することで比較することができる。更に言えば、抜粋された要素の系列番号を参照できない場合も想定できる。その場合は、文書類似度計算で参照されるような、Jaccard係数Dice係数Simpson係数をはじめとした係数を利用することで文の比較観点を設定することができる。

一方、訓練要約抄録としての要約である場合、比較観点は複合的になる。マニらは、こうした場合の抄録をある種の「クエリ(query)」として参照することで、文書中の文を抄録との類似性によってランク付ける方法を提案している。このランク付けにおいては、二つの異なる語彙の重なり合いの測定が用いられる。発想としては、全体的に所与の抄録との類似度の高い文を抽出するという方法になる。利用する尺度は、次のようなコサイン類似度の変形型となる。

$$sim(x, y) = N_1 + \frac{\sum_{i=1}^{N_2}x_iy_i}{\sqrt{\sum_{i=1}^{N_2}(x_i^2)\sum_{i=1}^{N_2}(y_i^2)}}$$

ここで、$$x_i$$は文xにおける単語iのTF-IDFの重みとなる。$$y_i$$は文yにおける同様の重みとなる。このyには抄録の文が代入される。

$$N_1$$はxとyに共通して出現する単語の個数を表す。一方、$$N_2$$はxとyの総単語数である。

要約精度の比較の観点としてのIndividual-match

Combined matchの代替案として挙げられるのは、Individual-matchである。この方法では、各原文が抄録の各文とそれぞれに比較される。その際、抄録の文との最長原文文字列一致(longest source string match)に基づいた類似度が計算される。Combined matchとは異なり、原文の中から、抄録のいずれかの文に非常によく似ている文を抽出するという発想だ。極端な場合、抽出された抜粋文は、抄録の文と全く同じであることもあり得る。こうした観点から言えば、この方法によって生成される要約文は、抄録類似した複数の文から成る。逆に言えば、原文の特徴をよく表す文であっても、抄録との差異が大きければ、抽出の対象外となる。

要約文の抽出に実際に制作済みの抄録を参照する方法は、抄録との類似性に対する相対評価によって原文を選抜する仕組みとなる。したがって、この方法要約文の候補を絞り込む上でも機能する。言い換えれば、抄録との類似性の低い文を要約における有用の無い文として除外する上でも、この方法機能する

教師あり学習による文書要約

文書自動要約は、しばしばフィルターによって実行される。例えばジュリアン・クピークらが提案していたベイズフィルターによる自動文書要約学習アルゴリズムは、この一例として挙げられる。

クピークらの成果は、機械学習による自動文書要約を研究する者たちによって標準的に参照されている。クピークらが設計したのは、各検証用の文が要約として抜粋されるべきか否かの確率を計算するアルゴリズムだ。彼らが使用したコーパスは、21の異なる科学論文集から作成されている。それらは188個の「全文と要約の組み合わせ」から構成されている。各要約は、専門の抄録作成者によって記述されている。平均的な文の長さは3文程度であった。

実験時、次の特徴が参照されている。

  • 文の長さ
  • 手掛かり句
  • 文の位置情報
  • 固有名詞

これらの特徴は、文書自動要約における抜粋のための抽出で取り上げたエドモンドソンのパラダイムで登場する特徴と一部重複している。だが厳密には若干の差異がある。例えばここでいう手掛かり句とは、「in summary」などのように、結論などのような特定の節の最初の文をはじめとする句であった。また文の位置情報として参照されたのは、段落の最初、中間、最後か否かであった。

クピークらが設計したベイズフィルターアルゴリズムは次の通りだ。

$$P(s \in E|F_1, …, F_n) = \frac{\prod_{i=1}^{n}P(F_i|s \in E)P(s \in E)}{\prod_{i=1}^{n}P(F_i)}$$

左辺は、文のn個の特徴に関する確率表現している。各特徴二値となる。これらの二値特徴が与えられた時、原文の中の文sが抜粋Eに含まれる確率が、左辺となる。$$P(F_i|s \in E)$$は、抜粋された文に特徴$$F_i$$が出現する確率を表している。一方$$P(F_i)$$は原文のコーパスに特徴$$F_i$$が出現する確率を表している。

この学習アルゴリズムで検証用文書自動要約を試行したところ、要約が長くなるに連れて能も向上したという。例えば全ての文字列の長さの25%の要約によって84%の文の再現率を達成している。

抽出技法の限界

マニは、抜粋抄録区別を導入した上で、抜粋のための抽出に関する方法論上の限界を纏め上げている。抜粋のための抽出方法は、経験的に評価されてきた単純な手続きを提供する。一般的には、文の位置情報と手掛かり句の特徴抽出において最も有用になるようだ。この方法に準拠する自動要約システムは、コーパスによって比較的容易に学習できる。そしてこの方法は、文よりも細かい形態素水準においても、あるいは逆に文以上の水準においても、同様に応用することができる。

しかし、抜粋抄録差異を前提とした場合、抄録の最も重要な側面となるのは、抄録の制作者が自分自身の言葉で原文を言い換えていることではない。むしろ重要となるのは、ある水準の原文の抽象化を実行することで、ある程度の圧縮可能になるという要因である。

このことは、主題化されている情報意味に関する知識や、意味水準での推論能力を必要とする。抽出方法には、少なからずその抽出対象についての知識要求される。結局のところ、特定の領域に関する知識は、その領域に固有の特徴となる。例えば統計情報を指し示す記事における数値の特徴は、統計に固有の特徴となるだろう。またそうした特徴は、その領域に対して学習された特別な規則や関数表現される。

しかしながら、この類の知識はその領域において内在的である。出力によって明示されるのは、全て入力の構成要素である。これを前提とすれば、抽出方法には根本的な陥穽がある。構文的にも意味的にも、任意の「集約」や「一般化」が欠落しているのである。

確かに自動要約において、抜粋抄録区別を導入するなら、抜粋比較コンピュータで処理し易い。何故なら、抜粋の場合、プログラムで新たなテキストを構成しなくても良いからだ。

抜粋は、テキストの抽出によって成り立つ。抽出の実装は困難ではない。抽出は、抄録構成するのに必要な付加的な知識源と比較して、コストの低い方法である。ここでいう知識源とは、ある程度の一般化を提供する概念体系や、文の意味を構築してテキストを生成する場合に特に必要な言語知識意味する。

抽出方法要求される解析は、表層的な解析として特徴付けられる。ほとんどの解析は、単語程度か、より小さなセグメントを対象にする。談話水準の情報は、使用されるとしても、ほとんどが固有名詞間の参照を確定するためか、あるいは代名詞の解読のために利用されるだけだ。

しかし、全ての要約に対して抽出妥当となる訳ではない。人間が読もうと思うような要約長さには限度がある。そのため、ページ数の多い本や文書数の多い資料などのような長い題材では、非常に高い圧縮率が求められる。更に、複数の文書要約する場合は、文書間の差異類似性特徴付ける必要がある。そのため、要約器は単なる抜粋以上である必要がある。そして、人間抄録作成者たちは、抜粋ではなく抄録を作成している。抄録は、原文の情報再構成一般化、特化によって成り立っている。

抽出の基本単位となる要素は「文(sentence)」である。段落やトピックに対応するテキストのセグメントが基本単位になっていないことには、実用上の理由と言語学的な理由がある。実用上の理由は、圧縮率に対するより良き制限を課せられるからだ。例えば長すぎる段落は、要求される圧縮率を超える抜粋構成する原因となるかもしれない。

段落よりも文単位の抽出を好む言語学上の理由は、記述されているテキストにおいて固有であって、出版や書式の制約も反映させているからだ。一方、「文」は様々な種類の段落や文書とは異なって、構文、意味、解析の重要単位を担ってきた。とりわけ意味の論理的な記述は、文の意味の正確な概念を提供する。例えば文は論理式で表現される。それは命題を意味すると解釈される。こうした概念は、談話全体にまで拡張できる。

抽出の単位にトピックを採用するという選択肢もあるだろう。しかし、トピックという概念は抽象度が高く、長らく特定することが難しいとされた。単語、句、節のように、文を更に分解することで得られる要素もある。だがこうした要素を対象とした場合、抜粋はしばしば断片的となってしまう。要約が原文の有意義な情報提供を目指すものならば、原文に登場するキーワードを処理する程度で満足してはならないのである。

単一文書要約と複数文書要約の差異

文書自動要約の対象となる文書は、「文」で構成されている。多くの文書において、この「文」は決して単一ではない。それ故に文書自動要約方法論は、「複数文書要約(Multi-document summarization: MDS)」へと応用されている。定義上、MDSは単一の文書要約の拡張となる。WWWセマンティック・ウェブの爆発的な拡大によって、膨大な文書Web上で取得できるようになったことから、複数の文書共通性差異比較した上で要約する技術の必要が増した。一目で多数の文書主題を把握できるようになることの有用は高い。

新聞テレビ番組、ブログ記事やソーシャルネットワークなどのような電子メディアが普及すれば、一つの主題を反復的かつ冗長的に取り上げられることも稀ではなくなった。これにより、類似した情報源が何度も再利用されることになる。そのため、玉石混交の有象無象の中から、関連文書間の共通性や一定の主題におけるそれぞれの文書差異要約することが要求されるようになる。いわゆる「キュレーションサイト」は、この問題設定に対する「手動」による解決策の一例となっている。

複数文書を対象とした抄録(abstract)の制作は、専門による要約作成とは厳密に区別される。例えば論文の要約(abstract)は、当該論文の要約に過ぎない。別の論文の要約は、その論文の主題それ自体というよりは、関連研究や先行研究の概要に言及する場合に記述される。それは精々論文の冒頭部で取り上げられるのであって、当該論文の要約に登場することはあまりない。

複数文書要約問題設定背景にあるのは、こうした伝統的な専門による要約ではなく、WWWセマンティック・ウェブ、あるいは比較的最近で言えば「ビッグデータ」との関連である。複数文書の総データ量は、単一文書要約の対象になるような文書の比ではない。それは逆に言えば、要約時に求められる情報圧縮率が、複数文書を対象にした途端に跳ね上がるということだ。この圧縮を成し得るには、複数の文書のそれぞれを逐次的に取り上げるような要約ではなく、それぞれの文書を横断的に観察することで、共通性差異抽出し、場合によってはそれぞれの情報を融合し、文を合成しなければならない。

したがって、複数文書要約単一文書要約は、問題設定からして全く別物であることは、初めに留意しておくべきであろう。言い換えれば、単一文書要約問題解決策は、複数文書要約問題設定では有用ではないのである。複数文書要約問題設定においては、また新たな機能する問題解決策探索しなければならない。

単一文書要約問題解決策選択してしまった場合の盲点となるのは、複数文書間の冗長性に他ならない。類似する複数の文書を順番に一つずつ要約して並べれば、類似した要約文書冗長的に配列されるだけだ。故に要約以前の前処理として、類似する文書クラスタリングしておくことが要求される。クラスタごとに要約していくことによって、予め冗長要約を繰り返す可能性を低めておかなければならない。

文書間の冗長性の検出

マニのガイドラインに従うなら、複数文書要約において重要となるのは、文書間の冗長性を予め特徴付けておくことである。幾つか例示しておこう。

意味的等価性

二つの文書の諸要素が同一の意味を有する場合、それらは意味的に等価(semantic equivalence)となる。ここでマニは、各諸要素が同一条件で真である場合に限り、それらが意味的に等価となると仮定している。他の文書意味的に等価である文書は互いに冗長であると見做すことができる。

意味的等価は、二つの要素が文字列としてどのように表現されているのかには依存せずに同一の意味を持つことを意味する。任意の意味的に等価な要素は互いにパラフレーズの関連にある。

文字列同一性

二つの文書に含まれる文字列が厳密に同一である場合、それらは文字列的に同一(string identity)となる。形態素に分解したリストや配列の諸要素が全く同一である場合も、これに該当する。

文字同一性は、複数の文が反復的に記述されていることを意味する。この点でこの同一性は諸要素の重複関係を指し示す。

情報的等価性

二つの文書を読んだ人間が同一の情報を有していると判断できる場合、それらの文書情報的に等価(informationaly equivalence)となる。この等価もまた冗長性として把握して、要約時に除去することができる。

ポイントは、ここで初めて人間の判断が介在していることである。

情報的包摂

ある文書Aが別の文書Bの情報を包含している場合、AはBを情報的包摂(informationaly subsumption)している。ここで、要素Aは要素Bの情報以上の付加的な情報を含めている。

この情報的包摂概念は、集合の粒度に対する認識次第では、見解が分かれることがある。

文書間の差異の検出

冗長性複数文書要約問題設定における一側面に過ぎない。もう一つの側面として関連してくるのは、文書間の差異である。確かに意味的等価比較すれば、情報的等価情報的包摂の関係は、一定の差異を指し示すことがある。だがいずれにせよこれらの指標は、ほぼ同一の時間軸で得られた同一の情報源を出発点としてしまっている。全くの未知の文書が既知の文書と如何に類似しているのかを計算するには汎化や近似が必要になる。

プロトタイプの開発:文書自動要約技術

ハンズ・ピーター・ルーンが60年以上前に提唱していた自動要約アルゴリズムが、近年『入門 ソーシャルデータ 第2版――ソーシャルウェブデータマイニング』で紹介されていた。このアルゴリズムはルーンの文書要約アルゴリズムは単純明快で、相互に近接し合う状態で頻出する単語やトークンを含んだ文を抽出していくという手続きになる。しかし、『入門 ソーシャルデータ 第2版――ソーシャルウェブデータマイニング』で紹介されているコードは、Python3の環境では動作せず、関数の粒度が粗く、そして日本語には対応していない。そこで、この問題の解消に向けて、再設計と再記述を試みた。

成果物については、GitHubのaccel-brain-code/Automatic-Summarizationに配置している。デモ用のPython Scriptsとしては、WebページWeb上のPDFファイルのURLをコマンドライン引数に指定することで、対象文書の重要文を抽出することができる。これは典型的な抜粋による要約技術に過ぎない。だが対象文書の重要文を引用するというユースケースにおいては、十分に機能する

参考文献

  • Aiden, E. L. (2011) Quantitative analysis of culture using millions of digitized books. science, 331(6014), pp176-182.
  • Aiden, E., & Michel, J. B. (2013). Uncharted: Big data as a lens on human culture. Penguin.
  • Berners-Lee, Tim. (1989) Information management : A proposal. Geneva, Switzerland : CERN. URL:http://www.w3.org/History/1989/proposal.html
  • Berners-Lee, Tim. (2000) Weaving the Web: The Original Design and Ultimate Destiny of the World Wide Web, Harper Business.
  • Brickley, Dan. (2001) “RDF: Understanding the striped RDF/XML syntax.” Online only, October.
  • Brin, S., & Page, L. (1998). The anatomy of a large-scale hypertextual web search engine. Computer neworks and ISDN systems, 30(1-7), 107-117.
  • Chen, D., Liying, F., Jianzhuo, Y., & Shi, B. (2010, July). Semantic focused crawler based on Q-learning and Bayes classifier. In Computer Science and Information Technology (ICCSIT), 2010 3rd IEEE International Conference on(Vol. 8, pp. 420-423). IEEE.
  • Dave, Beckett, McBride, Brian. (2004) “RDF/XML syntax specification (revised),” W3C recommendation 10.
  • Deborah L. McGuinness and Frank van Harmelen, Web Ontology Language (OWL): Overview, 2004-02-10, W3C Recommendation.
  • Edmundson, H. P. (1969). New methods in automatic extracting. Journal of the ACM (JACM), 16(2), 264-285.
  • Kamp, H., & Partee, B. (1995). Prototype theory and compositionality.Cognition, 57(2), 129-191.
  • Kamp, H., & Reyle, U. (2013). From discourse to logic: Introduction to modeltheoretic semantics of natural language, formal logic and discourse representation theory (Vol. 42). Springer Science & Business Media.
  • Kupiec, J., Pedersen, J., & Chen, F. (1995, July). A trainable document summarizer. In Proceedings of the 18th annual international ACM SIGIR conference on Research and development in information retrieval (pp. 68-73). ACM.
  • Luhn, Hans Peter. “The automatic creation of literature abstracts.” IBM Journal of research and development 2.2 (1958): 159-165.
  • Luhmann, Niklas. (1968) Vertrauen. Ein Mechanismus der Reduktion sozialer Komplexität, Stuttgart.
  • Luhmann, Niklas. (1975) Macht, Stuttgart.
  • Luhmann, Niklas. (1977) Funktion der Religion, Suhrkamp.
  • Luhmann, Niklas. (1981) “Erleben und Handeln.” Soziologische Aufklarung 3. VS Verlag fur Sozialwissenschaften, pp67-80.
  • Luhmann, Niklas. (1982) Liebe als Passion: Zur Codierung von Intimität, Suhrkamp. (英語版:Love as passion: the codification of intimacy, Harvard University Press, 1986.)
  • Luhmann, Niklas., Schorr, Karl Eberhard. (1982) “Das Technologiedefizit der Erziehung und die Pädagogik,” In dies. (Hrsg.), Zwischen Technologie und Selbstreferenz: Fragen an die Pädagogik, Frankfurt, S.11-40.
  • Luhmann, Niklas. (1984) Ökologische Kommunikation, Wiesbaden: Westdeutscher Verlag.
  • Luhmann, Niklas. (1984) Soziale Systeme, Frankfurt am Main : Suhrkamp.
  • Luhmann, Niklas. (1987) “Strukturelle Defizite. Bemerkungen zur systemtheoretischen Analyse des Erziehungswesens,” In: Oelkers, J., Tenorth, H. E. (Hrsg.): Pädagogik, Erziehungswissenschaft und Systemtheorie, Weinheim, S.57-75.
  • Luhmann, Niklas. (1988). The third question: the creative use of paradoxes in law and legal history. Journal of Law and Society, 15(2), 153-165.
  • Luhmann, Niklas. (1990) Die Wissenschaft der Gesellschaft, Frankfurt am Main, Suhrkamp.
  • Luhmann, Niklas. (1990) Essays on self-reference, New York : Columbia University Press.
  • Luhmann, Niklas. (1992) “Kommunikation mit Zettelkästen: Ein Erfahrungsbericht”. In Kieserling, Andre. ed, Universitat als Milieu. Bielefeld: Haux Verlag, S.53-61.
  • Luhmann, Niklas. (1995) Die Kunst der Gesellschaft, Suhrkamp Verlag, Frankfurt.
  • Luhmann, Niklas. (1997) Die Gesellschaft der Gesellschaft, Frankfurt/M, Suhrkamp.
  • Luhmann, Niklas. (1997) “Globalization or World Society?: How to conceive of modern society,” International Review of Sociology March 1997, Vol. 7 Issue 1, pp67-79.
  • Luhmann, Niklas., Schorr, Karl Eberhard. (1999) Reflexionsprobleme im Erziehungssystem, Suhrkamp.
  • Luhmann, Niklas. (2000) Die Politik der Gesellschaft, Suhrkamp.
  • Luhmann, Niklas. (2000) Die Religion der Gesellschaft, Suhrkamp.
  • Luhmann, Niklas. (2000) “Familiarity, Confidence, Trust: Problems and Alternatives”, In Gambetta, Diego. ed, Trust: Making and peaking Cooperative Relations, electronic edition, Department of Sociology, University of Oxford, chapter 6, pp. 94-107.
  • Luhmann, Niklas. (2002) Das Erziehungssystem der Gesellschaft, Suhrkamp Verlag, Frankfurt am Main.
  • Luhmann, Niklas. (2004) Die Realität der Massenmedien, VS Verlag.
  • Nelson, Theodor Holm. (c1992) Literary machines : the report on, and of, project xanadu concerning word processing, electronic publishing, hypertext, thinkertoys, tomorrow’s intellectual revolution, and certain other topics including knowledge, education and freedom, Sausalito, CA : Mindful Press.
  • Nelson, Theodor Holm. (2007) PROJECT XANADUR, URL: http://www.xanadu.com/ (アクセス日時:2016/04/31 08:10)
    McGuinness, Deborah L., Harmelen, Frank Van. (2004) “OWL web ontology language overview,” W3C recommendation 10.
  • Mani, I., & Bloedorn, E. (1998, July). Machine learning of generic and user-focused summarization. In AAAI/IAAI (pp. 821-826).
  • Mani, I. (2001). Automatic summarization (Vol. 3). John Benjamins Publishing.
  • Matthew A. Russell 著、佐藤 敏紀、瀬戸口 光宏、原川 浩一 監訳、長尾 高弘 訳『入門 ソーシャルデータ 第2版――ソーシャルウェブデータマイニング』 2014年06月 発行
  • Menczer, F., Pant, G., & Srinivasan, P. (2004). Topical web crawlers: Evaluating adaptive algorithms. ACM Transactions on Internet Technology (TOIT), 4(4), 378-419.
  • Michel, J. B., Shen, Y. K., Aiden, A. P., Veres, A., Gray, M. K., Pickett, J. P., &
  • Pazzani, M. J., & Billsus, D. (2007). Content-based recommendation systems. In The adaptive web (pp. 325-341). Springer, Berlin, Heidelberg.