わさっきhb

大学(教育研究)とか ,親馬鹿とか,和歌山とか,とか,とか.

情報検索とは,ちょうど1件の情報を見つけることではない

Googleなどの,インターネット上の情報を対象とした,グローバルな検索サービスであれ,我々の研究室で手がけている,1台の計算機にデータがすべて入るくらいの分量の,言ってみればドメイン・スペシフィックな検索サービスであれ,「サービスを提供する側の考え」と「サービスを利用する側の考え」が,別々にあります.前者の考えは,設計思想と言い換えられますし,後者は,ユーザモデルに集約できそうです.
もちろん,それら2つの考えが完全に独立しているわけではありません.サービスを提供する側は,使う人の行動を考慮に入れてシステムを組み上げ,改善を図るべきですし,利用する側は,インデックス構築や検索のアルゴリズム,またスコア算出法がどのようになっているかを把握し,その特性に注意した検索をすれば,短時間で欲しい情報を見つけやすくなります.
さて,ドメイン・スペシフィックな全文検索サービスに限定し,検索語も単純な,1個の単語か,複数の単語のAND検索くらいとしましょう.
そのとき,ある検索語で,1件しか文書が見つからなかったら,「見つかった!」と喜んでいいかというと,利用する側で考えるにしろ,提供する側で考えるにしろ,ちょっと立ち止まってみるべきじゃないかと思います.
まずは利用する側について.1件あればいいじゃないかというと,少々不安です.その見つけた文書の,出現する検索語またはその近辺に,誤記があったらどうしましょうか.
インデックス構築対象の文書群にもよりますが,複数の情報源---ここでは「複数の文書」に置き換えられます---で出現していれば,こぞって誤記の可能性が低く,少しは安心できます.こぞって誤記の可能性は,0ではありませんが,1件だけ見つけたその記述が間違いという可能性よりは,低く見積もれるということです.
このアプローチ,Googleの検索では,ソフトウェアが出すエラーメッセージから対策を知るときや,英文を書く必要に迫られて「使えるフレーズ」を探すときに,使えると思いますよ.
我々が関わっている古典籍の検索に,話を戻すと,年の表記ミスが,こわいですね.現状では,検索した人が,出現箇所の前後や文書全体を見て,妥当性を判断しています*1.そして複数の情報源に現れ,同じ意味や位置付けであれば,信頼度が高くなるわけです*2
ここで利用する側から提供する側,それも研究としてコンテンツをお借りして検索サービスを試作し,卒論・修論や学会発表に持っていこうとする側に,視点を切り替えましょう.ある検索語で「1件だけ見つかった」とき,それを本当に予稿なり論文なりに載せていいのかというのは,数十件以上見つかったというのと比べて,入念なチェックが必要となります.
検索において,フォールス・ポジティブ,すなわち検索語が現れていない文書を「ヒットした」としてしまったり,フォールス・ネガティブ,すなわちgrepなんかできちんと調べれば出現しているのが分かるのに,その検索サービスではヒットしないなんてことが起こるのは,確かによろしくありません.しかしそれは,使用する全文検索エンジンに依存する話です.なんらかのアイデアで画期的な全文検索エンジンを作ろうという研究ではなく,定評のあるエンジンを使って使い勝手のいいサービスを提供とする試みであれば,文書群や利用者の性質・性格も念頭に置き,定性的・定量的な成果を示したいものです.

補足

今回の元ネタと言えるものは,1月25日の小ゼミで,研究指導をしている学生の質疑中にコメントした内容です.
途中の「サービスを提供する側は,使う人の行動を考慮に入れて…」は,情報検索に特化した話ではなく,

  • (セキュアな)システムを運用するには,悪意のある利用者を想定し,一方悪意のある利用者は,破ろうとするシステムのことをよく理解する
  • 採用する企業側は,応募する学生のことを考え,応募する学生は,採用しようとする企業のことを理解する
  • 問題を作る側は,解く人のことを考え,解く人は,なぜこんな問題を出してきたのか(出題意図)に注意する
  • 稽古は試合のように,試合は稽古のように

など,いろいろと応用可能だと思います.
エントリ見出しの「ちょうど1件の情報を見つける」について,この主語は,利用者でもありますし,検索サービスとしてもよいような書き方に(わざと)しています.

*1:インデックス構築前の処理,または検索の時点で,何か処理を利かせて,それでもって検索精度が上がるというなら,学会発表できそうなんですけどね.

*2:複数の文書に,全く同一の語句で出現している場合には,共通する「先祖」の文書が考えられます.そしてその先祖の文書が作られる段階で,ミスが入り込む可能性を,一応は頭に入れておかないといけません.