わさっきhb

大学(教育研究)とか ,親馬鹿とか,和歌山とか,とか,とか.

12月8日

スライドをざっと見ました.
完成度の高いシステムを提示するのではなく,これからの拡張への足がかりとなるモノをひとまず作ったところで,今後は,ユーザのリクエストに対して,システムではこれこれこんな返答ができるようにしたい,とアピールする基本路線は,きちんとできていると思います.
それで…ここのスライドです.「12月8日」で検索すると,「研究」の文書群からだとこう,「授業」からだとこう,「趣味」からだと,となっていますが,それぞれ変えて,多彩な検索ができることを明確にしましょう.
まず,「研究」の文書群は…他との対比を考えて…そうですね,「12月8日」を検索すると,何かのログファイルに書かれている「2010-12-08」が該当した,という表示にしてください.ユーザ向けには,きめ細かい日付検索機能を提供するわけです.この場合,文書検索よりも,grepなどのような行検索にして,どのファイルの何行目,と結果表示をしたいところです.まいいや.
次に,「授業」の文書群からだと…12月8日に作成したファイルが,ヒットするようにしますか.文書の本文中に「12月8日」とは書かれていないけれども,ファイル作成情報を,登録時に取得し,それもインデックスに入れておくわけです.
最後に注意を要したいのは「趣味」の文書群です.ヒット例を丸ごと変えましょう.
というのも,「12月8日」という日付で,えっとですね僕の年代やそれより上の人々,なので当日質問やコメントをしたくてしたくてうずうずする方々が,すぐに思い浮かぶ,歴史上の事件が2つあります.
一つは,1941年12月8日,真珠湾攻撃の日です.太平洋戦争あるいは大東亜戦争の始まりとされています.
もう一つ,有名なのは,1980年の12月8日です.これはビートルズジョン・レノンが**された日として,知っておいてください.
スライドですが,適当なファイル名と「ビートルズジョン・レノンが…のは12月8日」くらいを書いておきましょう.「…」はこのままの文字です.
処理として,数字が半角の「12月8日」が検索語であっても,これを「12月8日」に全角化して,文書検索をするのは,難しくないと思います.
あるいは,Wikipediaには「12月8日」で記事ができているので,そこから,もちろん他の日もそれぞれ,行事情報を取り出して,うまく内部で持っておけば,「12月8日」の検索語で,「ジョンレノン」を含む文書をヒットさせることだって,できそうと言えばできそうですね.

なにこれ

第3回「知識・芸術・文化情報学研究会」で,ある学生の準備スライドを見てアドバイスした内容です.実際には口頭ではなくメールにしています.発表前日の朝7時台,なのでこれを送ってすぐ,自宅を出て大学に向かったのでした.
当日の質疑のうち「Wordのファイルはunzipして中身を見られるのだから,その情報もインデックスに入れておくといいですね」は,貴重なアドバイスでした.

関連発表

発表者は異なります.研究内容も異なります.手段,その中でも全文検索エンジンが大きく異なります.具体的に言うと,「栄谷諏訪神社」を含む学生(の研究)は,全文検索エンジンの例としてGoogleを挙げるのに対して,「12月8日」検索ができるようにするシステムでは,全文検索エンジンにGroongaを採用しています.

*1:wikipedia:ジョンレノンだとwikipedia:マンションに転送され,びっくりしました.「ダコタ・ハウス」ですかね.