昨日の小ゼミで,受け持ち学生の発表スライドの中に,次のように書いた表がありました.
形態素解析 | N-gram | |
---|---|---|
インデクシング速度 | 遅い | 速い |
インデックスサイズ | 小さい | 大きい |
検索ノイズ | 少ない | 多い |
検索漏れ | 少ない | 多い |
検索速度 | 速い | 遅い |
言語依存 | 辞書が必要 | 辞書が不要 |
あとで知ったのですが,wikipedia:全文検索の表を転記したようです.
Wikipediaは一応無視して,この表の内容に対し,質問を作ってみますと…
ここで,ゼミに参加する学生のみなさんに提案なのですが,どのように質問をすればいいか分からないけれど,質問をしなければならないというとき,スクリーンや配布資料をじっと見るよりも,手を動かして,質問したいことを書いてみるのはどうでしょうか.
慣れないうちは,そのまま読み上げられるよう,完全な質問文を作ります*1.いったん書いてから,横線で削除,Yの字で挿入*2というのも,いいでしょう.
慣れてくると,メモの字数を減らします.上の質問文に対して,簡略化した例をいくつか挙げてみます.
そして「検索モレ 多い Why?」という自分用メモを,スクリーンを見ながら「N-gramが形態素解析に比べて,検索漏れが多いとなっていますが,これはどういった理由からでしょうか?」に変換しながら,20〜30人ほどいる前で質問できるようになれば,今の小ゼミでは万々歳です*3.
もう一つ,提案です.あらかじめ書いてから,発言するというのは,質問に限りません.小ゼミの司会進行役は学生持ち回りですが,自分の番というときは,事前に
- 開始で,何を言うか
- 質問を促すとき,何を言うか
- 終了時に,何を言うか
を書いておくのです.ちょっとは安心できます.それを使って,ゆっくりと,やや低い声を心がけてみると,声が通りやすくなります*4.
他の人に見られると恥ずかしいかもしれませんが,それは質問メモも同じことです.
さてこのあたりでネタばらしを.
冒頭の表を目にしたとき,私は次のようなメモを書きました.
- 検索漏れ 少ない・多い 逆では?
wikipedia:全文検索と見比べれば分かるように,実際,逆にして転記していたのですね.ある先生との質疑が進展しそうになかったので,さえぎらせてもらって,ずばっと指摘しました.
あの場ではいい例が出なかったのですが,形態素解析の検索漏れというのは,形態素をまたがるような語句,例えば「mが形」で検索したとき*5,『N-gramが形態素解析に比べて,検索漏れが多いとなっていますが,これはどういった理由からでしょうか?』を含む文書は,形態素解析をベースにするのでは取得できそうになく,N-gramではできそう,というのはどうでしょうか.