わさっきhb

大学(教育研究)とか ,親馬鹿とか,和歌山とか,とか,とか.

古典籍書誌情報におけるキーワード抽出手法

金曜日に,情報知識学会で発表してきました.
掲載誌*1の表紙と目次では「(略)検出手法」となっています.これは,応募時の題目でして,原稿送付時に変更したのですが,行き違いでそのままになってしまいました*2
発表ですが,時間は苦労することなく,「まとめ(1)」と題するラス前のスライドで20分になったので,「まとめ(2)」は端折って終えました.
質疑は多方面から来ました.まず成果の外側といいますか展望といいますか,キーワードにidentityを与えることの必要性をおっしゃったコメントが複数ありました.
研究の内部といいますかについても,Hyper Estraierを使用していることに関して,そこで保持する情報を,与えられたテキストにリンク付与するのに使えないかというアドバイスもありました.その場では検討しますと回答しましたが,晩に,Hyper EstraierやQDBMのソースをざっと眺めたものの,いい関数は見当たりませんでした.
もう少し考えてみると,Hyper Estraierは多数のテキストデータをインデックス化しておき,検索語が与えられたときに該当するテキストデータを高速に求めるのに対して,リンク付与は,キーワードが多数あるという前提で,テキストが与えられたときにそこにキーワードを効率よく見つける*3というもので,目的が違うのでした.
質疑の場では言いそびれましたが,全文検索エンジンについて,Hyper Estraierから離れて,SennaTritonnかLudiaを使いたい,あるいは検索システムからはそれらを選択できるようにしたいという構想もあります.「全文検索インデックス」と「キーワード管理DB」とを分離する方針は外せないのです.

*1:情報知識学会誌は,1種類の「学会誌」で,査読論文も,査読なしのいわゆる予稿も扱っています.もちろん査読論文は最初のページの済に「論文」とつくほか,末尾には投稿日と採録日があるので,区別できます.5月発行の学会誌は「研究報告会」の原稿で占められています.編集方針として,この5月発行のものに査読付き論文を載せられる余地もありますが,これまでそういうのはなかったような.

*2:最終原稿を送ったときに,Ackがなくて放置していたのがまずく,「すみませんが,届きましたでしょうか.それと…」とメールすべきだったなあ.

*3:5月28日13時前に追記:一つのテキストに出現するキーワードは複数あり得ますし,キーワードが重なる可能性もあります.