わさっきhb

大学(教育研究)とか ,親馬鹿とか,和歌山とか,とか,とか.

医学生物学分野におけるテキストマイニング技術の展望

先週の土曜日は,大阪で遊ぶとか買い物するとかが目的ではなく,情報知識学会関西部会の研究会に出席していました.
医学生物学分野におけるテキストマイニング技術の展望」と題して,小池麻子先生が発表されました.
PubMedに代表される,医学生物系の論文抄録情報を分析して情報を抽出し,そこから,「魚油がレイノー病に効果的」といった潜在的知識発見や仮説の生成に役立てようというものです.
突然「魚油」と「レイノー病」というのを出してしまいましたが,何をしているのかというと,

  • いくつかの論文で,レイノー病の因子になにがしふがふがほげほげを指摘している.
  • 別のいくつかの論文で,魚油がなにがしふがふがほげほげに(良い方向に)影響を与えると報告している.

から

という,潜在的な関係を導き出そうというものです.実はこの例は,構築されたシステムで発見したものではなく,Swansonが論文を読んで(つまり人手で)組み合わせて予測し,翌年実証されたという事例があって,構築されたシステムでその関係が見つかることを確認したというものです.もちろん,その関係を求め,グラフ表示による可視化をする際には,Swansonの立場と同じ1986年までの論文に限定していました.
私自身は医学分野・バイオ分野とは疎遠になってしまいまして,テキストマイニングというと古典籍(ディジタルアーカイブ)に援用できるかという点に関心があるのですが,

  • 文書に出現する単語そのものでは精度が悪いので,辞書やシソーラスを構築して,参照・変換する.
  • 辞書とシソーラスは,外部のものだけでなく,自前で維持管理する.
  • 関係は共起性から得られる.ただし否定語のチェック*1を忘れずに.
  • 関係性はis_aとpart_ofの2つ.細かく分類しても実用的でない.
  • 品詞は言語学のものにとらわれない*2
  • ストップワードや一般語が実は重要な用語かもしれない.遺伝子/蛋白質名には,"yellow", "of" がある.
  • 論文は意図的に曖昧な表現をとっているることがある*3
  • 特異値分解(SVD)により概念間の関連を求めるのは,一時期流行したが,メモリを多くとるので廃れ気味*4

など,大いに得るものがありました.
質疑で,対象文献数が多くなっても大丈夫かが気になり,過学習を含めてたどたどしく質問させてもらいました.一点一点,丁寧なご回答をいただきました.詳細を記録にも記憶にも残せていなかったのが,残念なところです.

*1:「XはYに影響を及ぼさない」など.

*2:遺伝子名の収集に,"GENE" という品詞を加えていました.

*3:"Gene A is strongly expressed during cell cycle."(資料より)という文を,「遺伝子と機能の間の強い関係」と解釈できるが,「発生(expressed)であり,機能するとは言っていない」とも解釈できる.

*4:メモリを多く消費しても,他の手法と比べて最高の精度を得られるのなら,それを使用するはずですが,「廃れ気味」という言い回しから,精度は他の代表的な手法と大差なしと理解しました.