わさっきhb

大学(教育研究)とか ,親馬鹿とか,和歌山とか,とか,とか.

テキスト処理の基礎基本

先日,研究グループ内のゼミで,私がふだん指導していない卒研生の発表を聴かせてもらいまして,手続きはまあいいんだけど,その手続きを行う対象となるデータが実態を反映していなければ,直感あるいは常識に反する結果になってしまうのではないかと指摘したところ,学生もそのあたりは意識しているという返答が来まして,まあ何をするにも配慮が必要だなあと思ったものです.
そんな曖昧な前振りはさておき,最近読み終えた本:

コーパスの作成と活用 (講座ITと日本語研究)

コーパスの作成と活用 (講座ITと日本語研究)

書誌情報では2人の編者が出てきますが,内容としては,編者と異なる5人の著者が1人1章で,コーパスの作成,取得,処理方法,利用の心構え,研究事例紹介を書いています.
あとで読み直したくなるかもしれないページを,抜き出しておきます.

  • p.33: OCRソフトの誤認識例
  • pp.47-49: コーパスとは
  • p.53: 新聞記事データ集
  • p.59: 生産実態(出版)サブコーパスと流通実態(図書館)サブコーパス
  • p.67: 全文検索システムひまわり
  • p.106: Excelのフィルタを利用して助詞だけ抜き出す
  • p.120: データ処理の心構え*1
  • pp.123-124: 本文批評(テキストクリティック)の必要性
  • pp.130-133: JIS漢字のねじれの事例
  • pp.144-146: 言語研究と検定
  • p.149: Rの欠点
  • pp.150-151: ウェブ統計ソフトSTAR
  • p.159: 1を加えて常用対数変換
  • p.167: 年別のコーパス利用分野
  • p.188: 「ありません」「ないです」
  • pp.225-227: これからのコーパス

ゼミでした指摘についても,同趣旨の記述が見つかりました.

(略)代表性を有するコーパスであるというためには,ある言語(日本語),ある言語変種(日本語の共通語)において母集団を想定し,その母集団を正しく推定することのできる標本を採取することが必要である.(略)例えば,自分が読むために所有していた推理小説が10冊あり,それをテキスト化したものをコーパスと呼べるのかどうか,ということである.(略)仮に推理小説コーパスとして代表性を考えると,少なくとも日本語で書かれた現代の推理小説全体を正しく推定できることのできる10冊であるという保証が必要である.(略)
(p.48)

ただし,統計的検定の考え方に関する記述,具体的にはpp.145-146の(1)(2)の説明のところだけは,それでいいのかなという思いもあります.研究室の学生に読んでもらいたい,検定の復習*2の第一歩となるページを挙げることにします.

*1:節見出しは「データ処理の本質とは何か」となっているが,本質に迫り切れていないような.

*2:確率統計の科目で,実際に手を動かしているかはさておき,学んでいるはずなので.