テキスト処理の基礎基本

先日，研究グループ内のゼミで，私がふだん指導していない卒研生の発表を聴かせてもらいまして，手続きはまあいいんだけど，その手続きを行う対象となるデータが実態を反映していなければ，直感あるいは常識に反する結果になってしまうのではないかと指摘したところ，学生もそのあたりは意識しているという返答が来まして，まあ何をするにも配慮が必要だなあと思ったものです．
そんな曖昧な前振りはさておき，最近読み終えた本：

コーパスの作成と活用 (講座ITと日本語研究)

作者: 荻野綱男,田野村忠温
出版社/メーカー: 明治書院
発売日: 2011/06/01
メディア: 単行本
クリック: 11回
この商品を含むブログ (2件) を見る

書誌情報では2人の編者が出てきますが，内容としては，編者と異なる5人の著者が1人1章で，コーパスの作成，取得，処理方法，利用の心構え，研究事例紹介を書いています．
あとで読み直したくなるかもしれないページを，抜き出しておきます．

p.33: OCRソフトの誤認識例
pp.47-49: コーパスとは
p.53: 新聞記事データ集
p.59: 生産実態（出版）サブコーパスと流通実態（図書館）サブコーパス
p.67: 全文検索システムひまわり
p.106: Excelのフィルタを利用して助詞だけ抜き出す
p.120: データ処理の心構え*1
pp.123-124: 本文批評（テキストクリティック）の必要性
pp.130-133: JIS漢字のねじれの事例
pp.144-146: 言語研究と検定
p.149: Rの欠点
pp.150-151: ウェブ統計ソフトSTAR
p.159: 1を加えて常用対数変換
p.167: 年別のコーパス利用分野
p.188: 「ありません」「ないです」
pp.225-227: これからのコーパス

ゼミでした指摘についても，同趣旨の記述が見つかりました．

(略)代表性を有するコーパスであるというためには，ある言語（日本語），ある言語変種（日本語の共通語）において母集団を想定し，その母集団を正しく推定することのできる標本を採取することが必要である．(略)例えば，自分が読むために所有していた推理小説が10冊あり，それをテキスト化したものをコーパスと呼べるのかどうか，ということである．(略)仮に推理小説のコーパスとして代表性を考えると，少なくとも日本語で書かれた現代の推理小説全体を正しく推定できることのできる10冊であるという保証が必要である．(略)
(p.48)

ただし，統計的検定の考え方に関する記述，具体的にはpp.145-146の(1)(2)の説明のところだけは，それでいいのかなという思いもあります．研究室の学生に読んでもらいたい，検定の復習*2の第一歩となるページを挙げることにします．

*1:節見出しは「データ処理の本質とは何か」となっているが，本質に迫り切れていないような．

*2:確率統計の科目で，実際に手を動かしているかはさておき，学んでいるはずなので．