先日,研究グループ内のゼミで,私がふだん指導していない卒研生の発表を聴かせてもらいまして,手続きはまあいいんだけど,その手続きを行う対象となるデータが実態を反映していなければ,直感あるいは常識に反する結果になってしまうのではないかと指摘したところ,学生もそのあたりは意識しているという返答が来まして,まあ何をするにも配慮が必要だなあと思ったものです.
そんな曖昧な前振りはさておき,最近読み終えた本:
- 作者: 荻野綱男,田野村忠温
- 出版社/メーカー: 明治書院
- 発売日: 2011/06/01
- メディア: 単行本
- クリック: 11回
- この商品を含むブログ (2件) を見る
あとで読み直したくなるかもしれないページを,抜き出しておきます.
- p.33: OCRソフトの誤認識例
- pp.47-49: コーパスとは
- p.53: 新聞記事データ集
- p.59: 生産実態(出版)サブコーパスと流通実態(図書館)サブコーパス
- p.67: 全文検索システムひまわり
- p.106: Excelのフィルタを利用して助詞だけ抜き出す
- p.120: データ処理の心構え*1
- pp.123-124: 本文批評(テキストクリティック)の必要性
- pp.130-133: JIS漢字のねじれの事例
- pp.144-146: 言語研究と検定
- p.149: Rの欠点
- pp.150-151: ウェブ統計ソフトSTAR
- p.159: 1を加えて常用対数変換
- p.167: 年別のコーパス利用分野
- p.188: 「ありません」「ないです」
- pp.225-227: これからのコーパス
ゼミでした指摘についても,同趣旨の記述が見つかりました.
(略)代表性を有するコーパスであるというためには,ある言語(日本語),ある言語変種(日本語の共通語)において母集団を想定し,その母集団を正しく推定することのできる標本を採取することが必要である.(略)例えば,自分が読むために所有していた推理小説が10冊あり,それをテキスト化したものをコーパスと呼べるのかどうか,ということである.(略)仮に推理小説のコーパスとして代表性を考えると,少なくとも日本語で書かれた現代の推理小説全体を正しく推定できることのできる10冊であるという保証が必要である.(略)
(p.48)
ただし,統計的検定の考え方に関する記述,具体的にはpp.145-146の(1)(2)の説明のところだけは,それでいいのかなという思いもあります.研究室の学生に読んでもらいたい,検定の復習*2の第一歩となるページを挙げることにします.