わさっきhb

大学(教育研究)とか ,親馬鹿とか,和歌山とか,とか,とか.

雨が降れば傘を差す〜MeCabで形態素解析

といったところで問題です.

先ほどの例では,「吾輩は猫である」が「吾輩」「は」「猫」「で」「ある」に分かれることを見ていきました.みなさんに考えてほしいのは,「雨が降れば傘をさす」という文だと,どうなるかです.
それと,文を集めてみたいと思います.こちらのPCには,形態素解析ソフトウェアのMeCabを,使えるようにしています.答案の中から,形態素解析に“かけて”みると面白そうなのを1つ選んで,試してみることにします.


みなさんの解答が,手元に揃いましたので,それでは答え合わせをしましょう.使用する形態素解析のソフトウェア,そして辞書によって,語の分かれ方は変わってくるため,これは切り出しの1つであり,ただ一つの「正解」というわけではない点には,くれぐれも注意したいところです.
さて,「雨が降れば傘をさす」については…

「雨」「が」「降れ」「ば」「傘」「を」「さす」に分かれました.一番,想像しにくかったのが,「降れば」のところだったのではないかと思います.この画面を見れば分かるように,「降る」という動詞の仮定形「降れ」に,助詞の「ば」がくっついたもの,となっています.
次に②ですが,みなさんの答案の中から,「朝ごはんは米よりもパンがいい」というのを,かけてみることにします.

このようになりました.「よりも」は,2つの助詞「より」「も」に分かれるのですね.英語の二重前置詞に似ています.
私としては,「朝ごはん」が,1つの語になるか,分かれるかが気になっていましたが,分かれましたか.「朝御飯」と,漢字にしてみると,どうでしょうか.

うーん,漢字にしても,「朝」と「御飯」で切れましたか.
ともあれ,こうやって少しずつ,入力となる文をプログラムに与える前にどうなるかを予想し,結果と照らし合わせて,思ったとおりだったとか,ここはこうなるのかとか,考えを巡らせられるのも,楽しいものです.

なにこれ

先週水曜日の授業中の課題です.
授業では,全文検索について解説しました.検索の実演は,講義室からインターネット接続ができなかったので早々とあきらめ,前処理・インデックス,ツリー構造,形態素解析N-gramを説明したあと,短文を形態素解析をするとどうなると思うか,出題したのでした.
「雨が降れば傘をさす」は,松下幸之助の言葉です.和歌山出身の偉人のことばということで,2007年の授業以来,使用しています.この文のビジネスでの解釈も,検索すればいろいろ出てきます.例えば:

シェルの画面についてですが,コマンドや文字列の色は,zsh-syntax-highlightを活用しています(zsh-syntax-highlightingでコマンドラインにsyntax highlightを効かす - Glide Note).
最後のスクリーンショットでは,「^ごはん^御飯」と打ち込み,Enterを押しています.これにより,直前のコマンドのうち「ごはん」を「御飯」に置き換えて,“echo '朝御飯は米よりもパンがいい' | mecab”を実行します.打ち直しや,カーソルキーの使用をすることなく,コマンドを少し修正して実行できる,便利な機能です.zshだけでなくbashでも使えます.


オリジナルサイズの画像をここに置きました.

(最終更新:2013-04-22 早朝)