はてなダイアリーの記事データを有効活用するためのRubyスクリプト,hatedma.rbを改良しました.GitHub - takehiko/hatedma: Hatena Diary Managerより参照・取得できます.
主な修正箇所は次のとおりです.
- 複数アカウントに対応しました.それに伴い,記事ファイルのディレクトリ名が,これまでの「~/.hatedma/data」から「~/.hatedma/はてなユーザー名/data」に変更しています.Elisp (hatedma.el)も,変わっています.
- はてなユーザー名の取得方法を変更しました.「-n (--name)オプション」「環境変数HATENA_USERNAMEの値」「プログラム内の定数HATENA_USERNAMEの値」という順番で,名前を探します.「env HATENA_USERNAME=takehikom ruby hatedma.rb ...」は,「ruby hatedma.rb -n takehikom ...」と等価です.
- カテゴリーごとの「記事数,行数,バイト数,文字数」を集計・出力できるようにしました.ruby hatedma.rb -Aで記事ごとにファイルを作ったあと,ruby hatedma.rb -Kを実行します.
当雑記でhatedma.rb -Kをしてみたところ(記事は昨日まで),記事数が100以上のカテゴリーは以下のとおりでした.
files lines byte_size char_size tag 2627 100614 11159622 4850871 (total) 278 6181 389640 148484 親馬鹿 274 7351 1055608 423339 本 255 10985 1012394 524059 computing 254 8373 1145490 452762 研究室 226 8226 930620 385885 情報教育 223 21792 2824968 1231279 5×3 191 4301 497226 200704 (nonsection) 170 9118 729280 346893 C 138 4184 611023 247429 授業 116 3903 599221 229357 大学教育 108 3607 632631 245700 教育 102 9270 451755 273136 Ruby
「(total)」は全記事,「(nonsection)」はカテゴリーなしの記事です.一つの記事に複数のカテゴリーを設定していることもあります.
記事数の最も多いカテゴリーは,「本」を抜いて「親馬鹿」です.おととし11月から書き始めた「5×3」(いわゆる「かけ算の順序」関連)は,すでに100万字を超えています*1.