わさっきhb

大学(教育研究)とか ,親馬鹿とか,和歌山とか,とか,とか.

複数アカウントに対応

はてなダイアリーの記事データを有効活用するためのRubyスクリプト,hatedma.rbを改良しました.GitHub - takehiko/hatedma: Hatena Diary Managerより参照・取得できます.
主な修正箇所は次のとおりです.

  • 複数アカウントに対応しました.それに伴い,記事ファイルのディレクトリ名が,これまでの「~/.hatedma/data」から「~/.hatedma/はてなユーザー名/data」に変更しています.Elisp (hatedma.el)も,変わっています.
  • はてなユーザー名の取得方法を変更しました.「-n (--name)オプション」「環境変数HATENA_USERNAMEの値」「プログラム内の定数HATENA_USERNAMEの値」という順番で,名前を探します.「env HATENA_USERNAME=takehikom ruby hatedma.rb ...」は,「ruby hatedma.rb -n takehikom ...」と等価です.
  • カテゴリーごとの「記事数,行数,バイト数,文字数」を集計・出力できるようにしました.ruby hatedma.rb -Aで記事ごとにファイルを作ったあと,ruby hatedma.rb -Kを実行します.

当雑記でhatedma.rb -Kをしてみたところ(記事は昨日まで),記事数が100以上のカテゴリーは以下のとおりでした.

files lines byte_size char_size tag
2627 100614 11159622 4850871 (total)
278 6181 389640 148484 親馬鹿
274 7351 1055608 423339 本
255 10985 1012394 524059 computing
254 8373 1145490 452762 研究室
226 8226 930620 385885 情報教育
223 21792 2824968 1231279 5×3
191 4301 497226 200704 (nonsection)
170 9118 729280 346893 C
138 4184 611023 247429 授業
116 3903 599221 229357 大学教育
108 3607 632631 245700 教育
102 9270 451755 273136 Ruby

「(total)」は全記事,「(nonsection)」はカテゴリーなしの記事です.一つの記事に複数のカテゴリーを設定していることもあります.
記事数の最も多いカテゴリーは,「本」を抜いて「親馬鹿」です.おととし11月から書き始めた「5×3」(いわゆる「かけ算の順序」関連)は,すでに100万字を超えています*1

*1:勘定している行数・バイト数・文字数は「はてな記法」ベースであること,また(本やWebからの)引用もそのまま字数に入っていることから,実質的に書いた文字数はもっと減ります.