hatedma: はてなダイアリーマネジャー

はてなダイアリーの記事データを有効活用するためのRuby スクリプト，hatedma.rbを作成しました．GitHub - takehiko/hatedma: Hatena Diary Managerより参照・取得できます．

hatedma.rbを使うと，はてなダイアリーの記事データをエントリごとにファイル化し，いくつかの方法で検索を行えます．
シェルで実行します．特定のフォルダ（デフォルトでは，~/.hatedma）にファイルが作られ，hatedma.rbおよび他のソフトウェア*1で検索ができます．
記事内の[...]による表記（タグ）を取り出し，同一タグの記事情報を出力することができます．ISBNおよびASIN記法については，Ruby/AWSと連携して，書籍や商品の詳細情報を取得できます．
記事情報の出力の仕方には，「URL」「ファイルのパス」「本文（ソース）」があり，コマンドオプションで制御できます．
はてなへのアクセスは一切行いません．処理のもととなるファイル（記事データ）は，あらかじめ取得したものを使用します．

シェルとRuby処理系が必要です．（Ruby 1.8.7/1.9.3/2.0.0（スナップショット版を含む）で動作確認をしています．）
はてなダイアリーの記事データのファイルを取得しておきます．取得方法は次のとおりです．
1. 自分の（ログイン済み状態で）はてなダイアリーの「管理」をクリックします．
2. 管理ページで，左のメニューにある「データ管理」をクリックします．
3. 「はてなの日記データ形式」のすぐ下の「ダウンロード」をクリックします．
4. ファイル保存のポップアップが出て，OKボタンを押すと，ファイルが保存されます．ファイル名は，「ユーザ名.xml」です．
書籍や商品の詳細情報を取得するには，Ruby/AWSで商品検索の準備のところで書いた，「AWSアカウントの取得」「ruby-aawsの導入」「~/.amazonrcの作成」を行っておきます．（hatedma.rbの-Bオプション，-Wオプションを使う予定がなければ，しなくてもかまいません．）
hatedma.rbを，https://github.com/takehiko/hatedmaより取得します．テキストエディタでファイルを開き，「HATENA_USERNAME =」の後を自分のユーザ名に変更して，保存します．実行属性をつけてから，コマンドサーチパス上の適当な場所に置きます．

上記のうち，「ユーザ名」は，シェルを使う際のユーザ名（環境変数USERなどの値）ではなく，はてな利用におけるユーザ名を指します．以下も同じです．

mkdir ~/.hatedmaを実行し，ディレクトリを作ります．そして，記事データのファイルを，そのディレクトリに置きます．
hatedma.rb -Aを実行します．URLが表示されます（1つのURL表示につき，1つのファイルが保存されます）．すべての記事内容をファイル化したら，この処理は終了です．
書籍や商品の詳細情報を取得するには，hatedma.rb -Bを実行します．Amazonのサイトにアクセスするため，少し時間がかかります．

新しい記事データを取得したら，ディレクトリ~/.hatedmaの作成を除く上記作業をやり直すことになります．なお，-Bオプションによる処理では，すでに取得している情報の再検索はしないので，2回目以降の処理時間は短くなります．

上記の処理を終えると，~/.hatedma内に，次のディレクトリやファイルが作成されます．

data：記事ごとに分けられたファイルを格納するディレクトリです．例えば，当雑記の昨日のエントリは，~/.hatedma/data/2012/01/12_1326314349.txtに保存されます．
data.old：一つ前のdataです．
ユーザ名_title.txt：「URL」「カテゴリー」「記事タイトル」のリストです．文字コードはUTF-8，改行コードはCR LFとしており，Windowsのメモ帳で開いても，乱れることなく表示できます．
ユーザ名_date.txt：「URL」「日付」「記事タイトル」のリストです．過去の記事を貼り付ける際の使用を，念頭に置いています．文字コードなどは，ユーザ名_title.txtと同じです．
tag.pstore：記事内に書かれた各タグについて，どの記事に書かれているかをハッシュ化したものを，PStoreを用いて保持しています．
tag.pstore.old：一つ前のtag.pstoreです．
amazon.pstore：ISBNまたはASINのそれぞれについて，詳細情報をハッシュ化したものを，PStoreを用いて保持しています．

検索コマンドの例を示します．

hatedma.rb -S pdfとすると，記事ファイルすべてについて，「pdf」を検索し，該当記事を出力します．全検索なので時間がかかります．
hatedma.rb -S pdf -r 2011とすると，2011年の記事ファイルすべてについて，「pdf」を検索し，該当記事を出力します．
hatedma.rb -S pdf -r 201101とすると，2011年1月の記事ファイルすべてについて，「pdf」を検索し，該当記事を出力します．
hatedma.rb -T Cとすると，「[C]」が書かれている記事を出力します．
hatedma.rb -T 0895792524とすると，「［isbn:0895792524（それ以降は任意）］」が書かれている記事を出力します．
hatedma.rb -W 0895792524とすると（そしてRuby/AWSが利用可能になっていれば），0895792524をASINとして検索し，製品（この場合は書籍）の情報を出力します．

上記の-Sまたは-Tオプションをつけた検索では，該当記事のURLを出力します．-fオプションを同時につけて検索すれば，代わりにファイルパスを出力します．-bオプションだと，本文（ソース）を出力します．

hatedma.rb -Gを実行すると，タグと，それを含む記事を出力します．これも，-fまたは-bを指定することができます．
ユーザ名や，各ファイルを格納するディレクトリ名(~/.hatedma)を変更したければ，「-n ユーザ名」「-d ディレクトリ名」を指定します．
hatedma.rb -Eで，読み書きする各ファイルの所在が出ます．-n，-dオプションを同時に指定できます．最後の「file_diary =」の値が，実在するファイル名でなければ（典型的にはユーザ名になっていたら），おそらく，-Aによるファイルの分析（記事データファイルの読み出し）に失敗します．
hatedma.rb --helpで，オプションの説明が出ます．

*1:高機能なgrep型検索として，Rakがおすすめです．

わさっきhb