わさっきhb

大学(教育研究)とか ,親馬鹿とか,和歌山とか,とか,とか.

ログ収集プログラムを手直し

 今日の,午前1時になる前のことです.
 当ブログでは,某アクセス解析サービスを利用していまして,あれこれあって,日が替わったら,前日の0時から23時までのアクセス記録をダウンロードするよう,Rubyスクリプトを実行しています.このアクセス記録はHTMLファイルでして,そこから当ブログのURL*1とそのアクセス時刻を抽出するRubyスクリプトも,走らせています.
 このプログラムが,異常終了していました.スクリプトファイルを見ると,うるう日の処理に不具合があることが分かりました.
 さらに不具合は含まれていないかと,100行に満たないコードを見直したところ,もっと深刻なバグがありました.2019年のアクセスのみ,そして旧ブログ(はてなダイアリー)のURLのみを,抽出していました.
 2020年になってから毎日,アクセスの抽出がゼロとなっていました.
 ただし2018年の途中から昨日分まで,アクセス記録のHTMLファイルは7zで圧縮して,きちんと保存していましたので,少しスクリプトファイルを改変して,アクセスを抽出し直してみました.
 ただし,取り出すHTMLファイルは4万を超えます*2.RAMディスクの領域にファイルを展開することで,ストレージへの書き込みを行わないようにしました.抽出結果は,これまで1つのCSVファイルに保存していましたが,年単位に変更しました.
 2時間ほど実行させて,処理を終えました.分量は…

ファイルサイズ 行数
2018 10052484 118528
2019 12280901 138349
2020 11966979 136472
2021 12848679 148121
2022 13724537 159750
2023 15030102 176843
2024 2349955 27626
合計 78253637 905689

 なお,初日は2018年3月3日,最終日は2024年2月29日です.2191日です.行数は新旧ブログのアクセス件数ですので,1日平均413件となります.

*1:botによるアクセスを含みます.

*2:毎日24個,365日,2019年から2023年までの5年間で,24×365×5=43800です.