今日の,午前1時になる前のことです.
当ブログでは,某アクセス解析サービスを利用していまして,あれこれあって,日が替わったら,前日の0時から23時までのアクセス記録をダウンロードするよう,Rubyスクリプトを実行しています.このアクセス記録はHTMLファイルでして,そこから当ブログのURL*1とそのアクセス時刻を抽出するRubyスクリプトも,走らせています.
このプログラムが,異常終了していました.スクリプトファイルを見ると,うるう日の処理に不具合があることが分かりました.
さらに不具合は含まれていないかと,100行に満たないコードを見直したところ,もっと深刻なバグがありました.2019年のアクセスのみ,そして旧ブログ(はてなダイアリー)のURLのみを,抽出していました.
2020年になってから毎日,アクセスの抽出がゼロとなっていました.
ただし2018年の途中から昨日分まで,アクセス記録のHTMLファイルは7zで圧縮して,きちんと保存していましたので,少しスクリプトファイルを改変して,アクセスを抽出し直してみました.
ただし,取り出すHTMLファイルは4万を超えます*2.RAMディスクの領域にファイルを展開することで,ストレージへの書き込みを行わないようにしました.抽出結果は,これまで1つのCSVファイルに保存していましたが,年単位に変更しました.
2時間ほど実行させて,処理を終えました.分量は…
年 | ファイルサイズ | 行数 |
---|---|---|
2018 | 10052484 | 118528 |
2019 | 12280901 | 138349 |
2020 | 11966979 | 136472 |
2021 | 12848679 | 148121 |
2022 | 13724537 | 159750 |
2023 | 15030102 | 176843 |
2024 | 2349955 | 27626 |
合計 | 78253637 | 905689 |
なお,初日は2018年3月3日,最終日は2024年2月29日です.2191日です.行数は新旧ブログのアクセス件数ですので,1日平均413件となります.