Python で,ファイル更新を監視

目次
  1. エグゼクティブサマリー
  2. 前準備(必要ソフトウェアの入手)
  3. 実行のための準備とその確認手順(Windows 前提)
  4. 概要・使い方・実行上の注意
  5. ソースコード
  6. まとめ

1. エグゼクティブサマリー

本記事では,watchdog(ファイルシステムの変更を検知する Python ライブラリ)を用いて,指定ディレクトリ内の特定ファイルの更新を監視し,追記内容を表示するプログラムを扱う。

引数でディレクトリを指定して実行する。引数がないときは,プログラムが置かれているディレクトリを使用する。そのディレクトリ内の log.txt(ファイル名は FILENAME で設定)の更新を監視する。変更検出には MD5 ハッシュを使用し,ファイルへの「追記」のみを前提として,追記された内容を表示する。デバウンス機能により,同一変更に対する重複イベントを抑制する。プログラムの停止には Ctrl + C を使用する。

2. 前準備(必要ソフトウェアの入手)

ここでは、最低限の事前準備について説明する。機械学習や深層学習を行う場合は、NVIDIA CUDA、Visual Studio、Cursorなどを追加でインストールすると便利である。これらについては別ページ https://www.kkaneko.jp/cc/dev/aiassist.htmlで詳しく解説しているので、必要に応じて参照してください。

Python 3.12 のインストール(Windows 上) [クリックして展開]

以下のいずれかの方法で Python 3.12 をインストールする。Python がインストール済みの場合、この手順は不要である。

方法1:winget によるインストール

管理者権限コマンドプロンプトで以下を実行する。管理者権限のコマンドプロンプトを起動するには、Windows キーまたはスタートメニューから「cmd」と入力し、表示された「コマンドプロンプト」を右クリックして「管理者として実行」を選択する。

winget install --scope machine --id Python.Python.3.12 -e --silent --disable-interactivity --force --accept-source-agreements --accept-package-agreements --override "/quiet InstallAllUsers=1 PrependPath=1 Include_pip=1 Include_test=0 Include_launcher=1 InstallLauncherAllUsers=1"

--scope machine を指定することで、システム全体(全ユーザー向け)にインストールされる。このオプションの実行には管理者権限が必要である。インストール完了後、コマンドプロンプトを再起動すると PATH が自動的に設定される。

方法2:インストーラーによるインストール

  1. Python 公式サイト(https://www.python.org/downloads/)にアクセスし、「Download Python 3.x.x」ボタンから Windows 用インストーラーをダウンロードする。
  2. ダウンロードしたインストーラーを実行する。
  3. 初期画面の下部に表示される「Add python.exe to PATH」に必ずチェックを入れてから「Customize installation」を選択する。このチェックを入れ忘れると、コマンドプロンプトから python コマンドを実行できない。
  4. 「Install Python 3.xx for all users」にチェックを入れ、「Install」をクリックする。

インストールの確認

コマンドプロンプトで以下を実行する。

python --version

バージョン番号(例:Python 3.12.x)が表示されればインストール成功である。「'python' は、内部コマンドまたは外部コマンドとして認識されていません。」と表示される場合は、インストールが正常に完了していない。

AIエディタ Windsurf のインストール(Windows 上) [クリックして展開]

Pythonプログラムの編集・実行には、AIエディタの利用を推奨する。ここでは、Windsurfのインストールを説明する。Windsurf がインストール済みの場合、この手順は不要である。

管理者権限コマンドプロンプトで以下を実行する。管理者権限のコマンドプロンプトを起動するには、Windows キーまたはスタートメニューから「cmd」と入力し、表示された「コマンドプロンプト」を右クリックして「管理者として実行」を選択する。

winget install --scope machine --id Codeium.Windsurf -e --silent --disable-interactivity --force --accept-source-agreements --accept-package-agreements --custom "/SP- /SUPPRESSMSGBOXES /NORESTART /CLOSEAPPLICATIONS /DIR=""C:\Program Files\Windsurf"" /MERGETASKS=!runcode,addtopath,associatewithfiles,!desktopicon"
powershell -Command "$env:Path=[System.Environment]::GetEnvironmentVariable('Path','Machine')+';'+[System.Environment]::GetEnvironmentVariable('Path','User'); windsurf --install-extension MS-CEINTL.vscode-language-pack-ja --force; windsurf --install-extension ms-python.python --force; windsurf --install-extension Codeium.windsurfPyright --force"

--scope machine を指定することで、システム全体(全ユーザー向け)にインストールされる。このオプションの実行には管理者権限が必要である。インストール完了後、コマンドプロンプトを再起動すると PATH が自動的に設定される。

関連する外部ページ

Windsurf の公式ページ: https://windsurf.com/

watchdog のインストール [クリックして展開]

管理者権限コマンドプロンプトで以下を実行する。管理者権限のコマンドプロンプトを起動するには、Windows キーまたはスタートメニューから「cmd」と入力し、表示された「コマンドプロンプト」を右クリックして「管理者として実行」を選択する。

python -m pip install -U watchdog

3. 実行のための準備とその確認手順(Windows 前提)

3.1 プログラムファイルの準備

第5章のソースコードをテキストエディタ(メモ帳,Windsurf 等)に貼り付け,watch.py として保存する(文字コード:UTF-8).監視対象の log.txt を同じディレクトリに作成しておく.

3.2 実行コマンド

コマンドプロンプトでファイルの保存先ディレクトリに移動し,以下を実行する.

python watch.py

引数でディレクトリを指定することもできる.

python watch.py C:\path\to\directory

3.3 動作確認チェックリスト

確認項目期待される結果
引数なしで起動プログラムが置かれているディレクトリの log.txt を監視し,待機状態になる
引数でディレクトリを指定して起動指定ディレクトリの log.txt を監視し,待機状態になる
log.txt にテキストを追記して保存追記内容が表示される
Ctrl + C を押下プログラムが停止する

4. 概要・使い方・実行上の注意

本プログラムは,watchdog ライブラリの ObserverFileSystemEventHandler を用いて,ファイルシステムの変更イベントを監視する。

引数でディレクトリを指定する。引数がないときは,プログラムが置かれているディレクトリ(os.path.abspath(os.path.dirname(__file__)) で取得)を使用する。そのディレクトリ内の log.txt(ファイル名は FILENAME で設定)の更新を監視する。

on_modified イベント発生時に,ファイルの MD5 ハッシュ値を前回の値と比較し,変更があった場合のみ処理を実行する。ファイルへの「追記」のみを前提とし,前回読み取った位置(self.pos)から末尾までの内容を読み取って表示する。

OS のファイルシステム通知では,1回の保存操作に対して複数の on_modified イベントが発火することがある。本プログラムでは,前回のイベントから 0.5 秒以内のイベントを無視するデバウンス機能(self.last_event_time)により,重複出力を防止する。

プログラムの停止には Ctrl + C を使用する。

ソースコードは第5章に掲載する。

5. ソースコード

# -*- coding: utf-8 -*-
# 事前準備
#   pip install -U watchdog
# 使い方
#   引数でディレクトリを指定する.引数がないときは,
#   このプログラムが置かれているディレクトリを使用する.
#   そのディレクトリ内のファイル log.txt(ファイル名は FILENAME で設定)の更新を監視する.
#   プログラムを止めるには Ctrl + C(同時押し)
# 参考 Web ページ
#   https://pythonhosted.org/watchdog/quickstart.html#a-simple-example

import sys
import time
import os
import hashlib
from watchdog.observers import Observer
from watchdog.events import FileSystemEventHandler

FILENAME = 'log.txt'

class ChangeHandler(FileSystemEventHandler):
    def __init__(self):
        with open(FILENAME, 'rb') as f:
            self.oldmd5 = hashlib.md5(f.read()).hexdigest()
            self.pos = f.tell()
        self.last_event_time = 0

    def on_modified(self, event):
        if event.is_directory or os.path.basename(event.src_path) != FILENAME:
            return
        now = time.time()
        if now - self.last_event_time < 0.5:
            return
        self.last_event_time = now
        with open(FILENAME, 'rb') as f:
            mymd5 = hashlib.md5(f.read()).hexdigest()
        if self.oldmd5 == mymd5:
            return
        self.oldmd5 = mymd5
        with open(FILENAME, 'r') as f:
            f.seek(self.pos)
            dat = f.read()
            self.pos = f.tell()
        if dat:
            print(dat, end='')

if __name__ == '__main__':
    path = sys.argv[1] if len(sys.argv) > 1 else os.path.abspath(os.path.dirname(__file__))
    os.chdir(path)
    observer = Observer()
    observer.schedule(ChangeHandler(), path, recursive=False)
    observer.start()
    while True:
        time.sleep(5)

6. まとめ

watchdog によるファイル監視

watchdog はファイルシステムの変更を検知する Python ライブラリである。ObserverFileSystemEventHandler を用いて,指定ディレクトリ内のファイル変更イベントを監視する。

MD5 ハッシュによる変更検出

on_modified イベント発生時に,ファイルの MD5 ハッシュ値を前回の値と比較し,変更があった場合のみ処理を実行する。

追記内容の差分表示

ファイルへの「追記」のみを前提とし,前回読み取った位置から末尾までの内容を読み取って表示する。

デバウンスによる重複イベントの抑制

OS のファイルシステム通知では,1回の保存操作に対して複数のイベントが発火することがある。前回のイベントから 0.5 秒以内のイベントを無視することで,重複出力を防止する。

コマンドライン引数による監視ディレクトリの指定

引数でディレクトリを指定する。引数がないときは,プログラムが置かれているディレクトリを使用する。