Skip to content

GuDong2003/Replay-Training-Monitoring

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 

Repository files navigation

Replay Training Monitoring

用于监控 Replay 训练日志并推送飞书通知的轻量脚本。

功能

  • 自动定位最新训练日志(replay-server.log
  • 解析训练状态、Epoch、损失、训练耗时、进度信息
  • 持续监控模式(watch)
  • 飞书机器人卡片通知(开始、进度、完成/提前停止、中断)

项目结构

.
├── monitor.py         # 主程序:日志解析 + 监控 + 飞书推送
├── start_monitor.sh   # 一键启动 watch 模式
└── README.md

环境要求

  • Python 3.9+
  • requests

安装依赖:

pip install requests

快速开始

1) 单次查询当前训练状态

python3 monitor.py

2) 持续监控并推送飞书

先配置飞书 webhook(使用环境变量,不写入代码):

export FEISHU_WEBHOOK="https://open.feishu.cn/open-apis/bot/v2/hook/your-webhook-id"

启动监控:

python3 monitor.py watch

或:

./start_monitor.sh

Ctrl+C 停止监控。

配置项

  • FEISHU_WEBHOOK:飞书机器人 webhook(watch 模式必填)
  • REPLAY_LOG_BASE_PATH:Replay 日志根目录
    默认值:/Users/gudong/Library/Logs/Replay

示例:

export REPLAY_LOG_BASE_PATH="/custom/path/to/Replay/logs"
python3 monitor.py

通知时机

  • 训练开始
  • 训练进度更新(检测到 epoch 增长时)
  • 训练完成或提前停止
  • 训练中断(如进程被终止)

注意事项

  • 请勿在代码中硬编码 webhook。
  • 建议将本项目日志文件加入 .gitignore,避免无关文件进入仓库。

About

轻量级 Python 工具,实时监控 Replay AI 训练进度,自动解析训练日志并通过飞书 Webhook 推送通知。

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors