UmaGet は、JRA の Web ページからデータをスクレイピングし、Excel ファイルにエクスポートするツールです。JavaScript で開発された Web ページからデータを取得し、構造化されたデータとして Excel に出力します。
- JRA の Web ページからテーブルデータをスクレイピング
- スクレイピングしたデータを JSON 形式で保存
- JSON データを Excel ファイルにエクスポート
- コマンドラインから URL を指定可能
- Python 3.9 以上
- 必要な Python パッケージ(requirements.txt に記載)
- リポジトリをクローンまたはダウンロードします。
git clone https://github.com/yourusername/umaget.git
cd umaget- 仮想環境を作成し、アクティブ化します。
python -m venv venv
source venv/bin/activate # Linuxの場合
# または
venv\Scripts\activate # Windowsの場合- 必要なパッケージをインストールします。
pip install -r requirements.txtpython umaget.py "URL"(URLに'?'や'&'など禁止文字がある場合は""で囲む)URL が指定されない場合は、デフォルトの URL を使用します。URL に特殊文字(例: ? や &)が含まれる場合は、引用符で囲む必要があります。
例:
python umaget.py "https://www.jra.go.jp/JRADB/accessD.html?CNAME=pw01dde0107202502021120250316/1D"python umaget.py --helpスクレイピングしたデータは、以下のファイルに保存されます。
- JSON ファイル:
output/jra_data_YYYYMMDD_HHMMSS.json - Excel ファイル:
output/jra_data_YYYYMMDD_HHMMSS.xlsx
deactivateumaget/
├── README.md # プロジェクトの説明
├── requirements.txt # 必要なパッケージのリスト
├── umaget.py # メインスクリプト
├── analyze_url.py # URL分析スクリプト
├── analyze_url_playwright.py # Playwrightを使用したURL分析スクリプト
├── scrape_to_excel.py # スクレイピングとExcelエクスポートスクリプト
└── output/ # 出力ファイルの保存先
├── *.json # JSONファイル
└── *.xlsx # Excelファイル
このプロジェクトを GitHub にプッシュする場合は、以下の.gitignoreファイルを作成して、大きなファイルや不要なファイルを除外してください。
# 仮想環境
venv/
__pycache__/
*.py[cod]
*$py.class
# 出力ディレクトリ
output/
# macOS関連ファイル
.DS_Store
# Playwrightのブラウザバイナリ
**/playwright/driver/
- Python: プログラミング言語
- Playwright: ブラウザ自動化ライブラリ(JavaScript が実行されたページの取得)
- BeautifulSoup: HTML パーサー(ページ構造の解析)
- openpyxl: Excel ファイル操作ライブラリ
- スクレイピングを行う際は、対象サイトの利用規約を遵守してください。
- 過度なアクセスはサーバーに負荷をかける可能性があるため、適切な間隔を空けてアクセスしてください。
- このツールは教育目的で作成されています。商用利用については、各自で法的な確認を行ってください。
このプロジェクトは MIT ライセンスの下で公開されています。詳細については、LICENSEファイルを参照してください。
- 作成者名
- 連絡先
- このプロジェクトは、JRAの Web ページを参考にしています。
- 各種オープンソースライブラリの開発者に感謝します。