Cyclone Data Processing Pipeline for LLM Training

📋 Project Overview

This pipeline transforms raw IMD (Indian Meteorological Department) Best Tracks cyclone data into a comprehensive dataset suitable for Large Language Model (LLM) training, specifically designed for cyclone intensity prediction and tracking using transformers.

Original Dataset: c08063_Best Tracks__Data (1982-2024).xls
Final Output: LLM-ready dataset with rich text context
Time Period: 1982-2024 (43 years)
Data Retention: 8,070 records (86.6% retention rate)

🗂️ Directory Structure

Cyclone_Processing_Pipeline/
│
├── data/
│   └── c08063_Best Tracks__Data (1982-2024).xls  # Original IMD data
│
├── scripts/
│   ├── 00_Data_Cleaning.py                    # Initial data cleaning
│   ├── final_cleanup.py                       # Final cleanup and validation
│   ├── 01_Data_Preprocessing_and_EDA.py       # EDA and analysis
│   ├── llm_data_cleaning.py                   # LLM-focused data extraction
│   ├── analyze_text_patterns.py               # Text pattern analysis
│   └── analyze_llm_dataset.py                 # LLM dataset analysis
│
├── output/
│   └── [Generated output files will be here]
│
├── logs/
│   └── pipeline_YYYYMMDD_HHMMSS.log          # Pipeline execution logs
│
├── README.md                                  # This file
└── LLM_Data_Cleaning_Methodology.md          # Detailed methodology

🚀 Quick Start

Prerequisites

Python 3.8+
Required packages: pandas, numpy, matplotlib, seaborn, openpyxl
Virtual environment (recommended)

Installation

# Clone or navigate to the project directory
cd Cyclone_Processing_Pipeline

# Install required packages
pip install pandas numpy matplotlib seaborn openpyxl

Running the Pipeline

# Option 1: Run complete pipeline automatically
python run_pipeline.py
# All output will be saved to logs/pipeline_YYYYMMDD_HHMMSS.log

# Option 2: Run individual steps
cd scripts

# Step 1: Initial data cleaning
python 00_Data_Cleaning.py

# Step 2: Final cleanup and validation
python final_cleanup.py

# Step 3: EDA and analysis
python 01_Data_Preprocessing_and_EDA.py

# Step 4: LLM data extraction
python llm_data_cleaning.py

# Step 5: Text pattern analysis
python analyze_text_patterns.py

# Step 6: LLM dataset analysis
python analyze_llm_dataset.py

📊 Processing Pipeline Overview

Phase 1: Initial Data Cleaning (`00_Data_Cleaning.py`)

Objective: Clean the raw Excel data while preserving maximum information

Key Features:

Multi-sheet Excel processing (43 sheets, one per year)
Header standardization across different years
Data type validation and cleaning
Time format standardization (HHMM)
Geographic coordinate validation
Meteorological parameter validation

Output: cleaned_cyclone_data.csv

Phase 2: Final Cleanup (`final_cleanup.py`)

Objective: Remove unwanted columns and finalize dataset structure

Key Features:

Remove duplicate and corrupted columns
Reorder columns in logical sequence
Final data quality validation
Duplicate row removal
Dataset summary generation

Output: cleaned_cyclone_data_final.csv

Phase 3: EDA and Analysis (`01_Data_Preprocessing_and_EDA.py`)

Objective: Comprehensive exploratory data analysis

Key Features:

Temporal analysis (yearly, monthly patterns)
Geographic analysis (basin distribution)
Intensity analysis (grade distribution)
Correlation analysis
Visualization generation
Data quality assessment

Output: Multiple analysis plots and statistics

Phase 4: LLM Data Extraction (`llm_data_cleaning.py`)

Objective: Create LLM-ready dataset with rich text context

Key Features:

Text annotation extraction and classification
Merged content preservation
Context text generation
Rich feature engineering
Multi-format data preservation

Output: llm_cyclone_dataset.csv (8,070 records, 23 columns)

Phase 5: Text Pattern Analysis (`analyze_text_patterns.py`)

Objective: Analyze text patterns in specific sheets (2009, 2024)

Key Features:

Text pattern identification
Merged content analysis
Annotation type classification
Pattern statistics generation

Output: text_patterns_analysis.csv, merged_content_analysis.csv

Phase 6: LLM Dataset Analysis (`analyze_llm_dataset.py`)

Objective: Comprehensive analysis of the final LLM dataset

Key Features:

Rich text content analysis
Context length statistics
Annotation type distribution
Visualization generation
Training example extraction

Output: Multiple analysis files and visualizations

📈 Data Quality Metrics

Metric	Value	Description
Data Retention Rate	86.6%	8,070 out of 8,928 original rows
Text Annotation Coverage	8.1%	651 records with text annotations
Merged Content Coverage	3.2%	258 records with merged content
Average Context Length	155.3 chars	Rich context for LLM training
Annotation Types	5	CROSSING_EVENT, WEAKENING_EVENT, etc.
Time Period	43 years	1982-2024 complete coverage
Unique Cyclones	115	Diverse cyclone patterns

🎯 LLM Training Features

Structured Features

Basic Cyclone Data: Year, Name, Basin, Date, Time
Geographic Data: Latitude, Longitude
Meteorological Data: Grade, Wind_Speed, Central_Pressure, CI_Number
Derived Features: Pressure_Drop, Outermost_Isobar, Size

Text Features

Text_Annotations: Structured text annotations with type classification
Annotation_Count: Number of annotations per record
Merged_Content: Multi-column text content
Has_Merged_Content: Boolean flag for merged content
Context_Text: Rich natural language context
Context_Length: Character count for context richness

Annotation Types Discovered

CROSSING_EVENT: 235 instances (landfall descriptions)
WEAKENING_EVENT: 295 instances (intensity changes)
COORDINATE_REFERENCE: 78 instances (geographic details)
TIME_REFERENCE: 41 instances (temporal information)
LOCATION_REFERENCE: 8 instances (place names)

🚀 Applications for Cyclone Prediction

1. Intensity Prediction

Input: Historical cyclone data + text descriptions
Output: Predicted intensity changes (wind speed, pressure)
Model: Transformer with sequence modeling

2. Path Tracking

Input: Current cyclone state + historical path
Output: Predicted path coordinates and landfall location
Model: Transformer with geographic attention

3. Natural Language Generation

Input: Structured cyclone data
Output: Natural language cyclone reports
Model: Transformer with text generation capabilities

4. Knowledge Extraction

Input: Historical cyclone descriptions
Output: Structured meteorological insights
Model: Transformer with information extraction

📁 Output Files

Main Datasets (3 CSV Files)

output/cleaned_cyclone_data.csv (564KB, 7,715 records)
- Purpose: Initial cleaned dataset after basic data cleaning
- Significance: First step in data quality improvement, contains standardized headers and cleaned data types
- Use Case: Baseline for comparison with final dataset
output/cleaned_cyclone_data_final.csv (491KB, 7,715 records)
- Purpose: Final cleaned dataset with optimized structure
- Significance: Removes duplicate/corrupted columns, reorders for logical sequence
- Use Case: Primary dataset for traditional cyclone analysis and modeling
output/llm_cyclone_dataset.csv (2.1MB, 8,070 records)
- Purpose: LLM-ready dataset with rich text context
- Significance: Core training dataset for transformer models with structured + text features
- Use Case: Primary dataset for cyclone intensity prediction and tracking with transformers

Analysis Files (6 CSV Files)

output/rich_text_records.csv (351KB, 668 records)
- Purpose: Subset of records containing rich text annotations
- Significance: High-value training examples with natural language context
- Use Case: Fine-tuning models on text-rich cyclone events
output/training_examples.csv (26KB, 102 records)
- Purpose: Curated sample of diverse training examples
- Significance: Representative examples showing different annotation types and patterns
- Use Case: Model validation, testing, and demonstration
output/dataset_summary.csv (247B, 3 records)
- Purpose: Statistical summary of the complete dataset
- Significance: Quick overview of data quality, coverage, and distribution
- Use Case: Data quality assessment and reporting
output/text_patterns_analysis.csv (17KB, 688 records)
- Purpose: Detailed analysis of text patterns in specific sheets (2009, 2024)
- Significance: Understanding text annotation patterns and classification
- Use Case: Improving text extraction algorithms and pattern recognition
output/merged_content_analysis.csv (9.6KB, 64 records)
- Purpose: Analysis of merged cell content across sheets
- Significance: Preserves complex multi-column text information
- Use Case: Enhanced context generation for LLM training
output/processed_cyclone_data.csv (786KB, 7,715 records)
- Purpose: Intermediate processed dataset with enhanced features
- Significance: Contains derived features and enhanced data structure
- Use Case: Feature engineering and advanced analysis

Log Files

logs/pipeline_YYYYMMDD_HHMMSS.log: Complete pipeline execution logs with timestamps

Visualizations

cyclone_eda_plots.png: EDA visualizations
correlation_heatmap.png: Correlation analysis
time_series.png: Temporal analysis
geographic_distribution.png: Geographic analysis
llm_dataset_analysis_fixed.png: LLM dataset analysis

🔧 Technical Details

Key Libraries Used

pandas: Data manipulation and cleaning
numpy: Numerical operations
matplotlib/seaborn: Data visualization
openpyxl: Excel file processing
re: Regular expressions for text processing

Processing Pipeline

Sheet-by-Sheet Processing: Handle each year's data individually
Header Detection: Automatically identify and standardize headers
Text Extraction: Preserve all descriptive text content
Data Standardization: Consistent column names and data types
Context Generation: Create rich context for LLM training
Quality Validation: Ensure data integrity and completeness

Performance Considerations

Memory Efficient: Process sheets individually to manage memory
Scalable: Methodology applicable to larger datasets
Reproducible: Consistent results across different runs
Logging: Complete execution logs saved for debugging and reproducibility

🎯 Success Metrics

Data Quality Achievements

✅ 86.6% Data Retention: Preserved most original data
✅ 100% Text Content Preserved: All annotations and merged content extracted
✅ 5 Annotation Types: Comprehensive text classification system
✅ Rich Context: Average 155.3 characters of context per record
✅ 43-Year Coverage: Complete temporal coverage (1982-2024)
✅ 115 Unique Cyclones: Comprehensive cyclone diversity

LLM Training Readiness

✅ Structured + Text Data: Perfect for transformer model training
✅ Rich Context: Natural language descriptions for each record
✅ Diverse Patterns: Multiple annotation types and content styles
✅ Temporal Patterns: Long-term cyclone evolution data
✅ Geographic Coverage: Multiple basins and regions

🚀 Future Enhancements

Potential Improvements

Advanced Text Classification: Machine learning-based annotation classification
Semantic Analysis: Extract deeper meaning from text descriptions
Multi-Modal Features: Incorporate satellite imagery data
Real-Time Processing: Stream processing for live cyclone data
Cross-Dataset Integration: Combine with other meteorological datasets

LLM Training Applications

Fine-tune Large Language Models: Specialized cyclone prediction models
Develop Chatbots: Interactive cyclone information systems
Automated Report Generation: Natural language cyclone reports
Knowledge Discovery: Extract patterns from historical data
Educational Tools: AI-powered cyclone learning systems

📝 Usage Examples

For Intensity Prediction

import pandas as pd

# Load the LLM dataset
df = pd.read_csv("output/llm_cyclone_dataset.csv")

# Filter for intensity-related annotations
intensity_data = df[df['Text_Annotations'].str.contains('WEAKENING_EVENT', na=False)]

# Use for transformer training
# Input: Context_Text + structured features
# Output: Next intensity prediction

For Path Tracking

# Filter for crossing events
tracking_data = df[df['Text_Annotations'].str.contains('CROSSING_EVENT', na=False)]

# Use for path prediction
# Input: Historical coordinates + text context
# Output: Next position prediction

For Model Training

# Load the complete dataset
df = pd.read_csv("output/llm_cyclone_dataset.csv")

# Prepare training data
training_data = df[df['Context_Length'] > 50].copy()

# Use for transformer fine-tuning
# This dataset is ready for cyclone prediction model training

🤝 Contributing

This pipeline is designed to be:

Reproducible: All steps are documented and automated
Extensible: Easy to add new processing steps
Maintainable: Clear code structure and documentation
Scalable: Applicable to larger datasets

For questions or improvements, please refer to the detailed methodology in LLM_Data_Cleaning_Methodology.md.

👨‍💻 Development

This cyclone data processing pipeline was developed to address the challenges of transforming raw meteorological data into a format suitable for modern transformer-based models. The pipeline incorporates advanced text extraction techniques, data cleaning methodologies, and context generation to create a comprehensive dataset for cyclone intensity prediction and tracking.

📄 License

This project is developed for cyclone prediction research using transformers. The methodology and scripts are provided for research and educational purposes.

📞 Contact

For questions about the cyclone data processing pipeline or LLM training methodology, please refer to the comprehensive documentation in LLM_Data_Cleaning_Methodology.md.

🎯 Project Achievements

Total Processing Time: ~15 minutes
Data Quality Score: 86.6% retention with 100% text preservation
LLM Training Readiness: Excellent (8,070 rich context records)

This pipeline successfully demonstrates the potential of combining structured meteorological data with natural language processing techniques for advanced cyclone prediction systems.

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
scripts		scripts
.gitignore		.gitignore
LLM_Data_Cleaning_Methodology.md		LLM_Data_Cleaning_Methodology.md
PIPELINE_SUMMARY.md		PIPELINE_SUMMARY.md
README.md		README.md
requirements.txt		requirements.txt
run_pipeline.py		run_pipeline.py

SeedheCode-AI/Cyclone_Processing_Pipeline

Folders and files

Latest commit

History

Repository files navigation

Cyclone Data Processing Pipeline for LLM Training

📋 Project Overview

🗂️ Directory Structure

🚀 Quick Start

Prerequisites

Installation

Running the Pipeline

📊 Processing Pipeline Overview

Phase 1: Initial Data Cleaning (00_Data_Cleaning.py)

Phase 2: Final Cleanup (final_cleanup.py)

Phase 3: EDA and Analysis (01_Data_Preprocessing_and_EDA.py)

Phase 4: LLM Data Extraction (llm_data_cleaning.py)

Phase 5: Text Pattern Analysis (analyze_text_patterns.py)

Phase 6: LLM Dataset Analysis (analyze_llm_dataset.py)

📈 Data Quality Metrics

🎯 LLM Training Features

Structured Features

Text Features

Annotation Types Discovered

🚀 Applications for Cyclone Prediction

1. Intensity Prediction

2. Path Tracking

3. Natural Language Generation

4. Knowledge Extraction

📁 Output Files

Main Datasets (3 CSV Files)

Analysis Files (6 CSV Files)

Log Files

Visualizations

🔧 Technical Details

Key Libraries Used

Processing Pipeline

Performance Considerations

🎯 Success Metrics

Data Quality Achievements

LLM Training Readiness

🚀 Future Enhancements

Potential Improvements

LLM Training Applications

📝 Usage Examples

For Intensity Prediction

For Path Tracking

For Model Training

🤝 Contributing

👨‍💻 Development

📄 License

📞 Contact

🎯 Project Achievements

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Phase 1: Initial Data Cleaning (`00_Data_Cleaning.py`)

Phase 2: Final Cleanup (`final_cleanup.py`)

Phase 3: EDA and Analysis (`01_Data_Preprocessing_and_EDA.py`)

Phase 4: LLM Data Extraction (`llm_data_cleaning.py`)

Phase 5: Text Pattern Analysis (`analyze_text_patterns.py`)

Phase 6: LLM Dataset Analysis (`analyze_llm_dataset.py`)

Packages