Bu projede, İngilizce müşteri yorumları üzerinden duygu analizi (sentiment analysis) gerçekleştirmek amacıyla üç farklı LLM yaklaşımı karşılaştırılmıştır:
- Fine-tuning: DistilBERT modeli özel veri seti ile sıfırdan eğitilmiştir.
- Prompt engineering: Google Gemini API ile zero-shot/few-shot senaryolarda modelden yanıt alınmıştır.
- Data augmentation: Veri dengesizliğini gidermek için T5 tabanlı paraphrasing modeli kullanılmış, ardından genişletilmiş veri setiyle yeniden fine-tuning yapılmıştır.
- Kullanılan model:
distilbert-base-uncased - Kullanılan veri:
restaurant_reviews.csv(pozitif, negatif, nötr yorumlar) - Model,
DistilBertTokenizerFastile tokenleştirilmiş verilerle eğitildi. ReviewDatasetsınıfı ile PyTorch veri kümesi oluşturuldu.- Eğitimden sonra doğruluk metriği ve çıktı örnekleri değerlendirildi.
- Kullanılan model:
gemini-1.5-flash-001(Google Generative AI) - Sıfır örnekli (
zero-shot) ve birkaç örnekli (few-shot) sınıflandırmalar denendi. - JSON formatında review + pred_rating içeren veri Gemini modeline gönderildi.
- Yanıtlar regex ve JSON işlemleri ile ayrıştırıldı ve sınıflandırmalar karşılaştırıldı.
- Problem: Veri setinde
negativeveneutralsınıflarının yetersiz olması - Kullanılan model:
ramsrigouthamg/t5_paraphraser(Hugging Face T5) - FAISS değil; paraphrasing tabanlı augmentation yapılmıştır.
- Her eksik sınıftan 1000+ örnek için 2’şer tane paraphrase üretildi.
- Yeni cümleler orijinal etiketleriyle birleştirildi ve
restaurant_reviews_augmented.csvoluşturuldu. - Bu genişletilmiş veri ile DistilBERT modeli yeniden eğitildi.
- Augmentation öncesi ve sonrası doğruluk skorları karşılaştırıldı.
- Python (pandas, torch, matplotlib, scikit-learn)
- Transformers (Hugging Face: DistilBERT, T5)
- Google Generative AI (
gemini-1.5-flash-001) - Jupyter Notebook
- Colab GPU (CUDA destekli inference için)
- Hugging Face
datasets,tokenizers,AutoModelForSeq2SeqLM
Bu proje Google Colab ortamında çalıştırılmak üzere tasarlanmıştır. Kütüphaneler tipik olarak şunlardır:
pip install torch transformers pandas scikit-learn matplotlib google-generativeai