Turkish Word Root Analysis Project

A comprehensive project for analyzing Turkish word roots using Wikipedia articles, TDK dictionary data, and large language models (Gemma/Gemini). The project aims to identify and validate Turkish word roots through various methods.

Project Overview

This project combines multiple approaches to analyze Turkish word roots:

Wikipedia corpus analysis
Turkish dictionary (TDK) integration
Large Language Model assistance
Suffix stripping algorithms

Components

1. Wikipedia Analysis (`wikipedia_kok.ipynb`)

Loads Turkish Wikipedia dataset (~535K articles)
Implements suffix stripping algorithm
Processes text in parallel for efficiency
Generates root candidates from Wikipedia corpus

2. Root Selection with Gemma (`gemma_kokleri_sec.ipynb`)

Uses Gemma 2.0 (27B) model for root validation
Implements comprehensive Turkish suffix list (249 suffixes)
Processes words in chunks for efficient analysis
Filters non-Turkish words and proper nouns

3. Root Correction with Gemini (`gemini_kokleri_duzelt.ipynb`)

Uses Google's Gemini model for root verification
Processes and validates root candidates
Combines results with existing root dictionary
Saves validated roots to JSON format

4. Dictionary Integration (`sozluk/sozluk.ipynb`)

Integrates TDK dictionary database
Provides word meanings and etymology
Contains 8 related tables:
- madde (words)
- anlam (meanings)
- ornek (examples)
- ozellik (properties)
- etc.

Data Files

Large Files

Due to GitHub's file size limitations, large files have been split into smaller chunks:

Dictionary Data

The TDK dictionary data (sozluk/gts.json, ~104 MB) is split into three parts:

sozluk/gts.json.part_aa
sozluk/gts.json.part_ab
sozluk/gts.json.part_ac

To merge these files into the original:

# On Unix-like systems (Linux/MacOS):
cat sozluk/gts.json.part_* > sozluk/gts.json

# On Windows (PowerShell):
Get-Content sozluk/gts.json.part_* | Set-Content sozluk/gts.json

# On Windows (Command Prompt):
copy /b sozluk\gts.json.part_* sozluk\gts.json

For contributors who need to split large files:

# On Unix-like systems:
split -b 50M large_file.json large_file.json.part_

# On Windows (PowerShell):
$file = [IO.File]::ReadAllBytes("large_file.json")
$size = 50MB
$parts = [Math]::Ceiling($file.Length / $size)
for($i=0; $i -lt $parts; $i++) {
    $start = $i * $size
    $chunk = $file[$start..([Math]::Min($start + $size - 1, $file.Length - 1))]
    [IO.File]::WriteAllBytes("large_file.json.part_$i", $chunk)
}

Regular Files

kokler.txt: Base dictionary of known Turkish roots
all_roots.json: Combined validated roots
sorted_remains_words_freq.json: Frequency analysis of remaining words

Technical Details

Suffix List

Contains 249 Turkish suffixes including:

Case endings
Possessive markers
Verb tenses
Derivational suffixes

Processing Pipeline

Text extraction from Wikipedia
Suffix stripping
Root candidate generation
LLM validation
Dictionary verification
Frequency analysis

Results

Initial known roots: 10,470
Total discovered forms: ~4 million
Validated unique roots: ~21,756
Processing time: ~21 minutes with parallel processing

Requirements

Python 3.9+
Required packages:
- pandas
- datasets
- joblib
- sqlite3
- ollama (for Gemma)
- google.generativeai (for Gemini)

Installation

Clone the repository:

git clone https://github.com/yourusername/turkce_kokler.git

Merge the dictionary data:

# On Unix-like systems:
cat sozluk/gts.json.part_* > sozluk/gts.json

# On Windows (PowerShell):
Get-Content sozluk/gts.json.part_* | Set-Content sozluk/gts.json

Install Python dependencies:

pip install -r requirements.txt

Usage

Make sure the dictionary file is properly merged (see Installation step 2)
Run the notebooks in order:
- wikipedia_kok.ipynb
- gemma_kokleri_sec.ipynb
- gemini_kokleri_duzelt.ipynb

Contributing

Fork the repository
Create your feature branch
Commit your changes
Push to your fork
Create a Pull Request

Note: When adding large files (>50MB), please split them into smaller chunks:

split -b 50M large_file.json large_file.json.part_

License

[Add your license information here]

Authors

[Add author information here]

Acknowledgments

TDK for the Turkish dictionary database
Wikimedia for the Turkish Wikipedia dataset
Google and Ollama for the LLM models

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
root_frequency_counter		root_frequency_counter
sozluk		sozluk
.DS_Store		.DS_Store
.gitignore		.gitignore
after_itu_kokler.txt		after_itu_kokler.txt
after_itu_kokler_filtered.txt		after_itu_kokler_filtered.txt
ekler.json		ekler.json
ekleri_temizle.ipynb		ekleri_temizle.ipynb
freq_to_dict.ipynb		freq_to_dict.ipynb
frequency.json		frequency.json
gemini_kokleri_duzelt.ipynb		gemini_kokleri_duzelt.ipynb
gemma_kokleri_sec.ipynb		gemma_kokleri_sec.ipynb
itu_ek_kok_ayir.ipynb		itu_ek_kok_ayir.ipynb
kok_bul.ipynb		kok_bul.ipynb
kok_frekanslari.ipynb		kok_frekanslari.ipynb
kokler_ve_anlamlar.ipynb		kokler_ve_anlamlar.ipynb
kokleri_al.ipynb		kokleri_al.ipynb
kokleri_say.ipynb		kokleri_say.ipynb
kokleri_temizle.ipynb		kokleri_temizle.ipynb
readme.md		readme.md
sozluk_birlestir.ipynb		sozluk_birlestir.ipynb
sozluk_derlemi_frekans.json		sozluk_derlemi_frekans.json
sozluk_derlemi_frekans2.json		sozluk_derlemi_frekans2.json
sozluk_derlemi_frekans3.json		sozluk_derlemi_frekans3.json
sozluk_derlemi_set.txt		sozluk_derlemi_set.txt
tokenizer_dict_v1.json		tokenizer_dict_v1.json
wikipedia_kok.ipynb		wikipedia_kok.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Turkish Word Root Analysis Project

Project Overview

Components

1. Wikipedia Analysis (`wikipedia_kok.ipynb`)

2. Root Selection with Gemma (`gemma_kokleri_sec.ipynb`)

3. Root Correction with Gemini (`gemini_kokleri_duzelt.ipynb`)

4. Dictionary Integration (`sozluk/sozluk.ipynb`)

Data Files

Large Files

Dictionary Data

Regular Files

Technical Details

Suffix List

Processing Pipeline

Results

Requirements

Installation

Usage

Contributing

License

Authors

Acknowledgments

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Turkish Word Root Analysis Project

Project Overview

Components

1. Wikipedia Analysis (wikipedia_kok.ipynb)

2. Root Selection with Gemma (gemma_kokleri_sec.ipynb)

3. Root Correction with Gemini (gemini_kokleri_duzelt.ipynb)

4. Dictionary Integration (sozluk/sozluk.ipynb)

Data Files

Large Files

Dictionary Data

Regular Files

Technical Details

Suffix List

Processing Pipeline

Results

Requirements

Installation

Usage

Contributing

License

Authors

Acknowledgments

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

1. Wikipedia Analysis (`wikipedia_kok.ipynb`)

2. Root Selection with Gemma (`gemma_kokleri_sec.ipynb`)

3. Root Correction with Gemini (`gemini_kokleri_duzelt.ipynb`)

4. Dictionary Integration (`sozluk/sozluk.ipynb`)

Packages