GitHub - klushcheva/ai_generated_text_detection: MOVS '25 MSc thesis

Аугуст Мария Сергеевна, Лущева Ксения Сергеевна

Приложение к магистерской диссертации "Методы идентификации искусственно сгенерированных текстов для обеспечения информационной достоверности"

Направление подготовки 01.04.02 Прикладная математика и информатика, образовательная программа «Машинное обучение и высоконагруженные системы» ФКН НИУ ВШЭ

Appendix to Master's thesis "Methods for identifying artificially generated texts to ensure information reliability"

Аннотация

В данной работе решается задача автоматического определения происхождения текста — человеческого или сгенерированного с помощью нейросетевой модели. Для проведения эксперимента был собран и размечен датасет, включающий как тексты, написанные людьми, так и тексты, сгенерированные современными языковыми моделями. Исследование проводилось с использованием трёх архитектур: Word2Vec, BERT и ELECTRA. Основное внимание уделялось анализу как семантических, так и стилистических характеристик текста. Качество классификации оценивалось с помощью метрик Accuracy и F1-score. По результатам первого этапа обучения выявлены проблемы в структуре данных, что привело к пересборке датасета и повторному эксперименту. На втором этапе исследования к уже использованным моделям была дополнительно реализована архитектура типа GAN (Generative Adversarial Network), что позволило расширить экспериментальную часть работы. По итогам двух экспериментов на обновлённом датасете были получены высокие показатели качества, что демонстрирует значимость подбора качественного корпуса для задач текстовой классификации и подтверждает применимость выбранных архитектур к задаче определения происхождения текста. В завершение проекта был разработан пользовательский сервис, позволяющий определить вероятное авторство текста в реальном времени с помощью Telegram-бота.

🚀 Запуск проекта локально

Предварительные требования

Установить:

Docker (версия 20.10+)
Docker Compose (версия 2.0+)
Git

Создать Telegram-бот (через @BotFather) и сохранить api-token
В @BotFather создать для бота команду /predict

Установка и запуск

Склонировать проект и создать файл .env:

git clone https://github.com/klushcheva/ai_generated_text_detection.git 
cd ai_generated_text_detection
touch .env

В файл .env поместить конфигурацию:

TELEGRAM_TOKEN=<api_токен_бота>
MODEL_PATH=/app/model
REDIS_HOST=redis

Собрать и запустить контейнеры: docker-compose up --build

Использование бота

Перейти в диалог с ботом, отправить команду /start
Отправить команду /predict <текст для классификации>

Остановка проекта:

Остановить контейнеры: docker-compose down

Важные команды:

Пересобрать контейнеры: docker-compose up --build
Просмотр логов бота docker-compose logs -f bot
Очистка Redis docker-compose exec redis redis-cli FLUSHALL
Рестарт сервисов docker-compose restart

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
app		app
notebooks		notebooks
telegram_bot		telegram_bot
.gitattributes		.gitattributes
README.md		README.md
ai_text.png		ai_text.png
human__text.png		human__text.png

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Аугуст Мария Сергеевна, Лущева Ксения Сергеевна

Приложение к магистерской диссертации "Методы идентификации искусственно сгенерированных текстов для обеспечения информационной достоверности"

Направление подготовки 01.04.02 Прикладная математика и информатика, образовательная программа «Машинное обучение и высоконагруженные системы» ФКН НИУ ВШЭ

Appendix to Master's thesis "Methods for identifying artificially generated texts to ensure information reliability"

Аннотация

🚀 Запуск проекта локально

Предварительные требования

Установка и запуск

Использование бота

Остановка проекта:

Важные команды:

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Аугуст Мария Сергеевна, Лущева Ксения Сергеевна

Приложение к магистерской диссертации "Методы идентификации искусственно сгенерированных текстов для обеспечения информационной достоверности"

Направление подготовки 01.04.02 Прикладная математика и информатика, образовательная программа «Машинное обучение и высоконагруженные системы» ФКН НИУ ВШЭ

Appendix to Master's thesis "Methods for identifying artificially generated texts to ensure information reliability"

Аннотация

🚀 Запуск проекта локально

Предварительные требования

Установка и запуск

Использование бота

Остановка проекта:

Важные команды:

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages