Skip to content

ValentinMorozoff/identifying-toxic-comments-nlp

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Определение токсичных комментариев

О проекте

Это portfolio-проект по NLP, посвященный задаче бинарной классификации токсичных комментариев.

Цель проекта — построить модель, способную определять токсичность текста и достигать высокого значения метрики F1 на тестовой выборке.

Что внутри репозитория

  • identifying_toxic_comments_nlp.ipynb — основной ноутбук проекта;
  • data/README.md — краткое описание данных;
  • README.md — описание проекта;
  • CONTRIBUTING.md — правила поддержки репозитория.

Стек

  • Python
  • Jupyter Notebook
  • pandas
  • scikit-learn
  • spaCy
  • nltk
  • CatBoost
  • BERT

Данные

Датасет не хранится в публичном репозитории, потому что файл toxic_comments.csv весит около 65 МБ: GitHub начинает предупреждать о больших файлах уже после 50 МБ, а сам репозиторий в портфолио лучше держать легким и читаемым.

Рабочий источник датасета:

Что нужно сделать для локального запуска:

  1. Скачай CSV по ссылке выше.
  2. Сохрани файл как data/toxic_comments.csv.
  3. После этого открой ноутбук.

Ноутбук сначала ищет данные именно в локальной папке data/, а затем поддерживает legacy-пути старой учебной среды.

Ключевой результат

Проект показывает:

  • подготовку и очистку текстовых данных;
  • сравнение разных способов векторизации текста;
  • обучение и оценку моделей логистической регрессии и градиентного бустинга;
  • использование BERT как более сильного представления текста.

Как открыть проект

  1. Клонируй репозиторий.
  2. Скачай датасет по ссылке https://code.s3.yandex.net/datasets/toxic_comments.csv.
  3. Сохрани CSV в data/toxic_comments.csv.
  4. Открой identifying_toxic_comments_nlp.ipynb в Jupyter Notebook или JupyterLab.

Формат проекта

Репозиторий оформлен как portfolio-case:

  • код — на английском;
  • пояснения к исследованию и выводы — на русском;
  • датасет вынесен из GitHub-репозитория из-за размера файла, но воспроизводимость сохранена через прямую ссылку на CSV.

About

Портфельный NLP-кейс по классификации токсичных комментариев

Topics

Resources

Contributing

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors