Определение токсичных комментариев

О проекте

Это portfolio-проект по NLP, посвященный задаче бинарной классификации токсичных комментариев.

Цель проекта — построить модель, способную определять токсичность текста и достигать высокого значения метрики F1 на тестовой выборке.

Что внутри репозитория

identifying_toxic_comments_nlp.ipynb — основной ноутбук проекта;
data/README.md — краткое описание данных;
README.md — описание проекта;
CONTRIBUTING.md — правила поддержки репозитория.

Стек

Python
Jupyter Notebook
pandas
scikit-learn
spaCy
nltk
CatBoost
BERT

Данные

Датасет не хранится в публичном репозитории, потому что файл toxic_comments.csv весит около 65 МБ: GitHub начинает предупреждать о больших файлах уже после 50 МБ, а сам репозиторий в портфолио лучше держать легким и читаемым.

Рабочий источник датасета:

https://code.s3.yandex.net/datasets/toxic_comments.csv

Что нужно сделать для локального запуска:

Скачай CSV по ссылке выше.
Сохрани файл как data/toxic_comments.csv.
После этого открой ноутбук.

Ноутбук сначала ищет данные именно в локальной папке data/, а затем поддерживает legacy-пути старой учебной среды.

Ключевой результат

Проект показывает:

подготовку и очистку текстовых данных;
сравнение разных способов векторизации текста;
обучение и оценку моделей логистической регрессии и градиентного бустинга;
использование BERT как более сильного представления текста.

Как открыть проект

Клонируй репозиторий.
Скачай датасет по ссылке https://code.s3.yandex.net/datasets/toxic_comments.csv.
Сохрани CSV в data/toxic_comments.csv.
Открой identifying_toxic_comments_nlp.ipynb в Jupyter Notebook или JupyterLab.

Формат проекта

Репозиторий оформлен как portfolio-case:

код — на английском;
пояснения к исследованию и выводы — на русском;
датасет вынесен из GitHub-репозитория из-за размера файла, но воспроизводимость сохранена через прямую ссылку на CSV.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Определение токсичных комментариев

О проекте

Что внутри репозитория

Стек

Данные

Ключевой результат

Как открыть проект

Формат проекта

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
data		data
.gitignore		.gitignore
CONTRIBUTING.md		CONTRIBUTING.md
README.md		README.md
identifying_toxic_comments_nlp.ipynb		identifying_toxic_comments_nlp.ipynb

Folders and files

Latest commit

History

Repository files navigation

Определение токсичных комментариев

О проекте

Что внутри репозитория

Стек

Данные

Ключевой результат

Как открыть проект

Формат проекта

About

Topics

Resources

Contributing

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages