Необходимо определить, какой уровень английского языка представлен в фильме. Уровень английского языка определяется в соответствии с уровнем Oxford CEFR. Определение уровня осуществляется на основе субтитров к фильму.
Предоставленный датасет содержит 241 фильм с субтитрами и их уровням английского языка.Из соображений безопасности первоначальный датасет и субтитры не были загружены на GitHub.
Поскольку датасет относительно небольшой, было принято решение о его расширении. В конечном счете, объем выборки составил около 500 фильмов. Однако, стоит учесть, что порой оценки экспертов касательно уровня английского языка отдельного фильма могут не совпадать. Тем не менее, взяв во внимание, что на большей выборке модель может нивелировать погрешности, расширенную выборку решено было оставить.
- Предобработка данных
- Выбор метрики
- Создание модели
- Анализ результатов
- Сохранение модели
- Создана модель, которая на основе субтитров к фильму определяет уровень английского, необходимого на для его просмотра. Метрики качества моделей были f1-micro и f1-macro, которых удалось достичь 0.7857 и 0.7684 соответственно;
- Реализовано веб-приложение, с помощью которого пользователь может загрузить субтитры и получить в ответ уровень английского языка, необходимого для просмотра запрашиваемого фильма.
NLTK
, Numpy
, pandas
, PyPDF2
, pysrt
, re
, sklearn