Цель проекта - определение (классификация) намерений (интентов) пользователей по их запросам в общении с чат-ботом или виртуальном ассистентом веломагазина.
По размеченному обучающему набору данных тренировочных диалогов чатбота веломагазина, с помощью различных моделей машинного обучения нужно сделать прогнозы намерений для запросов пользователей из тестового файла.
При этом, необходимо:
-
Машинное обучение
Для классификации намерений пользователя использовать следующие архитектуры:- RNN
- LSTM
- BERT
- RNN
-
Описание проекта
В ноутбуке следует указать параметры окружения для решений: используемая архитектура, веса, предварительная обработка, количество слоев, фреймворк и т. д., а также метрики обучения и валидации. -
Результаты
- Лучшая полученная модель должна быть сохранена в формате pickle
- Результаты для тестового набора должны быть сохранены в файл с именем intents.csv
- Добиться точности не менее 0,8 на тестовом наборе данных
- Лучшая полученная модель должна быть сохранена в формате pickle
-
Bonus:
- Для классификации намерений пользователя использовать архитектуру CNN
- Для получения лучших результатов расширить тренинговый набор данных, добавив больше различных фраз и соответствующих намерений
- Добиться точности не менее 0,873 на тестовом наборе данных
Для копирования файлов Проекта на локальный компьютер в папку <your_dir_on_local_computer> выполните:
$ git clone git@github.com:dbadeev/u_c.git <your_dir_on_local_computer>
- understandig_customer_en.subject.pdf - текст задания
- requirements.txt - список библиотек, необходимых для работы
- Папка data
- intents_train.csv - файл с набором размеченных по намерениям запросов авторов
- intents_train_new.csv - файл с аугментированным набором размеченных по намерениям запросов авторов (всего добавлено 32 запроса для разных интентов)
- intents_test.csv - файл с набором тестовых запросов для определения намерений авторов
- intents.csv - файл с результатом применения лучшей модели на тестовом наборе запросов
- intents.ipynb - ноутбук проекта
- utils.py - утилиты, используемые в проекте
Замечание: Файл 'best_model' с моделью не загружен в репозиторий ввиду большого размера (1.32 Гб)
В файле intents.ipynb приведена пошаговая реализация проекта с пояснениями и промежуточными результатами.
loram (Дмитрий Бадеев)
