Автоматизированное машинное обучение (англ. Automated Machine Learning, AutoML) — процесс создания динамической комбинации различных методов для формирования простой в использовании сквозной конвейерной системы машинного обучения.
Инструменты AutoML упрощают процесс обработки данных, делая все возможное, используя имеющуюся информацию.
Процесс состоит из трех основных этапов:
- Обработка данных
- Генерация модели/моделей машинного обучения, настройка гиперпараметров
- Тестирование производительности и выбор лучшего исполнителя
Ознакомиться с AutoML фреймворками на примере задачи классификции или регрессии. Сравнить эффективность работы каждой системы применительно к выбранному набору данных.
Jupyter Notebook, Google Colab.
Лабораторная работа выполняется по вариантам.
❗ Наборы данных для классификации и регрессии прилагаются к лабораторной работе. Можете взять свой набор данных.
- Набор данных для регрессии - powerplant_output.csv
- Набор данных для классификации - winequalityN.csv
Предлагаю следующие AutoML системы:
Можно выбирать свои AutoML системы, но не менее 3 штук:)
- Установить систему при помощи
pip. Желательно с каждой системой работать в отдельном ноутбуке либо сбрасывать среду выполнения перед установкой каждой последующей системы (это связано с разными версиями зависимостей). - Загрузить набор данных, провести разведочный анализ выборки (построить матрицу корреляции, диаграммы рассеивания для признаков, вывести основные статистики набора данных).
- При помощи каждой системы предсказать значение целевого признака. Исследовать возможность построения отчета по итогу процесса генерации модели при помощи каждого фреймворка. Построить отчет.
- Оценить точность каждой модели с помощью метрик точности. Метрики на ваш выбор. Для регрессии:
- MSE
- MAE
- MedAE
- R2
Для классификации:
- accuracy_score
- precision_score
- recall_score
- f1_score
Сделать вывод по итогам работы.