Книги / Компьютерная литература / Разработка ПО / Языки и среды программирования, технологии и т.п. / Python

Предварительная подготовка данных в Python. Том 2. План, примеры и метрики качества

Груздев Артем Владимирович

Код товара: 4950893

(0 оценок)Оценить

ОтзывНаписать отзыв

ВопросЗадать вопрос

1 / 2

PDF

-33%

3 645

5 439

Доставим в

г. Москва

Планируемая дата

8 мая (Ср)

Курьером

бесплатно от 10 000 ₽

В пункт выдачи

от 155 ₽

бесплатно от 10 000 ₽

Точная стоимость доставки рассчитывается при оформлении заказа

Издательство:

ДМК-Пресс

Год издания:

Описание

Характеристики

В двухтомнике представлены материалы по применению классических методов машинного обучения для различных промышленных задач.

Прочитав второй том, вы научитесь:
- составлять план предварительной подготовки данных;
- конструировать признаки;
- отбирать признаки;
- работать с метриками бинарной классификации и регрессии;
- выполнять байесовскую оптимизацию гиперпараметров;
- создавать контейнеры Docker;
- строить модели c помощью платформы H2O.

количество томов

количество страниц

814 стр.

переплет

Твёрдый переплёт

размеры

242x170x46 мм

тип бумаги

офсетная (60-220 г/м2)

ISBN

978-5-93700-177-1

возрастная категория

18+ (нет данных)

вес

1422 г

код в Майшоп

4950893

язык

русский

Содержание

Введение
ЧАСТЬ 3. ПЛАН ПРЕДВАРИТЕЛЬНОЙ
ПОДГОТОВКИ ДАННЫХ
1. Введение
2. Формирование выборки
2.1. Генеральная и выборочная совокупности
2.2. Характеристики выборки
2.3. Детерминированные и вероятностные
выборки
2.4. Виды, методы и способы вероятностного
отбора
2.5. Подходы к определению необходимого
объема выборки
3. Определение "окна выборки" и "окна
созревания"
4. Определение зависимой переменной
5. Загрузка данных из CSV-файлов и баз
данных SOL
6. Удаление бесполезных переменных,
переменных
"из будущего", переменных с юридическим риском
7. Преобразование типов переменных и
знакомство
со шкалами переменных
7.1. Количественные (непрерывные) шкалы
7.2. Качественные (дискретные) шкалы
8. Нормализация строковых значений
9. Обработка дублирующихся наблюдений
10. Обработка редких категорий
11. Появление новых категорий в новых
данных
12. Импутация пропусков
12.1. Способы импутации количественных и
бинарных переменных
12.2. Способы импутации категориальных
переменных
12.3. Практика
13. Обработка выбросов
14. Описательные статистики
14.1. Пифагорейские средние, медиана и мода
14.2. Квантиль
14.3. Дисперсия и стандартное отклонение
14.4. Корреляция и ковариация
14.5. Получение сводки описательных
статистик
в библиотеке pandas
15. Нормальное распределение
15.1. Знакомство с нормальным распределением
15.2. Коэффициент островершинности,
коэффициент эксцесса
и коэффициент асимметрии
15.3. Гистограмма распределения и график
квантиль-квантиль
15.4. Вычисление коэффициента асимметрии и
коэффициента
эксцесса, построение гистограммы и графика
квантиль-квантиль для подбора преобразований,
максимизирующих нормальность
15.5. Подбор преобразований,
максимизирующих нормальность
для правосторонней асимметрии
15.6. Подбор преобразований,
максимизирующих нормальность
для левосторонней асимметрии
15.7. Преобразование Бокса-Кокса
16. Конструирование признаков
16.1. Статическое конструирование признаков
исходя
из предметной области
16.2. Статическое конструирование признаков
исходя из алгоритма .
16.3. Динамическое конструирование
признаков исходя
из особенностей алгоритма
16.4. Конструирование признаков для
временных рядов
17. Отбор признаков
17.1. Методы-фильтры
17.2. Применение метода-фильтра и
встроенного метода для отбора
признаков (на примере соревнования BNP Paribas
Cardif Claims Management с Kaggle)
17.3. Комбинирование нескольких методов для
отбора признаков (на примере соревнования Porto
Seguro's Safe Driver Prediction
с Kaggle)
18. Стандартизация
19. Собираем все вместе
ЧАСТЬ 4. МЕТРИКИ ДЛЯ ОЦЕНКИ КАЧЕСТВА
МОДЕЛИ
1. Бинарная классификация
1.1. Отрицательный и положительный классы,
порог отсечения
1.2. Матрица ошибок
1.3. Доля правильных ответов, правильность
(accuracy)
1.4. Чувствительность (sensitivity)
1.5. Специфичность (specificity)
1.6. 1 - специфичность (1 - specificity)
1.7. Сбалансированная правильность
1.8. Точность (Precision)
1.9. Сравнение точности и чувствительности
(полноты)
1.10. F-мера (F-score или F-measure)
1.11. Варьирование порога отсечения
1.12. Коэффициент Мэттьюса
(Matthews correlation coefficient или MCC)
1.13. Каппа Коэна (Cohen's cappa)
1.14. ROC-кривая (ROC curve) и площадь
под ROC-кривой (AUC-ROC)
1.15. PR-кривая (PR curve) и площадь
под PR-кривой (AUC-PR)
1.16. Кривая Лоренца (Lorenz curve) и
коэффициент
Джини (Gini coefficient)
1.17. CAP-кривая (CAP curve)
1.18. Статистика Колмогорова-Смирнова
(Kolmogorov-Smirnov statistic)
1.19. Биномиальный тест (binomial test)
1.20. Логистическая функция потерь (logistic
loss)
2. Регрессия
2.1. R2, коэффициент детерминации
(R-square, coefficient of determination)
2.2. Метрики качества, которые зависят от
масштаба данных
(RMSE, MSE, MAE, MdAE, RMSLE, MSLE)
2.3. Метрики качества на основе процентных
ошибок (MAPE, MdAPE,
sMAPE, sMdAPE, WAPE, WMAPE, RMSPE, RMdSPE)
2.4. Метрики качества на основе
относительных ошибок
(MRAE, MdRAE, GMRAE)
2.5. Относительные метрики качества
(RelMAE, RelRMSE)
2.6. Масштабированные ошибки (MASE, MdASE)
2.7. Критерий Диболда-Мариано
ЧАСТЬ 5. ДРУГИЕ ПОЛЕЗНЫЕ БИБЛИОТЕКИ И
ПЛАТФОРМЫ
1. Библиотеки баейсовской оптимизации
hyperopt, scikit-optimize и optuna
1.1. Недостатки обычного поиска по сетке и
случайного
поиска по сетке
1.2. Знакомство с байесовской оптимизацией
1.3. Последовательная оптимизация по модели
(Sequential model-based optimization - SMBO)
1.4. Hyperopt
1.5. Scikit-Optimize
1.6. Optuna
2. Docker
2.1. Введение
2.2. Запуск контейнера Docker
2.3. Создание контейнера Docker с помощью
Dockerfile
3. Библиотека H2O
3.1. Установка пакета h2o для Python
3.2. Запуск кластера H2O
3.3. Преобразование данных во фреймы H2O
3.4. Знакомство с содержимым фрейма
3.5. Определение имени зависимой переменной
и списка имен признаков
3.6. Построение модели машинного обучения
3.7. Вывод модели
3.8. Получение прогнозов
3.9. Построение ROC-кривой и вычисление
AUC-ROC
3.10. Поиск оптимальных значений
гиперпараметров по сетке
3.11. Извлечение наилучшей модели по итогам
поиска по сетке
3.12. Класс H2OAutoML
3.13. Применение класса H2OAutoML в
библиотеке scikit-learn
4. Библиотека Dask
4.1. Общее знакомство
4.2. Машинное обучение с помощью
библиотеки dask-ml
4.3. Построение конвейера в Dask
5. Google Colab
5.1. Общее знакомство
5.2. Регистрация и создание папки проекта
5.3. Подготовка блокнота Colab

Отзывы

Вопросы

Поделитесь своим мнением об этом товаре с другими покупателями — будьте первыми!

Дарим бонусы за отзывы!

За какие отзывы можно получить бонусы?

За уникальные, информативные отзывы, прошедшие модерацию

Как получить больше бонусов за отзыв?

Публикуйте фото или видео к отзыву
Пишите отзывы на товары с меткой "Бонусы за отзыв"

Правила начисления бонусов

Задайте вопрос, чтобы узнать больше о товаре

Если вы обнаружили ошибку в описании товара «Предварительная подготовка данных в Python. Том 2. План, примеры и метрики качества» (авторы: Груздев Артем Владимирович), то выделите её мышкой и нажмите Ctrl+Enter. Спасибо, что помогаете нам стать лучше!