Моделирование ad-hoc-процессов анализа данных в SAP Data Mining
В сообщении, не претендующем на исключительные новизну и оригинальность, описывается случай использования SAP DataMining в качестве «настольного» средства моделирования разнообразных процессов анализа данных, например, для реализации прототипа процесса, или для быстрой оценки перспектив применимости того или иного подхода к заданному классу задач.
Предпосылки
SAP DataMining предлагает предопределенный фиксированный набор шаблонов алгоритмов анализа данных. Может возникнуть ощущение, что этим набором все и ограничивается. Тем не менее, совсем никак не прибегая к этим шаблонам или к программированию, можно «налету» моделировать достаточно произвольные процессы анализа.
Исходные данные и постановка задачи
Задача и исходные данные позаимствованы из открытого источника, цитирующего [[Moro et al., 2014] S. Moro, P. Cortez and P. Rita. A Data-Driven Approach to Predict the Success of Bank Telemarketing. Decision Support Systems, Elsevier, 62:22-31, June 2014]: http://mlr.cs.umass.edu/ml/datasets/Bank+Marketing
Исходные данные
Массив содержит результаты маркетинговой кампании по выявлению желающих открыть срочный депозит.
Архив с данными обучения и проверки находится по адресу:
http://mlr.cs.umass.edu/ml/machine-learning-databases/00222/
Для прогноза предназначен массив из 41188 анкет.
Для обучения алгоритма предназначен массив из 4521 анкет, что составляет 11% от объема прогнозного массива.
Постановка задачи
- Необходимо формализовать правило прогноза согласия «yes» или отказа «no» открыть срочный депозит по анкетным данным;
- Для оценки качества алгоритма результаты прогноза сравнить с фактическим ответом.
Реализация
Реализация проведена в два этапа:
- Расчет весовых коэффициентов (обучение) – выполнен в MS Excel;
- Моделирование - настройка модели наивного байесовского классификатора по готовому массиву весов – выполнено в SAP BI 7.3/DataMining.
Обучение
Для обучения алгоритма использованы не все имеющиеся в исходном массиве реквизиты, а только перечисленные ниже признаки:
- job : тип занятости (categorical: "admin.", "unknown", "unemployed", "management", "housemaid", "entrepreneur", "student", "blue-collar","self-employed", "retired", "technician", "services");
- marital: семейное положение (categorical: "married","divorced","single"; note: "divorced" means divorced or widowed);
- education: образование (categorical: "unknown","secondary","primary","tertiary");
- default: наличие просрочек по кредитам (binary: "yes","no");
- housing: наличие ипотеки (binary: "yes","no");
- loan: наличие обязательств по прочим кредитам (binary: "yes","no");
- contact: тип контакта (categorical: "unknown","telephone","cellular");
- month: месяц предыдущего контакта (categorical: "jan", "feb", "mar", ..., "nov", "dec");
- poutcome: успешность прошлой кампании (categorical: "unknown", "other", "failure", "success");
Для оценки качества алгоритма использован признак:
- оutput variable (desired target): факт прогнозируемой величины (binary: "yes","no");
Обучение свелось к расчету весовых коэффициентов для каждого частного значения каждого признака для обоих вариантов ответа респондента (поле «y») – «yes» или «no».
Расчет
Если хотите прочитать статью полностью и оставить свои комментарии присоединяйтесь к sapland
ЗарегистрироватьсяУ вас уже есть учетная запись?
Войти
Обсуждения 2
Комментарий от
Андрей Ржаксинский
| 17 ноября 2015, 09:17
Реализация Data Mining на платформе SAP Netweaver очень плохая. На ней невозможно строить нормальные решения.
SAP долго пытался разработать достойное решение, сравнимое с продуктами SAS и IBM SPSS. Но и презентации и то, как консультанты пытались доказать, насколько замечательный продукт они предлагают, только добавляли уныния.
Но не всё так плохо. SAP HANA поддерживает выполнение скриптов на языке R. Это мощное и бесплатное средство, которое постоянно развивается и имеет множество библиотек. Регрессия, деревья решения, метод главных компонент реализуются довольно просто.
Чего нет - это функционала жизненного цикла моделей. Это необходимо, например, в задачах кредитного скоринга.
Но если быть до конца объективным, то поддержка языка R есть также в версии Oracle 11.2 и в последних версиях MS SQL Server, что позволяет решать задачу анализа данных, независимо от платформы БД.
Комментарий от
Валерий Булевич
| 24 ноября 2015, 07:27
Андрей Ржаксинский 17 ноября 2015, 09:17
Алексей.
Реализация Data Mining на платформе SAP Netweaver очень плохая. На ней невозможно строить нормальные решения.
SAP долго пытался разработать достойное решение, сравнимое с продуктами SAS и IBM SPSS. Но и презентации и то, как консультанты пытались доказать, насколько замечательный продукт они предлагают, только добавляли уныния.
Но не всё так плохо. SAP HANA поддерживает выполнение скриптов на языке R. Это мощное и бесплатное средство, которое постоянно развивается и имеет множество библиотек. Регрессия, деревья решения, метод главных компонент реализуются довольно просто.
Чего нет - это функционала жизненного цикла моделей. Это необходимо, например, в задачах кредитного скоринга.
Но если быть до конца объективным, то поддержка языка R есть также в версии Oracle 11.2 и в последних версиях MS SQL Server, что позволяет решать задачу анализа данных, независимо от платформы БД.