Меню

Моделирование ad-hoc-процессов анализа данных в SAP Data Mining

|

В сообщении, не претендующем на исключительные новизну и оригинальность, описывается случай использования SAP DataMining в качестве «настольного» средства моделирования разнообразных процессов анализа данных, например, для реализации прототипа процесса, или для быстрой оценки перспектив применимости того или иного подхода к заданному классу задач.

Предпосылки

SAP DataMining предлагает предопределенный фиксированный набор шаблонов алгоритмов анализа данных. Может возникнуть ощущение, что этим набором все и ограничивается. Тем не менее,  совсем никак не прибегая к этим шаблонам или к программированию, можно «налету» моделировать достаточно произвольные процессы анализа.

Исходные данные и постановка задачи

Задача и исходные данные позаимствованы из открытого источника, цитирующего [[Moro et al., 2014] S. Moro, P. Cortez and P. Rita. A Data-Driven Approach to Predict the Success of Bank Telemarketing. Decision Support Systems, Elsevier, 62:22-31, June 2014]: http://mlr.cs.umass.edu/ml/datasets/Bank+Marketing

Исходные данные

Массив содержит результаты маркетинговой кампании по выявлению желающих открыть срочный депозит.

Архив с данными обучения и проверки находится по адресу:

http://mlr.cs.umass.edu/ml/machine-learning-databases/00222/

Для прогноза предназначен массив из 41188 анкет.

Для обучения алгоритма предназначен массив из 4521 анкет, что составляет 11% от объема прогнозного массива.

Постановка задачи

  • Необходимо формализовать правило прогноза согласия «yes» или отказа «no» открыть срочный депозит по анкетным данным;
  • Для оценки качества алгоритма результаты прогноза сравнить с фактическим ответом.

Реализация

Реализация проведена в два этапа:

  • Расчет весовых коэффициентов (обучение) – выполнен в MS Excel;
  • Моделирование - настройка модели наивного байесовского классификатора по готовому массиву весов – выполнено в SAP BI 7.3/DataMining.

Обучение

Для обучения алгоритма использованы не все имеющиеся в исходном массиве реквизиты, а только перечисленные ниже признаки:

  • job : тип занятости (categorical:  "admin.", "unknown", "unemployed", "management", "housemaid", "entrepreneur", "student", "blue-collar","self-employed", "retired", "technician", "services");
  •  marital: семейное положение (categorical: "married","divorced","single"; note: "divorced" means divorced or widowed);
  • education: образование (categorical: "unknown","secondary","primary","tertiary");
  •  default: наличие просрочек по кредитам (binary: "yes","no");
  • housing: наличие ипотеки (binary: "yes","no");
  • loan: наличие обязательств по прочим кредитам (binary: "yes","no");
  • contact: тип контакта (categorical: "unknown","telephone","cellular");
  • month: месяц предыдущего контакта (categorical: "jan", "feb", "mar", ..., "nov", "dec");
  • poutcome: успешность прошлой кампании (categorical:  "unknown", "other", "failure", "success");

Для оценки качества алгоритма использован признак:

  • оutput variable (desired target): факт прогнозируемой величины (binary: "yes","no");

Обучение свелось к расчету весовых коэффициентов для каждого частного значения каждого признака для обоих вариантов ответа респондента (поле «y») – «yes» или «no».

Расчет

Если хотите прочитать статью полностью и оставить свои комментарии присоединяйтесь к sapland

У вас уже есть учетная запись?

Войти

Обсуждения Количество комментариев2

Комментарий от  

Андрей Ржаксинский

  |  17 ноября 2015, 09:17

Алексей.
Реализация Data Mining на платформе SAP Netweaver очень плохая. На ней невозможно строить нормальные решения.
SAP долго пытался разработать достойное решение, сравнимое с продуктами SAS и IBM SPSS. Но и презентации и то, как консультанты пытались доказать, насколько замечательный продукт они предлагают, только добавляли уныния.
Но не всё так плохо. SAP HANA поддерживает выполнение скриптов на языке R. Это мощное и бесплатное средство, которое постоянно развивается и имеет множество библиотек.  Регрессия, деревья решения, метод главных компонент реализуются довольно просто.
Чего нет - это функционала жизненного цикла моделей. Это необходимо, например, в задачах кредитного скоринга.
Но если быть до конца объективным, то поддержка языка R есть также в версии Oracle 11.2 и в последних версиях MS SQL Server, что позволяет решать задачу анализа данных, независимо от платформы БД.

Комментарий от  

Валерий Булевич

  |  24 ноября 2015, 07:27

Алексей.
Реализация Data Mining на платформе SAP Netweaver очень плохая. На ней невозможно строить нормальные решения.
SAP долго пытался разработать достойное решение, сравнимое с продуктами SAS и IBM SPSS. Но и презентации и то, как консультанты пытались доказать, насколько замечательный продукт они предлагают, только добавляли уныния.
Но не всё так плохо. SAP HANA поддерживает выполнение скриптов на языке R. Это мощное и бесплатное средство, которое постоянно развивается и имеет множество библиотек.  Регрессия, деревья решения, метод главных компонент реализуются довольно просто.
Чего нет - это функционала жизненного цикла моделей. Это необходимо, например, в задачах кредитного скоринга.
Но если быть до конца объективным, то поддержка языка R есть также в версии Oracle 11.2 и в последних версиях MS SQL Server, что позволяет решать задачу анализа данных, независимо от платформы БД.

Андрей, перевернул выводы и предпосылки. Темы - использовать существующие решения SAP для решения задач интеллектуального анализа. Много Андрей может назвать случаев в России, когда клиент экплуатирующий SAP ERP/BW приобрел IBM SPSS для решения задач Data Mining? Да и SAP HANA пока никто, только ради Data Mining'a, не приобрел... :) А так конечно, кто спорит, что Mersedes круче Hyandai.