Сценарии использования SAP HANA и Hadoop
2013 год оказался ознаменован всплеском интереса к теме Big Data. При этом мир Big Data сам по себе и по тому, каким его можно было бы воспринимать, похож на дом, построенный в причудливо-футуристическом стиле, где в каждой комнате на столах лежат нерешенные головоломки. И, тем не менее, рассуждая о таких ярких и в тоже время полярных технологиях как SAP HANA и Hadoop, следует отметить их вполне объективную совместимость и дополняемость при решении вполне конкретных прикладных задач. Этой теме и посвящена настоящая публикация.
Под термином большие данные с одной стороны понимаются сами наборы данных, их многообразие (variety), объем (volume), требуемая скорость обработки (velocity), достоверность (veracity), таким образом, любители акронимов и различных риторических фигур вполне способны открыть том Британской энциклопедии на букве «V», и любое слово окажется характеристикой Big Data. В свою очередь теория постоянно опережает знание, реализованное промышленностью, и общее ускорение процессов практически всех сфер жизнедеятельности стимулирует лавинообразный рост объемов информации, и повышение уровня сложности данных, а также способов их обработки означает выход за пределы изолированных замкнутых систем, поскольку согласно закону теории информации – информация в изолированной системе либо уменьшается, либо остается постоянной, но не возрастает. И с этой стороны Big Data – являются уже группой технологий и методов производительной обработки динамически растущих объемов данных (структурированных и неструктурированных) в распределенных информационных системах.
Несмотря на то, что в SAP стек решений для работы с Big Data, реализованный в SAP HANA Platform, достаточно широк, нас, прежде всего, будут интересовать возможности применения SAP HANA и смежных технологий в рамках интеграции с Hadoop.
Опуская подробное описание программной архитектуры и экосистемы Hadoop, необходимо отметить, что использование SAP HANA совместно с Hadoop расширяет пределы информационной емкости, позволяя организовывать хранилища данных, поддерживающие петабайты информации. Преимущества Hadoop предоставляют возможность реализовывать алгоритмы пакетной обработки данных (в задачах, для которых время отклика не является критичным), архивации и ретроспективного анализа данных (доступ к которым не требует оперативности реального времени). Hadoop в этом случае используется для агрегации результатов из различных источников, предметных областей с последующей репликацией репрезентативной выборки в SAP HANA для реализации сложных аналитических расчетов и формирования отчетности – а по сути для превращения неполной информации в полную.
Роль Hadoop в этом случае заключается в загрузке данных из первоисточника во всем многообразии, сохраняя их в виде файлов операционной системы Linux, без предварительной проверки и обработки. Таким образом, сохраняются данные любого типа, что исключает необходимость предварительно узнавать и задавать структуру данных. В Hadoop данные очищаются, проверяются на согласованность, непротиворечивость и целостность – т.е. формируется та самая репрезентативная выборка, с которой впоследствии будет работать SAP HANA.
Перейдем от безапелляционной риторики к конкретным сценариям использования технологий SAP с Hadoop.
Хранилище данных. Hadoop используется в качестве гибкого хранилища данных, поступающих из множества разнородных внешних источников. При этом теоретические ограничения на типы проводимого анализа отсутствуют, поскольку проверка данных не производится. Несколько потенциально применимых сценариев использования Hadoop в качестве хранилища данных представлены в таблице 1.
Таблица 1. Потенциально применимые сценарии использования Hadoop в качестве хранилища данных
Сценарий |
Описание |
Примеры использования |
Комментарий |
Захват потока данных |
Захват быстро поступающих потоков данных большого объема в режиме реального времени |
Измерительные системы, производственные машины, веб-журналы, обновляемые в реальном времени, датчики и сенсоры |
Анализ низкоуровневых данных |
Социальные сети |
Захват данных сайтов социальных сетей, неструктурированного текста, в режиме реального времени |
Комментарии к продуктам на сайтах Twitter, Facebook и Amazon |
Объединение данных социальных сетей с другими сведениями, например, со сведениями о взаимоотношениях с клиентами, данными руководства или описаниями товаров в режиме реального времени |
Справочные данные |
Копия существующих больших наборов справочных данных |
Данные переписи, географические информационные системы, отраслевые наборы данных, метеорологические измерения и системы слежения |
Хранение справочных данных вместе с другой информацией упрощает их объединение при анализе |
Аудит и управление рисками |
Захват бизнес-событий из многочисленных систем для последующего анализа и аудита |
Транзакции SAP и стороннего ПО, а также внешних систем |
Данные корреляции и анализа от несходных систем для определения рисков |
Низкоуровневые транзакционные данные |
Длительное хранение данных статистической обработки транзакций в реальном времени(OLTP) |
Центр дистанционного обслуживания и другие производственные транзакции |
Захват низкоуровневых транзакционных данных для почти всех типов анализа, особенно для оптимизации бизнес-процессов |
Архивы журналов электронной почты |
Захват журналов входящей и исходящей электронной корпоративной корреспонденции |
Выполнение требований законодательства к хранению переписки и хранение для последующего анализа |
Объединение данных электронной почты с другой информацией, например для управления рисками |
Хранение документов |
Захват бизнес- документов, созданных и полученных предприятием |
Здравоохранение, страхование и другие отрасли, генерирующие или использующие большие объемы документов, которые должны храниться в течение длительного времени |
Хранение неограниченного количества документов в Hadoop, например, с помощью HBase. |
Архив данных |
Захват архивных журналов, которые в противном случае будут отправлены в автономное хранилище |
Системные журналы ПК и другие архивные данные |
Уменьшение затрат по сравнению с традиционными решениями |
База данных.
Hadoop используется в качестве традиционной базы данных для хранения и выборки записей из очень больших наборов данных с использованием таких инфраструктуры Hive и СУБД HBase. Архитектура реализации сценария использования Hadoop в качестве базы данных представлена на рисунке 2.
Рисунок 2. Архитектура реализации сценария использования Hadoop в качестве базы данных
Несколько потенциально применимых сценариев использования Hadoop в качестве базы данных представлены в таблице 3.
Таблица 3. Потенциально применимые сценарии использования Hadoop в качестве базы данных
Сценарий |
Описание |
Примеры использования |
Комментарий |
Выборка, преобразование и загрузка данных из других систем в Hadoop |
Передача данных, хранящихся в Hadoop, в другие системы ПО, такие как платформа SAP HANA и прочее ПО хранилищ данных. |
Объединение аналитических данных в SAP HANA с данными из Hadoop; агрегирование данных в Hadoop для создания таблиц фактов аналитической обработки в реальном времени для выгрузки в SAP HANA. |
Программное обеспечение SAP® Data Services поддерживает передачу данных из Hadoop в HANA; использование Hadoop высвобождает SAP Data Services для других задач. |
Получение доступа к Hadoop из других систем практически в реальном времени |
С помощью SQL- подобного интерфейса Hive с данными, хранящимися в Hadoop, можно обращаться как с записями реляционной базы данных. |
Выполнение прямых запросов к данным измерительных приборов или другим низкоуровневым данным, хранящимся в Hadoop. |
SAP Data Services использует интерфейс Hive для процессов сбора, обработки и хранения данных. Программное обеспечение SAP Sybase® IQ предоставляет прямой доступ к данным в Hadoop. |
Предоставление базы данных в реальном времени для масштабных документов и очень больших объемов данных |
Быстрое сохранение и выборка двоичных объектов данных в Hadoop с помощью HBase. |
Использование в качестве ключа для сохранения и выборки любого большого документа, например файла pdf, изображения или видео. |
Эта возможность |
Если хотите прочитать статью полностью и оставить свои комментарии присоединяйтесь к sapland
ЗарегистрироватьсяУ вас уже есть учетная запись?
Войти