Архитектура взаимодействия SAP HANA с Hadoop
Технология Hadoop продолжает активно развиваться. В экосистеме Hadoop многие компании и организации разрабатывают новые методы и новые технологии, дополняющие основную инфраструктуру Hadoop и расширяющие ее функции.
И в этом отношении важной задачей является использование Hadoop в программном ландшафте SAP.
Архитектура взаимодействия HANA с Hadoop поддерживает традиционные для любого хранилища данных процессы, такие, как хранение данных, процедуры обмена и управления данными.
Так, SAP Data Services предоставляет полноценный набор средств интеграции данных, позволяющих реализовывать следующие задачи:
• получать доступ к данным любых типов – структурированным, частично структурированным и неструктурированным;
• загружать данные в любые целевые сегменты: Hadoop, хранилище данных или базу данных в памяти;
• перемещаться по источникам данных, расположенным на внутреннем ресурсе или в облаке;
• работать в пакетном режиме или в реальном времени.
SAP Data Services предоставляет собой средство разработки для моделирования данных и рабочих пространств. С помощью этих средств разработчики средств извлечения, преобразования и загрузки данных могут создавать и устанавливать последовательность шагов, необходимых для создания соответствующих функций. Средства SAP Data Services позволяют извлекать, загружать, разбирать, интегрировать, очищать и согласовывать данные в Hadoop. Программный код для модели MapReduce, выполняющий эти действия, генерируется автоматически.
Средства SAP Data Services интегрируются с Hadoop тремя основными способами:
• Таблицы базы данных Hive: продукты технологии SAP Data Services генерируют и выполняют инструкции HiveQI для запроса, выборки и загрузки данных в таблицы Hive.
• Распределенная файловая система Hadoop (HDFS) – средства технологии SAP Data Services могут работать с файлами операционной системы Linux самостоятельно или же с помощью сценариев Pig.
• Преобразование обработки текстовых данных – задания с источниками данных в файловой системе HDFS и алгоритмом преобразования текста выталкиваются на платформу Hadoop средствами SAP Data Services с помощью сценариев Pig. Анализ текста выполняется непосредственно в HDFS как задания модели MapReduce. Среди этих данных могут быть результаты анализа веб-журналов, опросов, поля содержимого, данные интернет-порталов и географических информационных систем.
SAP IQ поддерживает федеративные запросы для доступа к Hadoop. Эта поддержка включает:
• Федерации данных, в которых структуры файлов в файловой системе HDFS определены в SAP IQ и используются ею как собственные внешние таблицы;
• Федерации запросов, в которых запросы раздельно выполняются c помощью сценариев Hive на платформе Hadoop, а полученные результаты объединяются с результатами запросов, выполненных обычным образом в SAP IQ.
При федерации данные копируются из Hadoop в базу SAP Sybase IQ и анализ выполняется уже там. Соответственно при больших объемах данных этот процесс занимает больше времени, чем федерация запросов, которая возвращает результаты каждого отдельно выполненного запроса.
В качестве источников данных для Hadoop могут выступать
Если хотите прочитать статью полностью и оставить свои комментарии присоединяйтесь к sapland
ЗарегистрироватьсяУ вас уже есть учетная запись?
Войти
Обсуждения 2
Комментарий от
Павел Сидоров
| 14 марта 2014, 21:06
Комментарий от
Вадим Табаков
| 31 марта 2014, 21:29
Павел Сидоров 14 марта 2014, 21:06
К сожалению, картинка не кликабельна, а при имеющемся размере невозможно ничего на ней прочитать.