SAP Data Services, часть 3. Экстракция, преобразование и загрузка данных в SAP HANA
Изучим и сравним подход по экстракции, преобразованию и загрузке (ETL) данных в SAP Data Services со встроенной функциональностью SAP HANA, чтобы выбрать оптимальное решения для интеграции
Ключевые понятия
Определенные процессы экстракции, преобразования и загрузки данных (extract, transform, and load, ETL) были перенесены в SAP HANA, что напрямую влияет на ее интеграцию с SAP Data Services. Процессы ETL — обязательный шаг при развертывании хранилища данных. Они включают в себя перемещение данных из прежней системы в новое хранилище. Это комплексный сквозной процесс загрузки данных из исходной системы в целевую. Экстракция представляет собой извлечение данных из исходной системы с, по возможности, минимальным влиянием на производительность работающей исходной системы. Преобразование обычно предусматривает применение ряда правил для получения необходимого формата данных, например, применение фильтров или преобразование валютных единиц. После преобразования данные загружаются в хранилище целевой системы.
Функции экстракции, преобразования и загрузки данных теперь встроены в SAP HANA, поэтому в будущем переход от SAP Data Services (ранее SAP BusinessObjects Data Services) к SAP HANA неизбежен. SAP стремится упростить все процессы, и объединение функций наглядно демонстрирует этот подход. С появлением и развитием SAP HANA отраслевые эксперты стали с особым вниманием следить за обновлениями. В данной статье предлагается прогноз развития процессов ETL в SAP HANA.
Опишем интеграцию SAP Data Services с SAP HANA и влияние на будущее SAP Data Services встроенных в SAP HANA функций ETL, таких как smart data integration (интеллектуальная интеграция) и smart data quality (интеллектуальное управление качеством данных). В первой статье из серии, «SAP Data Services, часть 1: интеграция с SAP Business Suite Sources» рассматривался интерфейс и процессы SAP Data Services, а также интеграция SAP Data Services с источниками SAP Business Suite. Во второй статье, «SAP Data Services, часть 2: интеграция с SAP BW на базе SAP HANA» рассматривалась интеграция SAP Data Services с SAP BW на базе SAP HANA и использование экстракторов данных BW в процессах ETL.
Настоящая статья охватывает новейшие возможности SAP Data Services (начиная с версии 4.x) и интеграцию с SAP HANA (начиная с Support Package Stack 9). Начиная с Support Package Stack 9 (выпущен в октябре 2014 г.), SAP HANA предоставляет расширенные возможности для интеграции данных, обеспечения качества данных и управления потоками данных. До выпуска Support Package Stack 9для SAP HANA основным инструментом для выполнения этих задач в проектах с потребностью обработки ETL служила, как правило, платформа SAP Data Services. Однако и сейчас SAP Data Services играет важную роль, и в ближайшем будущем от нее отказываться нельзя. Давайте рассмотрим перспективы SAP Data Services с точки зрения ETL и то, как функции SAP Data Services соотносятся с новыми функциями в SAP HANA.
Новые сервисы ETL в SAP HANA
Начиная с Support Package Stack 9, в SAP HANA появились интеллектуальные инструменты для интеграции, управления качеством и управления потоками данных(smart data streaming). Новейшие инструменты SAP HANA также выполняют большую часть функций интеграции данных и управления качеством данных в SAP Data Services. Функция интеллектуального управления потоками данных SAP HANA позволяет собирать и анализировать, а также реагировать на данные в реальном времени.
Влияние SAP HANA на SAP Data Services
SAP Data Services представляет собой гибкий инструмент для соединения множества исходных и целевых систем. Более того, этот инструмент обеспечивает неограниченную масштабируемость и незаменим при выполнении сложных преобразований данных. Преимущество интеллектуальных процессов интеграции и управления качеством данных состоит в том, что не нужно использовать клиентские программы, и системная архитектура упрощается. Следовательно, можно избежать проблем с задержеками и низкой производительности, которые часто возникают в приложении для разработки SAP Data Services при использовании удаленного репозитория.
Проблемы с производительностью в SAP Data Services часто возникали вследствие того, что на экстракцию данных из исходной системы и загрузку их в целевую систему требовалось много времени. То есть производительность SAP Data Services снижалась, в основном, когда требовались расчеты, например, при очистке данных. SAP Data Services, используемый в качестве промежуточной платформы между исходной и целевой системой, часто обвиняли в низкой производительности. SAP Data Services предназначена для пакетной загрузки данных и никогда не была идеальным инструментом для репликации данных в реальном времени — для этого можно использовать новую функцию SAP HANA.
Новая цель SAP — упростить и объединить инструменты и приложения. Внедряя функции ETL в SAP HANA, в которой также выполняется моделирование данных (в SAP HANA Studio), SAP превращает эту платформу в единый инструмент для выполнения различных действий. Поэтому количество периферийных систем сокращается. Следовательно, требуется меньше оборудования, а это упрощает развертывание, техническое обслуживание и архитектуру системных ландшафтов. Тем не менее, SAP продолжает продавать SAP Data Services как основное приложение для управления информацией на предприятии (Enterprise Information Management; EIM). База клиентов EIM SAP Data Services содержит более 10 000 организаций, и SAP Data Services занимает прочную позицию среди платформ интеграции данных согласно исследованию Gartner Magic Quadrant. Хотя SAP в настоящее продолжает продажи и поддержку SAP Data Services, в будущем SAP HANA, скорее всего, будет выполнять все функции ETL, окончательно упраздняя SAP Data Services. Поэтому для SAP Data Services будет выходить все меньше новой функциональности, тогда как функции интеллектуальной интеграции и интеллектуального управления качеством данных в SAP HANA будут значительно расширены.
Будущее SAP Data Services
В новых проектах с потребностью в ETL и с использованием приложений на платформе SAP HANA необходимо сделать выбор в пользу интеллектуальной интеграции и интеллектуального управления данными, а не SAP Data Services. Эти функции встроены в SAP HANA, что позволяет избежать дополнительной траты времени и усилий на внедрение SAP Data Services. Если SAP Data Services уже используется, в обозримом будущем никаких изменений не потребуется, так как SAP продолжает поддержку SAP Data Services (рис. 1). Дорожная карта SAP Data Services предполагает, что базовая поддержка будет продолжаться до конца 2018 года, а приоритетная поддержка — до 2020 года. SAP Data Services 4.2 — наиболее актуальная версия платформы. Ожидаются лишь незначительные изменения и исправления.
Рис. 1. Классический ландшафт интеграции данных SAP Data Services
На сегодняшний день (июнь 2017 г.) в SAP не разработан метод для переноса заданий SAP Data Services в интеллектуальные инструменты интеграции и управления качеством данных, и неизвестно, планируется ли такой процесс. Целесообразно отслеживать обновления функциональности интеллектуальной интеграции и управления качеством данных SAP HANA, чтобы иметь возможность принять информированное решение о переходе с SAP Data Services. Примеры использования интеллектуальной интеграции данных (см. Рис. 2) включают в себя виртуальный доступ к некритичным данным (с помощью интеллектуального доступа к данным, smart data access); ETL для собственных хранилищ данных и информационных витрин SAP HANA; параллельное развертывание для отчетов OLTP; перенос данных из старых систем в SAP HANA; а также пакетную, федеративную (через интеллектуальный доступ) или интеграцию в режиме реального времени с внешними источниками.
Рис. 2. Новая собственная функция интеграции данных в SAP HANA
Интеллектуальную интеграцию данных можно развернуть как локально, так и в облаке. Интеллектуальная интеграция данных обеспечивает принудительную репликацию данных в выбранных источниках с функцией сбора измененных данных (Change Data Capture; CDC). Функциональность реализована на хорошо известном сервере репликации Sybase. Интеллектуальная интеграция данных также позволяет извлекать пакетные данные из источника любого типа. Интеллектуальный доступ к данным (smart data access) — федеративная платформа SAP HANA, которая используется для доступа к виртуальным данным, например, для запросов или загрузок начальных данных. Для доработки интеллектуального доступа к данным с помощью интеллектуальной интеграции используется адаптер Software Development Kit (SDK). Если поток репликации прерывается или останавливается, инструмент интеллектуальной интеграции данных может продолжить прерванную обработку данных. Он может продолжить работу и при кратковременном отключении целевой системы SAP HANA из-за непредвиденных обстоятельств, например, во время стихийных бедствий. В преобразовании данных с помощью интеллектуальной интеграции участвуют виртуальные и невиртуальные таблицы и ракурсы (view) SAP HANA. Для редактирования потоков преобразований используется Application Function Modeler (AFM) — интерфейс пользователя SAP HANA Studio.
Подключение SAP Data Services к SAP HANA
Платформа SAP Data Services оптимизирована для пакетной загрузки данных и может использоваться для загрузки данных в базу памяти in-memory SAP HANA. Для загрузки данных в реальном времени можно использовать сервер репликации Sybase или инструмент интеллектуального управления потоками данных. В SAP HANA Modeler создаются задания первичной загрузки и потоки данных для загрузки в таблицы, а SAP Data Services может использоваться для поиска и импорта внешних метаданных. SAP Data Services можно использовать для редактирования потоков данных после начальной настройки.
Оформите подписку sappro и получите полный доступ к материалам SAPPRO
Оформить подпискуУ вас уже есть подписка?
Войти