Меню

Большие данные в SAP Leonardo*

|

Данные — это валюта современного цифрового предприятия. Для успешного перехода в цифровой формат компании важно уметь эффективно переносить, преобразовывать и интегрировать данные, а также повышать их качество.

*Оригинал (англ.): SAP Leonardo. Введение в интеллектуальное предприятие. Пьер Эразмус, Вивек Винаяк Рао, Амит Синха, Ганеш Вадавадиги. Издательство SAP PRESS. Глава 3. 2019.

Данные — это валюта современного цифрового предприятия. Для успешного перехода в цифровой формат компании важно уметь эффективно переносить, преобразовывать и интегрировать данные, а также повышать их качество. Причём важно уметь это делать с данными любого типа, из любого источника и с любой периодичностью. Чтобы получать из больших данных ценные сведения, требуется готовое распределённое вычислительное решение уровня предприятия.

Большие данные характеризуются высоким объёмом, скоростью и разнообразием. Под высоким объёмом подразумевается большое количество данных, измеряемое терабайтами и петабайтами. Высокая скорость относится к скорости создания данных, особенно это характерно для данных потоковой передачи из нескольких источников, например, с датчиков в Интернете вещей (IoT). Высокое разнообразие предполагает, что здесь можно выделить данные самых разных типов: структурированные, неструктурированные и полуструктурированные. Сейчас компании собирают данные по всем измерениям. В отличие от прошлого, когда большая часть данных имела транзакционный характер, реляционные базы данных не отвечают современным требованиям в реальности больших данных в вопросах хранения, обработки и использования данных.

ИТ-стратегия компании должна отражать современные технологические тенденции: сокращение объёмов и объединение разрозненных данных, управление облачными и гибридными стратегиями развёртывания, эффективное применение новых вариантов архитектуры данных (например, так называемых озёр неструктурированных данных) и обработка данных новых типов (например, пространственные и потоковые данные IoT).

В этой главе мы сначала рассмотрим общее понятие больших данных. Вы узнаете, что собой представляют большие данные и для чего они нужны. Далее мы познакомимся с инструментами и продуктами SAP, поддерживающими эту технологию, и изучим ряд примеров из разных отраслей и направлений бизнеса, важную роль в которых сыграли эти инструменты и продукты.

Что представляют собой большие данные (раздел 3.1)

Данные заняли центральное место во многих компаниях, особенно с наступлением эпохи больших данных и появлением новых источников данных: потоковая передача, социальные сети и другие типы неструктурированных данных. Мы по-прежнему можем пользоваться транзакционными базами данных при выполнении базовых бизнес-процессов, но новые источники занимают всё более важное место и проявляют себя абсолютно новыми способами. Универсальная структура данных — подход к созданию архитектуры и набор сервисов данных для предоставления непротиворечивых возможностей и сервисов для локальных и мультиоблачных сред, который помогает упростить управление интеграцией данных и реализовать переход компании в цифровой формат. Эта универсальная структура данных даёт ответы на вопросы, возникающие в процессе работы:

  • Нужно ли иметь различные специализированные базы данных для разных типов данных?
  • Должна ли каждая база данных работать в собственной среде?
  • Как избежать задержек в результате интеграции различных сред?

Такая архитектура также отвечает следующим требованиям.

  • Производительность

Инфраструктура, которая предоставляет данные с высокой скоростью для удовлетворения потребностей пользователей, эффективного выполнения процессов и решения бизнес-задач.

  • Свобода

По мере создания данных пользователями, системами (облачными и локальными) и всевозможными внешними сторонами необходимо обеспечить их свободное и неограниченное перемещение в потоках.

  • Модели данных

Вам потребуется моделировать данные для достижения определённых бизнес-целей. При работе с большими данными критическое значение приобретает обнаружение данных для выявления взаимосвязей и скрытых ценных сведений.

  • Независимость

Важно обеспечить возможность масштабирования. Доступные вычислительные мощности не должны ограничивать данные, а данные не должны ограничивать вычислительные мощности.

  • Низкое значение задержки

Несмотря на то, что данные создаются с беспрецедентной скоростью, чтобы обеспечить выполнение всех потребностей компании, данные должны быть доступны для включения в транзакции, автоматизированные процессы и аналитику сразу же после создания.

  • Управление

При обеспечении доступности данных и возможности их использования не следует пренебрегать их целостностью и безопасностью.

  • Беспрепятственное выполнение

Необходимо обеспечить полную совместимость и согласованность для объединения структурированных данных и новых источников данных, поскольку данные создаются без представления степени сложности различных типов данных.

Кроме того, с течением времени типичный ландшафт компании для управления данными развивается в соответствии с описанными ниже бизнес-потребностями.

  • Корпоративные хранилища данных

Обычно для поддержки всего предприятия используется одно хранилище данных. Эта потребность вырастает из необходимости обеспечить подключение процессов в транзакционных приложениях с последующей интеграцией транзакционных процессов с бизнес-аналитикой предприятия.

  • Информационные витрины

Инфо-витрины позволяют собирать данные из нескольких источников для оптимизации и поддержки бизнес-целей или бизнес-потребностей. Часто инфо-витрины проходят оптимизацию для того, чтобы оперативно предоставлять ответы на бизнес-вопросы для принятия решений о выполнении действий.

  • Озёра данных

Обычно так называют платформу больших данных (Hadoop или Spark), которая используется для хранения и изучения всех потоков необработанных данных IoT с разных датчиков в нескольких местоположениях внутри компании и за её пределами. Далее данные переносятся из озера в хранилище или инфо-витрину для организации и уточнения, чтобы их можно было применять в процессе принятия решений на всех уровнях организации.

Эти задачи выполняет решение SAP HANA Data Management Suite, которое позволяет собирать и объединять данные всех типов в реальном времени и на одной платформе. С помощью SAP HANA Data Management Suite можно остановить беспорядочное разрастание объёмов данных, выполнять мгновенный анализ данных и устранять неразрешимые бизнес-проблемы, в значительной мере упрощая путь компании к интеллектуальному предприятию. Как показано на Рис. 3.1, SAP HANA Data Management Suite предоставляет безопасные и управляемые корпоративные приложения и средства аналитики в открытом гибридном пакете решений с несколькими облаками, с помощью которых вы сможете гармонизировать достоверные данные и эффективно организовать их в едином ландшафте.

Рис. 3.1 Пакет решений для управления данными на базе SAP HANA для интеллектуальных предприятий

Перевод надписей на картинке:

Решение SAP HANA Data Management Suite обеспечивает сквозное управление данными от регистрации, получения и обработки до гармонизации, вычисления и потребления. В рамках этих процессов SAP HANA Data Management Suite может выступать как фабрика принятия решений, очищая необработанные данные и преобразуя их в доверительный формат для последующего использования в приложениях, средствах аналитики, машинном обучении и других функциях. Одновременно это платформа разработки для приложений, которым требуется получать результаты аналитики по транзакциям в реальном времени, для управления данными, их обезличивания и направления в потоках по защищённым каналам для дополнительного уточнения в ландшафте. С помощью этой платформы можно выполнять моделирование по всем направлениям бизнеса, обрабатывать различные типы данных и технологических архитектур, выполнять анализ данных в оперативной памяти с применением нескольких моделей, а также обрабатывать данные в распределённой вычислительной структуре.

Как показано на Рис. 3.2, SAP HANA, SAP Data Hub, и SAP Cloud Platform Big Data Services являются ключевыми инструментами SAP HANA Data Management Suite для работы с большими данными. В следующих разделах мы познакомимся с ними поближе.

Рис. 3.2 Пакет решений для управления данными на базе SAP HANA

Перевод надписей на картинке:

Универсальная платформа для управления данными (раздел 3.2)

SAP HANA, как показано на Рис. 3.3, предоставляет архитектуру обработки данных, разработанную специально для решения задач вывода данных в соответствии с современными требованиями и стандартами, что позволяет компаниям с лёгкостью получать все преимущества применения новых технологий. Вы можете выполнять аналитику по актуальным транзакциям в режиме реального времени без тиражирования данных виртуально или физически, подключаясь ко всем данным из любого источника. По сути, SAP HANA делает следующий шаг и предоставляет гибридную платформу следующего поколения для транзакционной и аналитической обработки (HTAP) с уникальной способностью не только выполнять задачи операционной аналитики с неструктурированными данными (например, в бизнес-операциях), но и применять расширенные возможности аналитической обработки: прогнозное машинное обучение или обработку структурированных и неструктурированных данных на естественном языке (сюда относятся графические данные, пространственные данные, текст, хранилища документов, средства поиска и потоки данных в реальном времени).

Оформите подписку sappro и получите полный доступ к материалам SAPPRO

У вас уже есть подписка?

Войти