#datawarehouse

Ключові відмінності бази даних, сховища даних, вітрини даних та озера даних

Для того щоб прийняти правильне рішення при виборі системи організації даних доцільно провести порівняльний аналіз можливих варіантів.

Ключові відмінності між базами даних та сховищем даних:

Сховище даних

База даних

Ключові відмінності між вітриною даних та сховищем даних:

Вітрина даних

Сховище даних

Ключові відмінності між озером даних та вітриною даних

Озеро даних

Вітрина даних

Ключові відмінності між озером даних та сховищем даних

Сховище даних

Озеро даних

Ключові відмінності між базами даних та вітриною даних

База даних

Вітрина даних

Ключові відмінності між базами даних та озером даних

База даних

Озеро даних

База даних, сховище даних, вітрина даних, озеро даних: основні характеристики та відмінності

Сучасні організації щоденно обробляють дані. Однак, дані можуть відрізнятися за видом, обсягом та способом використання. Це необхідно враховувати при виборі найкращого рішення для роботи з даними. Досягнення результатів залежить, зокрема, від обраної системи управління корпоративними даними, яка має повністю відповідати потребам бізнесу. Це може бути: вітрина даних, сховище даних, база даних або озеро даних.

База даних

База даних є місцем зберігання взаємопов’язаних даних, які використовуються для фіксації певної ситуації. Наприклад, база даних точок продажу (POS). В даному випадку база даних збирає та зберігає дані, пов’язані з транзакціями роздрібних магазинів. Дані, які поступають у базу даних, проходять процес обробки, систематизації, управління, оновлення і після цього зберігаються в таблиці. База даних є цільовим сховищем необроблених транзакційних даних та виконує оперативну обробку транзакцій (OLTP).

До основних характеристик баз даних можна віднести:

Сховище даних

Сховище даних є основною аналітичною системою компанії. Воно часто працює разом з операційним сховищем даних (ODS) з метою зберігання даних, отриманих з різних баз даних компанії. Наприклад, компанія має бази даних точок продажу, онлайн-активності, інформації про клієнтів та співробітників. Сховище даних візьме дані із цих джерел і зробить їх доступними в одному місці. Метод вилучення даних з бази даних, перетворення їх на ODS і завантаження у сховище даних э прикладом процесів ETL і ELT.

Сховище даних є відмінним інструментом для аналізу даних через фіксацію перетворених історичних даних. Бізнес-відділи беруть участь в організації даних, використовуючи їх для складання звітів та аналізу даних. Для запиту даних сховище використовує SQL, для організації та забезпечення цілісності даних – таблиці, індекси, ключі, уявлення та типи даних.

До основних характеристик сховища даних можна віднести:

Вітрина даних

Як і сховище даних, вітрина даних підтримує та зберігає оброблені та готові до аналізу дані. Однак, область видимості обмежена. Вітрина даних надає предметні дані, які необхідні підтримки кожної бізнес-одиниці. Наприклад, вітрина даних для підтримки звітів та аналізу відділу маркетингу. Визначаючи межі даних у масштабі певного відділу, доступні лише релевантні для цього відділу дані.

Використання вітрини даних підвищує рівень безпеки. Обмеження видимості запобігає безвідповідальному використанню даних, які не мають відношення до певного відділу. Слід також зазначити, що менший обсяг даних у вітрині підвищує швидкість обробки, отже збільшує швидкість виконання запитів. Дані агрегуються та готуються для певного відділу, що мінімізує некоректне використання даних та ймовірність суперечливих звітів.

До основних характеристик вітрини даних можна віднести:

Озеро даних

Озеро даних призначене для зберігання структурованих та неструктурованих даних компанії. Воно збирає всі цінні дані для подальшого використання: зображення, pdf-файли, відео тощо. Як і сховище даних, озеро витягує дані з кількох розрізнених джерел та обробляє їх. Воно також може бути використано з метою аналізу даних та створення звітів. Для обробки та аналізу використовуються різні програми та технології (наприклад, Java). Озера даних часто використовують у поєднанні з машинним навчанням. Результати тестів машинного навчання зберігаються в озері. Рівень складності використання потребує серйозних навичок від користувачів, а також досвіду роботи з мовами програмування та методами обробки даних. Очищення даних відбувається без використання ODS.

До основних характеристик озера даних можна віднести:

Зберігання – ключовий елемент процесу управління даними

Незамінним інструментом сучасного бізнесу є аналітика даних. Розуміння даних та їхня аналітика дають вичерпні відповіді бізнесу про те, як необхідно налаштувати процеси для отримання максимальної вигоди, хто є основними клієнтами бізнесу та які їхні потреби, які «прогалини» існують. Ба більше, компанії використовують штучний інтелект, який дозволяє пропонувати продукти та послуги «потрібним» людям. Можливість збільшити ефективність бізнес-процесів забезпечується завдяки роботам і автоматизації.

Всі ці розробки засновані на потоці даних, які збираються, зберігаються й аналізуються. Використовуючи дані, деякі компанії зробили революцію, які запропонували нові послуги для покращення та спрощення життя людини: пошукові системи, засоби зв’язку, електронна комерція, системи бронювання квитків, житла, побачень, відпочинку та ін.

Однак, більша частина компаній не досягла такого успіху. Причина полягає в тому, що компанії відчувають труднощі в процесі управління даними. Велика їхня частина просто не використовується, і відповідно монетизація не відбувається.

Першою перешкодою у процесі управління даними є зберігання. Некоректна стратегія вирішення цього завдання або повна її відсутність може привести до виникнення інших проблем у майбутньому. Обсяги даних постійно зростають, тому необхідно чітко розуміти які дані важливі та коли вони потрібні.

На цей час хмарні сервіси пропонують зберігати практично необмежені обсяги інформації. Однак, тут існують певні труднощі. Наприклад, дані з високим рівнем конфіденційності або нормативного навантаження не можуть бути розміщені за межами підприємства; деякі дані вимагають миттєвого доступу з будь-якої точки світу; деякі дані вимагають звичайного архівування. Також існує потреба в аудиті даних для визначення їхньої актуальності та відповідності міжнародним стандартам. Для безперешкодного виконання цих функцій необхідно знати де знаходяться дані, скільки копій існує та як отримати до них доступ.

Процес отримання достовірних даних можна забезпечити за допомогою швидких і високодоступних систем зберігання. Сучасна бізнес-аналітика передбачає переміщення та сортування великих обсягів даних для надання гнучкої функціональності бізнес-користувачам і клієнтам. Зокрема система повинна підкріплюватися шифруванням і безпекою.

Інтелектуальне сховище даних

Для досягнення максимальної швидкості, стійкості та безпеки сучасні системи зберігання даних, зокрема IBM FlashSystem, використовують твердотілі енергонезалежні носії. Використання технологій штучного інтелекту забезпечує розумне управління зберіганням і доступом до даних, що дозволяє збільшити швидкість і мінімізувати ймовірність помилок і втрати даних. Так, дані з найчастішим прогнозованим доступом будуть готові до роботи і визначені у чергу.

Однією з ключових вимог до системи зберігання даних є стійкість. Мета багатьох сучасних компаній – налаштувати внутрішні процеси та взаємовідносини з клієнтами, засновані на аналітичних даних. У такій моделі неможливо допустити зупинку цих процесів внаслідок проблем з потоком даних або інфраструктурою. Сучасні системи зберігання даних пропонують можливість швидкого копіювання та тиражування корпоративних даних. Забезпечення цілісності даних нерідко має критично важливе значення. В цьому випадку в різних місцях можуть синхронізуватися 2 або більше ідентичних копій даних і в ситуації непередбаченого збою відновлюватися практично без втрати даних.

Управління мінливими даними

Метеорологічна служба Великобританії вирішила проблему впровадження інфраструктури, яка необхідна для роботи з мінливими даними. Інформація використовується для визначення змін погоди, дослідження клімату, визначення сезонних тенденцій. Для цього щодня збирається, аналізується 300 мільйонів точок даних, які пов’язані з погодою, і забезпечується доступ для клієнтів. Відбувається це двічі для виключення ризику переривання потоку даних.

Для забезпечення такого процесу була розроблена стратегія гібридної хмари, яка заснована на IBM FlashSystem. Сховище забезпечує високий рівень стиснення, що є економічно ефективним рішенням. Також це сприяє створенню високопродуктивної інфраструктури даних, яка необхідна для передачі інформації з внутрішніх серверів у загальнодоступну хмару та клієнтам.

Ще одним прикладом є Архієпархія Зальцбурга, яка потребувала рішення для забезпечення більш ефективного процесу надання послуг (підтримка, робота з громадськістю та парафіянами, забезпечення доступу до великої кількості історичних документів і літератури). Архієпархія змогла збільшити час відповіді в 10 – 20 разів шляхом відмови від механічної дискової системи зберігання на користь твердотілих енергонезалежних систем.

Дані є важливою частиною бізнес-активів. Всі рішення щодо даних повинні бути грамотними та ефективними. Процес зберігання варто розглядати, як ключовий елемент стратегії управління даними нарівні з процесами збору й аналітики.

Об’єднання Data Lake та Data Warehouse

Ще одним сучасним трендом є об’єднання озера даних та сховища даних, що сприяє спрощенню стека даних.

Донедавна окремо існували озеро даних та сховище даних. Обидва об’єкти призначені для зберігання даних. Але вони не є синонімічними й між ними існує принципова різниця.

Перший об’єкт являє собою сховище для великого обсягу «сирих» даних в оригінальному вигляді, які були отримані з різних джерел. Дані можуть бути різного типу: структуровані, пів структуровані й неструктуровані. Для озера даних характерно: висока гнучкість й доступність даних, безліч варіантів використання машинного навчання.

Другий об’єкт також являє собою сховище великих обсягів даних. Але в цьому випадку дані проходять обробку й потрапляють у сховище вже структурованими регламентованими способами.  Сховище даних є менш гнучким, має фіксовану конфігурацію й підтримує транзакційну аналітику та бізнес-аналітику.

Організації бажають отримати краще з обох сторін, тому намагаються поєднати обидва варіанти. У результаті вони мають й озеро даних, і сховище (іноді декілька з великою кількістю паралельних пайплайнів).

Сучасні провайдери рішень в області зберігання даних надають все більше таких можливостей. Наприклад, Snowflake – їхня платформа дозволяє з’єднати сховище та озеро даних; Microsoft Synapse – їхні хмарні сховища мають інтегровані можливості озера даних.

Попередній пост #maindatainsfrastucturetrends 
GoUp Chat