#datalake

Ключові відмінності бази даних, сховища даних, вітрини даних та озера даних

Для того щоб прийняти правильне рішення при виборі системи організації даних доцільно провести порівняльний аналіз можливих варіантів.

Ключові відмінності між базами даних та сховищем даних:

Сховище даних

База даних

Ключові відмінності між вітриною даних та сховищем даних:

Вітрина даних

Сховище даних

Ключові відмінності між озером даних та вітриною даних

Озеро даних

Вітрина даних

Ключові відмінності між озером даних та сховищем даних

Сховище даних

Озеро даних

Ключові відмінності між базами даних та вітриною даних

База даних

Вітрина даних

Ключові відмінності між базами даних та озером даних

База даних

Озеро даних

База даних, сховище даних, вітрина даних, озеро даних: основні характеристики та відмінності

Сучасні організації щоденно обробляють дані. Однак, дані можуть відрізнятися за видом, обсягом та способом використання. Це необхідно враховувати при виборі найкращого рішення для роботи з даними. Досягнення результатів залежить, зокрема, від обраної системи управління корпоративними даними, яка має повністю відповідати потребам бізнесу. Це може бути: вітрина даних, сховище даних, база даних або озеро даних.

База даних

База даних є місцем зберігання взаємопов’язаних даних, які використовуються для фіксації певної ситуації. Наприклад, база даних точок продажу (POS). В даному випадку база даних збирає та зберігає дані, пов’язані з транзакціями роздрібних магазинів. Дані, які поступають у базу даних, проходять процес обробки, систематизації, управління, оновлення і після цього зберігаються в таблиці. База даних є цільовим сховищем необроблених транзакційних даних та виконує оперативну обробку транзакцій (OLTP).

До основних характеристик баз даних можна віднести:

Сховище даних

Сховище даних є основною аналітичною системою компанії. Воно часто працює разом з операційним сховищем даних (ODS) з метою зберігання даних, отриманих з різних баз даних компанії. Наприклад, компанія має бази даних точок продажу, онлайн-активності, інформації про клієнтів та співробітників. Сховище даних візьме дані із цих джерел і зробить їх доступними в одному місці. Метод вилучення даних з бази даних, перетворення їх на ODS і завантаження у сховище даних э прикладом процесів ETL і ELT.

Сховище даних є відмінним інструментом для аналізу даних через фіксацію перетворених історичних даних. Бізнес-відділи беруть участь в організації даних, використовуючи їх для складання звітів та аналізу даних. Для запиту даних сховище використовує SQL, для організації та забезпечення цілісності даних – таблиці, індекси, ключі, уявлення та типи даних.

До основних характеристик сховища даних можна віднести:

Вітрина даних

Як і сховище даних, вітрина даних підтримує та зберігає оброблені та готові до аналізу дані. Однак, область видимості обмежена. Вітрина даних надає предметні дані, які необхідні підтримки кожної бізнес-одиниці. Наприклад, вітрина даних для підтримки звітів та аналізу відділу маркетингу. Визначаючи межі даних у масштабі певного відділу, доступні лише релевантні для цього відділу дані.

Використання вітрини даних підвищує рівень безпеки. Обмеження видимості запобігає безвідповідальному використанню даних, які не мають відношення до певного відділу. Слід також зазначити, що менший обсяг даних у вітрині підвищує швидкість обробки, отже збільшує швидкість виконання запитів. Дані агрегуються та готуються для певного відділу, що мінімізує некоректне використання даних та ймовірність суперечливих звітів.

До основних характеристик вітрини даних можна віднести:

Озеро даних

Озеро даних призначене для зберігання структурованих та неструктурованих даних компанії. Воно збирає всі цінні дані для подальшого використання: зображення, pdf-файли, відео тощо. Як і сховище даних, озеро витягує дані з кількох розрізнених джерел та обробляє їх. Воно також може бути використано з метою аналізу даних та створення звітів. Для обробки та аналізу використовуються різні програми та технології (наприклад, Java). Озера даних часто використовують у поєднанні з машинним навчанням. Результати тестів машинного навчання зберігаються в озері. Рівень складності використання потребує серйозних навичок від користувачів, а також досвіду роботи з мовами програмування та методами обробки даних. Очищення даних відбувається без використання ODS.

До основних характеристик озера даних можна віднести:

Об’єднання Data Lake та Data Warehouse

Ще одним сучасним трендом є об’єднання озера даних та сховища даних, що сприяє спрощенню стека даних.

Донедавна окремо існували озеро даних та сховище даних. Обидва об’єкти призначені для зберігання даних. Але вони не є синонімічними й між ними існує принципова різниця.

Перший об’єкт являє собою сховище для великого обсягу «сирих» даних в оригінальному вигляді, які були отримані з різних джерел. Дані можуть бути різного типу: структуровані, пів структуровані й неструктуровані. Для озера даних характерно: висока гнучкість й доступність даних, безліч варіантів використання машинного навчання.

Другий об’єкт також являє собою сховище великих обсягів даних. Але в цьому випадку дані проходять обробку й потрапляють у сховище вже структурованими регламентованими способами.  Сховище даних є менш гнучким, має фіксовану конфігурацію й підтримує транзакційну аналітику та бізнес-аналітику.

Організації бажають отримати краще з обох сторін, тому намагаються поєднати обидва варіанти. У результаті вони мають й озеро даних, і сховище (іноді декілька з великою кількістю паралельних пайплайнів).

Сучасні провайдери рішень в області зберігання даних надають все більше таких можливостей. Наприклад, Snowflake – їхня платформа дозволяє з’єднати сховище та озеро даних; Microsoft Synapse – їхні хмарні сховища мають інтегровані можливості озера даних.

Попередній пост #maindatainsfrastucturetrends 
GoUp Chat