Зараз вже складно уявити ситуацію, де бізнес має розвиток без участі даних. Вони відіграють основну роль в діяльності компаній: на підставі їх приймаються бізнес-рішення. розробляються стратегії, складаються прогнози та ін. Для кожної прогресуючої компанії необхідно налагодити «правильні відносини» зі своїми даними. І важливим етапом є створення сховища даних.
Що таке сховище даних?
Сховище даних – це система зберігання даних, які отримуються з різних джерел всередині компанії і використовуються для керування процесу прийняття бізнес-рішень.
На цей час для розробки сховища даних використовуються 2 відомих архітектурних стиля: архітектура Inmon та архітектура Kimball. Ральф Кимбалл и Билл Инмон пропонують різні підходи до проектування. Основною відмінністю є спосіб моделювання структури даних, завантаження та зберігання даних. Ці відмінності впливають на початковий час доставки і здатність адаптуватися до майбутніх змін в ETL дизайні. Але, методи мають й спільні характеристики: обидва методи позиціонують сховище даних як центральне сховище для підприємства; покривають потреби корпоративної звітності й використовують ETL для завантаження сховища.
Розглянемо більш детально кожний метод.
Підхід Білла Інмона
Цей метод починається з корпоративної моделі даних. Завдяки цьому визначаються основні предметні області бізнесу, а також ключові суб’єкти: клієнти, продукт/послуга, постачальники та ін. Відповідно на основі цієї моделі будується деталізована логічна модель по кожному суб’єкту. Структура суб’єкту побудована в нормалізованому вигляді, по можливості уникається надлишок даних. Це ключова особливість методу, яка дозволяє чітко визначити бізнес-концепцію та уникнути аномалії оновлення даних.
Сховище даних є єдиним джерелом достовірної інформації для підприємства. Така структура спрощує процес завантаження даних, але, оскільки включає велику кількість таблиць та з’єднань, її важко використовувати для побудови запитів.
Таким чином, Б. Інмон пропонує будувати вітрини даних для кожного відділу (фінансів, продажу, розвитку, маркетингу та ін.). Всі дані, які надходять у сховище, інтегруються, і сховище виступає єдиним джерелом даних для різних вітрин. Це гарантує цілісність й послідовність даних по всій організації.
Переваги методу:
- Сховище даних – єдине джерело даних для вітрин, а також достовірної інформації для підприємства;
- всі дані у сховищі інтегровані;
- аномалії оновлення даних запобігаються завдяки низького надлишку, що спрощує процес ETL та мінімізує вірогідність збоїв;
- зрозумілі бізнес-процеси завдяки детальному зображенню бізнес-суб’єктів;
- гнучкість – можливість легко оновити сховище даних у відповідь на зміни потреб бізнесу або вихідних даних;
- можливість створення різних звітів залежно від вимог.
Недоліки методу:
- вірогідність ускладнення моделі й реалізації з часом, що пов’язано з великою кількістю таблиць та з’єднань;
- необхідність в експертах моделювання даних та самому бізнесі, що є досить складно. та дорогою в реалізації;
- тривалий етап початкового налаштування й видачі (4 – 9 місяців);
- потребує додаткових робот з ETL;
- потребує наявність досить великої команди спеціалістів.
Підхід Ральфа Кімбалла
Підхід починається з визначення основних процесів і питань бізнесу, на які сховищу даних необхідно відповісти. Операційна система виступає ключовим джерелом даних. Для перенесення даних з різних джерел й завантаження в проміжну область використовується програмне забезпечення ETL. З проміжної області дані завантажуються в розмірну модель. Відмінно особливістю цього підходу є те, що розмірна модель ненормалізована. Схема типу «зірка» є основним концептом розмірного моделювання, де є централізоване сховище даних, яке зберігається у таблиці фактів. Таблиця фактів містить всі дані, які мають відношення до предметної області та використовуються для створення звітів. Таблиця вимірів описує дані, які зберігаються. Користувач має можливість виконувати деталізацію без додаткових з’єднань, оскільки таблиці вимірів повністю ненормалізовані. Р. Кімбалл пропонує концепцію «узгоджених вимірів» для досягнення інтеграції в розмірній моделі. Ключові параметри (наприклад, клієнт, продукт/послуга), будуються 1 раз та використовуються всіма факторами. Це гарантує однакове використання одного параметру всіма факторами.
Переваги методу:
- швидке налаштування;
- схема типу «зірка» зрозуміла бізнес-користувачам та легка у користуванні;
- невеликі розміри середи сховища даних, що спрощує процес керування системою;
- висока ефективність схеми типу «зірка»;
- потребує нечисленної команди спеціалістів для ефективної роботи сховища даних;
- відмінно підходить для роботи з метриками по відділам та відстеження KPI.
Недоліки методу:
- відсутнє єдине джерело достовірної інформації, оскільки дані інтегровані не повністю;
- з часом існує вірогідність появи аномалій оновлення даних;
- додавання стовбців у таблицю фактів може сприяти зниженню ефективності;
- відсутня можливість задовольнити запити всієї компанії, оскільки орієнтація на бізнес-процеси.
Обидва методи мають свої переваги та недоліки, і в окремій ситуації кожний метод може бути більш ефективним за інший. Головне завдання прийняти обґрунтоване та відповідне потребам бізнесу рішення задля досягнення кращого результату.