#ETL

ETL & ELT

ETL розшифровується як Extract (вилучення), Transform (перетворення), Load (завантаження) даних. Тобто, дані з початку вилучаються з джерела, відправляються в «проміжну область», де відбувається їхня трансформація, і після цього завантажуються в цільову область.

Нове покоління інструментів дозволило перейти від ETL до ELT. Ключовою відмінністю між ними є принцип роботи. На відміну від ETL, ELT являє собою процес вилучення даних із різних джерел, завантаження напряму в цільову область, і тільки після цього відбувається перетворення. Використання ELT для роботи з великими обсягами даних є головною перевагою.

Незважаючи на це, область ELT все ще знаходиться на етапі свого становлення та стрімкого розвитку. Залишаються відкритими питання з обробки конфіденційних даних (PII, PHI). Тому триває дискусія про необхідність невеликої обробки даних перед завантаженням, що тягне за собою появу гібридної версії ETLT.

Незважаючи на те, що такі компанії, як Snowflake, Bigquery, Redshift, свого часу змінили спосіб розміщення даних, управління та доступу до них, індустрія інтеграції даних теж розвивалась. У системі хмарних сховищ, де основною метою є вилучення і завантаження даних (без їхньої трансформації), існують перспективи автоматизації інженерних задач. Такі перспективи вплинули на розвиток таких компаній, як Segment, Stitch, Fivetran та ін.

Розглянемо як приклад Fivetran, який являє собою автоматизовану ETL платформу. Вона дозволяє збирати і аналізувати дані за допомогою підключення своїх баз даних до центрального сховища. Fivetran пропонує великий вибір конекторів, завдяки яким дані вилучаються з різних джерел та завантажуються у сховище. Процес відбувається автоматично, є повністю керованим і не потребує обслуговування. Це дозволило різним неінженерним командам,  самостійно забезпечувати налаштування з’єднувачів  для інтеграції даних та керувати ними.

На сьогоднішній день такі інструменти користуються широким попитом. І доказом цього є показники компанії: за минулий рік вартість цінних паперів серії С склала $1,2 млрд.

 

Попередній пост #maindatainfarstructuretrends
GoUp Chat