Блог

Повернутися до всіх статей

ETL & ELT

|||

https://pixabay.com/illustrations/big-data-abstract-7644530/

ETL розшифровується як Extract (вилучення), Transform (перетворення), Load (завантаження) даних. Тобто, дані з початку вилучаються з джерела, відправляються в «проміжну область», де відбувається їхня трансформація, і після цього завантажуються в цільову область.

Нове покоління інструментів дозволило перейти від ETL до ELT. Ключовою відмінністю між ними є принцип роботи. На відміну від ETL, ELT являє собою процес вилучення даних із різних джерел, завантаження напряму в цільову область, і тільки після цього відбувається перетворення. Використання ELT для роботи з великими обсягами даних є головною перевагою.

Незважаючи на це, область ELT все ще знаходиться на етапі свого становлення та стрімкого розвитку. Залишаються відкритими питання з обробки конфіденційних даних (PII, PHI). Тому триває дискусія про необхідність невеликої обробки даних перед завантаженням, що тягне за собою появу гібридної версії ETLT.

Незважаючи на те, що такі компанії, як Snowflake, Bigquery, Redshift, свого часу змінили спосіб розміщення даних, управління та доступу до них, індустрія інтеграції даних теж розвивалась. У системі хмарних сховищ, де основною метою є вилучення і завантаження даних (без їхньої трансформації), існують перспективи автоматизації інженерних задач. Такі перспективи вплинули на розвиток таких компаній, як Segment, Stitch, Fivetran та ін.

Розглянемо як приклад Fivetran, який являє собою автоматизовану ETL платформу. Вона дозволяє збирати і аналізувати дані за допомогою підключення своїх баз даних до центрального сховища. Fivetran пропонує великий вибір конекторів, завдяки яким дані вилучаються з різних джерел та завантажуються у сховище. Процес відбувається автоматично, є повністю керованим і не потребує обслуговування. Це дозволило різним неінженерним командам,  самостійно забезпечувати налаштування з’єднувачів  для інтеграції даних та керувати ними.

На сьогоднішній день такі інструменти користуються широким попитом. І доказом цього є показники компанії: за минулий рік вартість цінних паперів серії С склала $1,2 млрд.

 

Попередній пост #maindatainfarstructuretrends
Попереднiй Пост Наступний Пост

Недавні пости

Матриця Рамсфелда як ефективний інструмент в процесі приняття рішень

Під час брифінгу, присвяченого війні в Іраку, Дональд Рамсфелд поділив інформацію на 4 категорії: відоме знане, відоме незнане, невідоме знане, невідо...

Читати далі

Вплив ШІ та машинного навчання на науку про дані

Штучний інтелект та машинне навчання сприяли просуванню науки про дані. Ці технології допомагають фахівцям з даних проводити аналіз, будувати прогнози...

Читати далі

Штучний Інтелект у сфері аналізу даних

Штучний Інтелект широко використовується у багатьох додатках, зокрема й для аналітики даних. В основному ШІ застосовується для аналізу великих наборів...

Читати далі
GoUp Chat