#maindatainfrastructuretrends

Актуальні завдання інфраструктури даних

Нові рішення та розробки з однієї сторони забезпечують доступність й простоту стека даних на підприємствах, з іншої сторони сприяють появі ще більшій кількості труднощів. Актуальна ситуація виглядає так: обсяг даних, який проходить через організацію, стрімко збільшується. Також збільшується кількість їхніх джерел, що пов’язано з появою великої кількості SaaS інструментів.

Сучасний стек даних здебільшого орієнтується на область транзакційних даних та аналітики. Однак, підприємства не обходяться лише одним пайплайном і мають їх декілька, які працюють одночасно. Окрім цього, є необхідність у технологіях потокової передачі, які наразі знаходяться на початкових стадіях розвитку.

Отже, такі інструменти, як Spark, Kafka, Pulsar будуть актуальними і надалі. Внаслідок цього потреба в інженерах по обробці даних, які здатні застосувати ці технології, також буде зростати.

Системи оркестрації мають доволі активний розвиток. Це підтверджується появою наступних фреймворків: Airflow, Luigi, Perfect, Dagster  та ін. Такі інструменти являють собою набір бібліотек з відкритим початковим кодом, які призначені для розробки, планування та моніторингу робочих процесів. Відмінною рисою є те, що інструмент написаний на мові програмування Python. Така особливість надає можливість створення й написання ланцюгів задач у візуальному режимі, а також написання програмного коду Python. Для візуалізації потокових даних використовується DAG (Directed Acyclic Graph).

З цього можна зробити висновок, що управління даними продовжує бути основною вимогою на підприємствах (через сучасний стек даних або конвеєр машинного навчання).

Попередній пост #maindatainfrastructuretrends

Нові досягнення у сфері обробки природної мови

За декілька останніх років галузь природньої обробки мови (далі NLP) мала стрімкий розвиток. У 2020 році світовий ринок NLP оцінювався у $13,16 млрд. За прогнозами цей сегмент буде мати розвиток і надалі, і до 2026 року його вартість досягне $42,04 млрд, водночас 85% діяльності підприємств буде зроблено без участі людини.

Окрім впливових гравців ринку NLP, а саме Google, Microsoft, Amazon, IBM, Apple, які продовжують розвиток й вдосконалення своїх продуктів, з’являється велика кількість нових стартапів (42Chat, Canary Speech, Gamalon, Green Key Technologies).

Найбільш значущі розробки за останній час:

Попередній пост #maindatainfrastructuretrends 

Справжній бум DSML-платформ

Фундаментальним елементом впровадження машинного навчання та штучного інтелекту в організації є платформи DSML. Головним завданням компаній, які розробляють платформи, було розширити свою пропозицію й запропонувати якомога більше варіантів використання платформ у бізнесі.

За останні декілька років можна було спостерігати зростання ринку цього сегменту, що призвело до суттєвої масштабованості компаній-розробників платформ.

Прикладом таких компаній є:

Попередній пост #maindatainfrastructuretrends

Роль аналітиків даних зростає

Значну роль в управлінні даними відіграють аналітики. Зазвичай вони являють собою або окрему команду спеціалістів, або окремих спеціалістів у різних відділах організацій. Вони володіють мовою SQL, яка використовується для управління даними зі сховищ, а також можуть мати знання Python. Але аналітики – це не інженери, в їхні обов’язки входить обробка останньої ділянки конвеєра даних.

Зараз же аналітики за допомогою сучасних інструментів мають можливість зайти далі на територію інженерів. Наприклад, обробляти перетворення, завдяки своїм власним знанням SQL.

Така опція дала можливість трішки «видихнути». Інженери з обробки даних досить рідко зустрічаються і відповідно їхня вартість висока. Ринок аналітиків в рази більший, при цьому їх набагато легше навчити, а цінник значно нижчий.

Крім цього, нові стартапи орієнтуються саме на аналітиків. Вони створюють сучасні інструменти, завдяки яким можна вилучати  та аналізувати інформацію.

Такі стартапи, як Susu, Outlier, Anodot створюють «інструменти KPI», які призначені для аналізу сховища даних і вилучення певної інформації по конкретним показникам, а також виявлення відхилень.

З’являються також інструменти, які дозволяють вбудовувати дані і аналітику безпосередньо в додаток.  Яскравим прикладом є компанія Census, яка створює канали зі сховища даних в додаток.

Все це сприяє більш широкому впровадженню бізнес-аналітики на підприємствах. Але зараз цей інструмент все ще має низький рівень попиту на підприємствах, що позбавляє аналітиків більших можливостей.

Попередній пост #maindatainfrastructuretrends 

Об'єднання Data Lake та Data Warehouse

Ще одним сучасним трендом є об’єднання озера даних та сховища даних, що сприяє спрощенню стека даних.

Донедавна окремо існували озеро даних та сховище даних. Обидва об’єкти призначені для зберігання даних. Але вони не є синонімічними й між ними існує принципова різниця.

Перший об’єкт являє собою сховище для великого обсягу «сирих» даних в оригінальному вигляді, які були отримані з різних джерел. Дані можуть бути різного типу: структуровані, пів структуровані й неструктуровані. Для озера даних характерно: висока гнучкість й доступність даних, безліч варіантів використання машинного навчання.

Другий об’єкт також являє собою сховище великих обсягів даних. Але в цьому випадку дані проходять обробку й потрапляють у сховище вже структурованими регламентованими способами.  Сховище даних є менш гнучким, має фіксовану конфігурацію й підтримує транзакційну аналітику та бізнес-аналітику.

Організації бажають отримати краще з обох сторін, тому намагаються поєднати обидва варіанти. У результаті вони мають й озеро даних, і сховище (іноді декілька з великою кількістю паралельних пайплайнів).

Сучасні провайдери рішень в області зберігання даних надають все більше таких можливостей. Наприклад, Snowflake – їхня платформа дозволяє з’єднати сховище та озеро даних; Microsoft Synapse – їхні хмарні сховища мають інтегровані можливості озера даних.

Попередній пост #maindatainsfrastucturetrends 

ETL & ELT

ETL розшифровується як Extract (вилучення), Transform (перетворення), Load (завантаження) даних. Тобто, дані з початку вилучаються з джерела, відправляються в «проміжну область», де відбувається їхня трансформація, і після цього завантажуються в цільову область.

Нове покоління інструментів дозволило перейти від ETL до ELT. Ключовою відмінністю між ними є принцип роботи. На відміну від ETL, ELT являє собою процес вилучення даних із різних джерел, завантаження напряму в цільову область, і тільки після цього відбувається перетворення. Використання ELT для роботи з великими обсягами даних є головною перевагою.

Незважаючи на це, область ELT все ще знаходиться на етапі свого становлення та стрімкого розвитку. Залишаються відкритими питання з обробки конфіденційних даних (PII, PHI). Тому триває дискусія про необхідність невеликої обробки даних перед завантаженням, що тягне за собою появу гібридної версії ETLT.

Незважаючи на те, що такі компанії, як Snowflake, Bigquery, Redshift, свого часу змінили спосіб розміщення даних, управління та доступу до них, індустрія інтеграції даних теж розвивалась. У системі хмарних сховищ, де основною метою є вилучення і завантаження даних (без їхньої трансформації), існують перспективи автоматизації інженерних задач. Такі перспективи вплинули на розвиток таких компаній, як Segment, Stitch, Fivetran та ін.

Розглянемо як приклад Fivetran, який являє собою автоматизовану ETL платформу. Вона дозволяє збирати і аналізувати дані за допомогою підключення своїх баз даних до центрального сховища. Fivetran пропонує великий вибір конекторів, завдяки яким дані вилучаються з різних джерел та завантажуються у сховище. Процес відбувається автоматично, є повністю керованим і не потребує обслуговування. Це дозволило різним неінженерним командам,  самостійно забезпечувати налаштування з’єднувачів  для інтеграції даних та керувати ними.

На сьогоднішній день такі інструменти користуються широким попитом. І доказом цього є показники компанії: за минулий рік вартість цінних паперів серії С склала $1,2 млрд.

 

Попередній пост #maindatainfarstructuretrends

Розвиток хмарних сховищ даних

Вперше про концепцію хмарних сервісів заговорив вчений Джозеф Карл Робнетт Ліклайдер ще у 70х роках. Вже тоді розробники запропонували розміщувати та обробляти інформацію на віддалених серверах. Проте, цю ідею довелося залишити, оскільки Інтернет на той час був ще у стадії зародження.

У 2012 році з’являється RedShift Amazon, який являє собою повністю кероване хмарне сховище даних і дозволяє виконувати аналіз даних за допомогою стандартної мови SQL. Незабаром цю технологію почали впроваджувати в життя інші IT компанії (Google, Microsoft та ін.). Це сприяло стрімкому розвитку хмарних сховищ.

Сучасний варіант стека має таку ж ідею, як і його попередники: це створення конвеєру даних шляхом:

Глобальне використання хмарних сховищ даних значно виросло за останні роки і стало справжнім мейнстрімом. Це пояснюється економією витрат на придбання й утримання власної IT-інфраструктури, високим рівнем інформаційної безпеки, масштабованості та доступності. Згідно з прогнозами, популярність хмарних сховищ буде зростати й надалі, і до 2025 року цей сегмент ринку сягне $137 млрд.

Попередній пост #maindatainfrastructuretrends 

Стійкість і розвиток інфраструктури даних

2020 видався достатньо неочікуваним та нестабільним роком. Проте, цифрова екосистема, яка здійснила значну трансформацію за декілька місяців, продемонструвала відмінну стійкість та розвиток.

У центрі цифрової трансформації знаходяться: технології даних (штучний інтелект, машинне навчання, інфраструктура даних), хмарні технології. Тому компанії з цифрової екосистеми в такий складний час змогли вижити й навіть досягти успіху.

Найяскравішим прикладом стала компанія Snowflake (компанія, яка спеціалізується на хмарному зберіганні даних). У вересні 2020 року вона перетворилась на компанію з ринковою капіталізацією у розмірі $69 млрд (на той момент найбільше IPO у сфері програмного забезпечення).

Другим яскравим прикладом стала компанія Palantir. Це американська компанія, яка займається розробкою програмного забезпечення аналізу даних для організацій. Компанія стала публічною через прямий лістинг і досягла при цьому капіталізації у розмірі $22 млрд.

Безумовно на успіх бізнесу впливає велика кількість економічних факторів, таких як довіра споживача, інфляція, розвиток економіки та ін. Але фінансовий ринок диктує свої умови згідно нової реальності. Кожна компанія, яка прагне успіху, повинна бути компанією, орієнтованою на дані.

Варто відзначити, що технології збору, передачі та обробки даних мають специфічні вимоги та інструменти, а деякі з них  передбачають зовсім інший підхід і мислення. Такий метод штучного інтелекту, як машинне навчання є достатньо серйозним технічним сегментом. Успіх проєкту становить 90-95%. Такі показники мають ще більший вплив на подальший розвиток продуктів штучного інтелекту.

GoUp Chat