141. Spotkanie Data Community - Data Engineering

活动举办者 Sofixit

2024 年 11 月 7 日 – 2024 年 11 月 7 日Microsoft, Al. Jerozolimskie 195a, Warszawa, Województwo mazowieckie, 波兰 02-222

获取141. Spotkanie Data Community - Data Engineering的最新资讯

查看还有哪些人参加141. Spotkanie Data Community - Data Engineering，并随时了解有关该活动的最新对话。

参与141. Spotkanie Data Community - Data Engineering体验

活动简介

Agenda
18:00 - 18:15 Powitanie
18:15 - 19:15 Arkadiusz Grzyb - The New Kid on the Data Lakehouse Block
19:15 - 19:45 Networking, lu?ne rozmowy i pocz?stunek
19:45 - 20:45 Tomasz Kostyrka - Od B-Drzew do V-Order. Opowiedziane inaczej ni? zwykle

The New Kid on the Data Lakehouse Block
Presentation on Ilum, the latest entrant in the Data Lakehouse platform market, designed as a robust, free alternative to platforms like Databricks and Cloudera.

Why should you attend?
- Understand the limitations of current platforms: we’ll discuss the key challenges with existing data management systems—high costs, rigid deployment options, and complex administrative tasks.
- Introduction to Ilum: learn about Ilum’s core features and how it reduces administrative overhead with automated integrations with Kubernetes.
- Kubernetes and data management: explore how Kubernetes simplifies data operations, providing automatic scaling, failover capabilities, and streamlined cluster management.
- Ilum’s evolution into a Data Lakehouse platform: discover Ilum’s growth from a simple tool to an advanced Data Lakehouse platform, leveraging open-source tools like Jupyter and MLflow for flexible and scalable data operations.

This presentation is perfect for data engineers who need practical and scalable solutions for managing large datasets without the burden of heavy infrastructure.

Od B-Drzew do V-Order. Opowiedziane inaczej ni? zwykle
Podczas sesji omówimy podstawowe techniki optymalizacji zapytań, zaczynaj?c od klasycznych indeksów (B-Tree) dla baz relacyjnych, poprzez partycjonowanie, Z-Order oraz Liquid Clustering dla DataLake/Lakehouse, a kończ?c na wprowadzonym przez Microsoft mechanizmie V-Order, który przyspiesza dzia?anie zapytań w trybie Direct Lake.

W ci?gu tej godziny b?dziemy cz?sto odwo?ywa? si? do podstaw matematycznych stoj?cych za tymi mechanizmami, jednocze?nie sprawdzaj?c, jak daleko odbiega od rzeczywisto?ci nasza intuicja i to, co czasem uwa?amy za oczywiste.

Odpowiemy sobie m.in. na pytania:
? czym ró?ni? si? porz?dek cz??ciowy od liniowego i jak ma si? to do sortowania wierszy w tabelach,
? sk?d wzi??y si? krzywe Mortona i Hilberta, zanim zosta?y wykorzystane do optymalizacji mechanizmu "Data Skipping",
? z czego sk?ada si? plik Parquet, jak dzia?a Predicate Pushdown i dlaczego Z-Order i V-Order nie wykluczaj? si? wzajemnie.

Logistyka
Wst?p wolny, ale konieczna jest rejestracja, która skończy si? w po?udnie dwa dni przed spotkaniem (wymóg MSFT).

Zach?camy do zg?aszania swoich sesji. Je?li wiecie co?, czego inni nie wiedz?, lub chcecie zg??bi? temat, którego jeszcze nikt na naszej grupie nie przedstawia?: https://sessionize.com/warsaw-data-community-meetups-2024/

Zapraszamy,