Datové proudy Kafka

Hromadné zpracování událostí jako forma integrace

 Stále intenzivnější přísun detailních dat o okolním světě staví informační systémy před výzvu efektivity jejich zpracování. Klasický svět databází je optimalizován pro evidenci většinou statických objektů a jejich vztahů. Zpracování proudu událostí vyvolává potřebu úložiště, optimalizovaného pro jeho "průtokové" zpracování - bez důsledků fragmentace při neustálém mazání neaktuálních dat a zdržení databázovou transakční režií.

dívka u PC

 Kafka je integrační systém, který tvoří "fronty událostí" ("topics"). "Událost" je datová zpráva většinou pevné struktury, vzniklá v čase. Technologicky jsou "topics" rozmístěny do více "partitions" - kvůli výkonu a dostupnosti. V "topics" data vznikají vkládáním do proudů. Odebírají se metodou "publish/subscribe". Nad topics lze provádět agregační operace a výsledky ukládat do dalších topics. Dalšími důležitými součástmi Kafka a jeho příslušenství jsou:


  • Kafka connector - konektory vkládají či vybírají data z datových front "topics", komunikují přitom aktivně s okolními systémy různými protokoly
  • Kafka proudy a tabulky - způsoby interpretace dat (klíč, hodnota) v topics: v proudu jsou hodnoty pro klíč chápány jako přírůstek, v tabulce jsou chápány jako aktuální hodnota pro daný klíč
  • KSQL - jazyk třetí strany na bázi SQL, pracující se strukturami topics jako tabulkami či proudy, vytvářející efektivně agregace, transformace a obohacování dat, výsledky se vkládají do jiných topics
  • Kafka časová okna - koncept způsobů seskupování dat po časových úsecích v proudech pro další výpočetní agregaci

 Naše společnost nabízí provedení analýzy požadované struktury integrace Kafka, vytvoření technické dokumentace, vytvoření návrhu a provedení implementace Apache Kafka na platformě Confluent.