Naši Big Data analytici se zúčastnili meet-upu

Naši Big Data analytici se zúčastnili meet-upu
Na počátku stála výzva od samotné klientely Skliku. Zákazníci projevili zájem o reporting vyhodnocení PPC kampaní, který by probíhal samoobslužně, v online verzi, a navíc ještě v reálném čase. Vzhledem k tomu, že PPC kampaně každou sekundu generují obrovské objemy dat (a když říkáme „obrovské“, máme na mysli řádově milióny klíčových slov a bilióny nasbíraných hodnot ročně), nebylo možné použít ani standardní analytické metody, ani indexovanou relační databázi.
 
Když Sklik na trhu nenašel žádné veřejně dostupné, typizované řešení, pustil se do vlastního výzkumu. A výsledek? Do praxe byl nasazen hybridní systém, postavený na filosofii Big Dat.  Systém byl sestavený z několika principálně zcela odlišných součástí, přičemž každá zastávala v rámci celku svou specifickou roli. Relační databáze (konkrétně MySQL) je využita pouze pro základní indexování nasbíraných hrubých dat. Celou analytickou práci naproti tomu přebírají jiné specializované (v tomto případě většinou open source) technologie.
 
Pro ty čtenáře, kteří už se setkali s konkrétními nástroji pro zpracování Big Data úloh, se ještě na moment zastavíme u konkrétních příkladů použitých databází:
 
  • HBase je typickým zástupcem NoSQL databází. Obecně se používá pro efektivní indexaci miliónů PPC atributů jednotlivých kampaní s možností provozu na rozsáhlých klastrech. V tomto konkrétním případě slouží jeden klastr pro zápis a indexaci analyzovaných dat a druhý již pro vlastní reporting. Mezi nimi probíhá pravidelná synchronizace.
 
  • Databáze Hadoop zde slouží primárně jako nástroj pro velmi rychlé zpracování a import dat do výše uvedené NoSQl databáze. Výhodou této technologie je možnost masivně paralelního zpracování. To spočívá v rozložení úlohy na velké množství malých úkolů, které se spustí zároveň na velkém počtu počítačů, což urychlí celý proces zpracování. Dílčí výsledky se nakonec spojí do celkového výsledku.
 
Nasazení tohoto modelu do praxe přineslo zásadní zrychlení, a tím pádem i zvýšení komfortu zákazníků Skliku. Garantovaný čas zobrazení výsledku reportu, filtrovaného dle rozličných parametrů, trvá řádově jednotky sekund; přičemž aktuálnost zobrazených dat se pohybuje v desítkách minut. Takových výsledků by bylo s využitím konvenčních metod prakticky nemožné dosáhnout.
 
A v čem nás řešení Skliku inspirovalo pro naši budoucí práci? Díky propojení „osvědčeného“ s „novým“ dokázali systémoví architekti uspořit nejen čas, ale také finanční prostředky. A právě v tom se ukrývá jeden ze základních předpokladů úspěšného IT projektu. Zároveň se ukazuje, že i v relativně nové oblasti – jakou Big Data bezesporu jsou - stále platí, že každý vysoce specifický problém vyžaduje řešení, které je také (do jisté míry) specifické.

Martin Vlček
Product Group Manager
 
Datum zveřejnění 19. 8. 2016 15:55:34 od Romana Ripper | 0 komentářů
|<  <  1  >  >|