Fenomén Big Data. Každý toto spojení již slyšel, nicméně spousta z nás neumí tento pojem jednoznačně vysvětlit, nebo si představit skutečnost, v čem by zrovna nám mohla pomoci.
Deset lidí, deset pohledů a přesto třeba každý správný. Uchopitelnost samotného pojmu je mimořádně různorodá a přesto v poslední době prostupuje snad všemi segmenty lidské činnosti aniž bychom o tom věděli, nebo si to přímo uvědomovali.
Téměř každá firma má někde nějaká „Big Data“, jen o tom třeba neví a stále na svou infrastrukturu nahlíží pouze jako na propojené počítače, které spolu nějakým způsobem komunikují a spolupracují. Což je pro ně to nejdůležitější. Nicméně v poslední době se ukazuje, že stále velké množství podnikatelů nemá pro své podnikání adekvátní IT infrastrukturu a právě to může bránit jejich rozvoji, tržní expanzi a koneckonců to limituje i jejich flexibilitu.
Každopádně s rozvojem firemních technologií a nejrůznějších cloudových řešení se pomalu postupně mění i toto vnímání a ukazuje se, že společnostem, které si rychlý vývoj trhu uvědomují, snaží se pracovat s daty, které mají k dispozici a umí je efektivně využít, dávají právě ona data velkou konkurenční výhodu. I přes velký název, nejsou Big data pouze pro velké podniky. Využití nalézají i malé a střední firmy.
Jsou dvě varianty jak k Big datům přistupovat. Jednou z nich je, že jsem společnost, která má obrovské množství dat, která průběžně sbírám (například mobilní operátor, banka atd.) a následně se rozhoduji co s nimi budu dělat. Například na základě sledování průměrné délky hovorů, počtu poslaných sms, četnosti volání a podobně, jako mobilní operátor připravím nový mobilní tarif „přímo podle vašich potřeb“. Další variantou je, že jsem malá firma, pracuji na určitém projektu a hodila by se mi data, která já sama nemám k dispozici. V tomto případě je možné potřebná data pořídit a vidím jen pro mě důležité výstupy, statistiky a nová zjištění.
Pojďme se na to podívat naším pohledem. Co je samotným přínosem Big Dat?
Důležitým parametrem je v našem případě čas. V běžném pojetí datového skladu se data zpracovávají, vyhodnocují a připravují převážně na historickém kontextu. Dnešní den je miniaturní veličinou v porovnání množství dat za poslední dva roky a tudíž výstupy řeší úlohy typu „Co a kdy se stalo, na co to mělo vliv a jak často se to stávalo“ Řeší tedy minulost, ze které vychází určité statistiky. Příkladem může být evidence všech možných incidentů, reklamací, reakcí či nových požadavků za poslední půlrok, rok nebo 2 roky. K okamžiku vyhodnocení takových dat je to již historická informace, která nemusí mít vždy vliv na budoucnost.
Dnešní Big Data jsou však již mnohem dál. Jejich síla je v mapování událostí právě teď a v možnosti jejich predikce. V reálném čase. „Co se pravděpodobně stane příště? Jaká je nejlepší odpověď? Existuje lepší možnost? Řešil již někdo podobný problém?“ Na otázky podobného typu nám pomohou naše data odpovědět a v případně potřeby můžeme díky nim zasáhnout do probíhajícího procesu. V žádném případě to ovšem neznamená, že budou datové sklady kompletně nahrazeny BD. Naopak se běžné datové základny a nové pojetí Big Dat vzájemně doplňují a dochází k výraznému zkvalitnění informační základny.
Kde jsou ona Big Data?
Jak již bylo popsáno výše, v každé firmě se nacházejí určité shluky dat, které jsou součástí nejrůznějších aplikací, které firma využívá v rámci svého podnikání.
Tato množina je tvořena několika typy dat. Ať už se jedná o data z konkrétních databází (CRM, Finance, e-shop, Zákaznická podpora, Call Centrum) – strukturovaná data nebo data ve formě dokumentů či emailů, případně zvukové záznamy, videa, mapy atd. – nestrukturovaná data. Dalšími typy mohou být jakési „odpadní produkty“ (logy, protokoly VoIP a messengerů, atd.) nebo informace, které po sobě zanechává firma například na sociálních sítích (Facebook, Twitter, Google+, LinkedIn) a institucích eGovernmentu. A právě tato data můžeme sledovat, shromažďovat a snažit se je co nejvíce vytěžit a najít způsob jak je v našem podnikání využít.
Jak technologie zpracování Big Dat funguje?
V našem přístupu používáme Hadoop od firmy Hortonworks. (Hadoop je framework určený pro zpracování velkého množství nestrukturovaných a distribuovaných dat). Zjednodušeně jde o úložiště souborového systému (HDFS), které umožňuje snadno do sebe „nasypat“ velké množství nesourodých informací (videí, zvukových stop, excelových tabulek, fotek, logů atd.) a nad touto směsí dat spouštět jednotlivé programy se specifickými úkoly na vyhledávání, třídění, ověřování nebo čištění zdroje dat. Výsledky práce jednotlivých programů se agregují a dále vyhodnocují jako provázaný celek.
Technicky zpracování probíhá tak, že daná úloha je rozdělena a zpracovávána paralelně na více uzlech, což zrychluje samotný proces. Konečný výsledek je zjištěn výpočtem z dílčích výsledků jednotlivých uzlů. Tento princip se nazývá MapReduce, kde Map je rozdělení úlohy a Reduce je spojení výsledků.
V čem jsou naše řešení BD inovativní a co dokáží.
Nejpodstatnější rozdíl v našem pojetí BD a práce s nimi je, že naši „Workers“ (každý worker je naprogramovaný na provádění jednoho konkrétního úkolu) pracují obousměrně. To znamená, že vnímají jednotlivé aplikační datové základny jako samostatné entity (CRM, ERP..) nad nimiž provádějí analytické výpočty. Současně vidí i do okolních systémů a doplňují si tak portfolio zkoumaných veličin. Následně zjištěné výsledky okamžitě doplňují do svého systému a dále samozřejmě předávají i do datových skladů.
Malý příklad z oblasti zákaznické podpory: sada procedur (Workers), která prochází primárně nad CRM, přistupuje i do prostředí HelpDesku a Řízení Servisu, informuje příslušného Account managera přes CRM, že oprava u jeho zákazníka překračuje, nebo zítra překročí standardní dobu a založí mu úkol řešit tuto skutečnost dříve, než bude toto zákazník eskalovat.
Další výhodou, kromě výše zmiňovaného je také v možnosti obohacení běžících aplikací ve firmě, aniž by musely proběhnout náročné investice (nákupy nových verzí, finančně náročné úpravy na míru). Naprogramujeme naše Workery přesně tak jak potřebujete a nasadíme i na Vaši stávající infrastrukturu.
Bezpečnost podnikových dat
Sprinx Systems a.s., je mimo jiné, dodavatel BI (datových skladů, reportingu, analytických nástrojů a manažerských informačních systémů). V oblasti BD se specializuje na společnosti, které upřednostňují řešení v rámci PrivateCloud, ať již z důvodu bezpečnosti či vlastnictví svých dat. Neznamená to samozřejmě izolaci, která by celou filosofii BD deformovala. Potřebná velká data ze světa doplňujeme standardizovanými rozhraními a chráníme svého zákazníka před návštěvou jeho dat třetí stranou.