Upravljanje podacima

IBM PureData for Analytics – Sirova snaga podatkovne analitike

03/03/2015

author:

IBM PureData for Analytics – Sirova snaga podatkovne analitike

Piše: Marko Štajcer, Konzultant u odjelu podatkovne integracije, Poslovna inteligencija d.o.o.

U vrijeme kada nastaje potreba za obradom velikih količina podataka i prikazom informacija u stvarnom vremenu, organizacije moraju biti spremne razvijati se i  prilagođavati promjenama u okolini, kako bi se mogle nositi s novim trendovima i izazovima koje predstavljaju brzo rastuće količine podataka. Zahtjevi za bržom obradom podataka i pravovremenom dostupnošću informacija postoje već dulji niz godina, a taj trend će se nastaviti i u budućnosti. Složeni korisnički zahtjevi generiraju sve veću potrebu za kompleksnim analitičkim obradama te pomiču granice u pogledu brzine obrade podataka i jednostavnosti korištenja sustava. U takvim uvjetima, skladišta podataka temeljena na tradicionalnim bazama podataka postaju preskupa i prekruta da bi održala korak s novim i sve većim potrebama modernih organizacija. Upravo iz tih razloga organizacije se okreću novom trendu u skladištenju podataka – DWH appliance-ima. DWH appliance je generalni naziv za integrirani skup hardvera i softvera predinstaliranog i optimiziranog za specifičnu namjenu skladištenja podataka. IBM® PureData™ for Analytics je upravo to, DWH appliance baziran na Netezza tehnologiji, cjelina koju čine prilagođena softverska platforma, serverska platforma i sustav za pohranu podataka. Ovakva arhitektura, uz prije svega bolje performanse, omogućava jednostavnu instalaciju, upravljanje i održavanje, te samim time nudi mogućnost da se vrijeme i resursi koji su potrebni za operativne zadatke i održavanje tradicionalnih sustava iskoriste za „pametnije“ poslove koji će organizaciji donijeti novu poslovnu vrijednost.

Zašto mijenjati postojeći sustav?

Jednostavnost, performanse i cijena ključni su atributi koji opisuju IBM PureData for Analytics, sustav dizajniran za brze analize velikih količina podataka koji prije svega nudi znatno bolje performanse od tradicionalnih i drugih sličnih rješenja. Nedostupnost željenih i  neažurnost dostupnih podataka, te predugo vrijeme obrade izvještaja nameću potrebu za pojednostavljenjem poslovnog problema kako bi isti bio riješiv postojećom tehnologijom. S druge pak strane, IT stručnjaci ne uspijevaju držati korak s povećanjem količine podataka, kompleksnim korisničkim zahtjevima, te nizom drugih faktora poput ad-hoc analiza koje često traju predugo ili uopće nisu moguće, a za posljedicu često imaju gomilanje zaostataka na projektima.

IBM PureData for Analytics tehnologija primjenjiva je u različitim industrijama, tako npr. telekomunikacijskoj industriji nudi mogućnost individualnog pristupa svakom korisniku sukladno njegovim potrebama i preferencijama, čime se poboljšava proces zadržavanja korisnika, te uspješnije up-sell i cross-sell aktivnosti. Osiguravajućim društvima omogućava napredne i prediktivne analitike u donedavno nezamislivom opsegu, čime se mogu postići uštede u pogledu bolje detekcije zlouporabe i prijevara, dok trgovinskim djelatnostima nudi mogućnost analize sentimenta potrošača i predviđanja trenda.

IBM® PureData™ for Analytics ispod haube – Netezza tehnologija

IBM PureData System for Analytics sustav je baziran na Netezza NPS (Netezza Performance Server) tehnologiji. Netezza je kompanija koja je bila predvodnik DWH-appliance tržišta u  proteklom desetljeću. Svoj prvi proizvod predstavili su 2002. godine, a 2009. godine već četvrtu generaciju Netezza sustava nazvanu TwinFin. IBM je kompaniju preuzeo 2010. godine, te je oko TwinFin arhitekture  uspješno nastavio razvoj NPS tehnologije. 2013. godine IBM predstavlja novu generaciju Netezza sustava nazvanog IBM PureData System for Analytics N2001, a godinu kasnije i IBM PureData System for Analytics N2002, koji u odnosu na predhodnika donosi još više procesorske snage i diskovnog prostora za pohranu podataka.

Sama Netezza tehnologija  je temeljena je na jedinstvenoj, pojednostavljenoj arhitekturi sustava u odnosu na tradicionalne baze podataka, a pristup samom dizajnu vođen je načelom da se prilikom obrade velikih količina podataka podaci ne premještaju ukoliko to nije prijeko potrebno. Slijedom toga, jedan od novih trendova koje Netezza uvodi u analitiku podataka jest ugrađivanje analitičkih funkcija unutar samog DWH okruženja. Takav koncept korisnicima donosi mogućnosti korištenja napredne analitike, smanjenja kompleksnosti, te pravovremene dostupnosti podataka. Uvođenjem masivne paralelizacije, omogućena je obrada velikih količina podataka, a paralelno s  korištenjem prediktivne analitike koja je znatno naprednija od tradicionalnih sustava za izvještavanje, kompanije dobivaju dodatnu vrijednost i mogućnost stjecanja prednosti na tržištu.

Netezza – tehnička strana priče

U osnovi Netezza sustav čini jedinstvena kombinacija tehnologija za masovno paralelno procesiranje (MPP), filtriranje, protok i kompresiju podataka.  Tako je i arhitektura Netezza sustava izgrađena oko četiri osnovne komponente: SMP host poslužitelja, mrežne infrastrukture za brzi protok podataka, S-Blade MPP čvorova, te diskovnog sustava.

Netezza arhitektura sustava

Netezza – arhitektura sustava

SMP (Symmetric Multiprocessing) host je Linux poslužitelj visokih performansi, konfiguriran u active-passive načinu rada, čime se osigurava visoka raspoloživost sustava. Predstavlja sučelje prema vanjskim alatima i aplikacijama, te je zadužen za optimizaciju plana izvođenja, raščlanjivanje SQL upita u tzv. odsječke (Snippets), te distribuciju odsječaka, koji se zatim paralelno izvršavaju na S-Blade MPP čvorovima.

Mrežna infrastruktura visoke propusnosti temeljena je na prilagođenom protokolu koji maksimizira protok podataka unutar samog Netezza sustava. Protok podataka između diskova i S-Blade jedinica odvija se u asinkronom načinu, gdje su kašnjanja u prijenosu i overhead nad podacima minimalni.

S-Blade poslužitelj koji se sastoji se od dva 8-jezgrena Intel procesora, 128 GB radne memorije i dvije 8-jezgrene Xilinx FPGA jedinice, predstavlja nezavisan procesni čvor, prilagođen izvršavanju kompleksnih algoritama svojstvenih analitičkoj obradi nad velikim količinama podataka. Svaki S-Blade upravlja dodijeljenim diskovnim sustavom, temeljni je dio MPP arhitekture i zaslužan je za odlične performanse.

Pic 2

 

Diskovni sustav sastoji se od SAS diskova kapaciteta od po 600 GB, konfiguriranih u RAID 1 načinu rada. Svaki disk sadrži dio podataka (data slice) pojedine tablice iz baze podataka, a sve komponente su hot swappable i nad svim korisničkim podacima se radi zrcalna kopija kako bi se osigurala visoka raspoloživost podataka. Full rack sustav sastoji se od 288 diskova, od kojih se 240 koristi aktivno za operacije baze podataka, 14 se koristi kao prostor za pohranu swap/log podataka dok su dodatna 34 diska redundantna za potrebe visoke raspoloživosti sustava.

Svaki hardverski dio arhitekture je optimiziran tako da se postižu maksimalne performanse, te da se filtriranje podataka izvodi najbrže moguće, praktički s ograničenjem u pogledu fizičkih mogućnosti diskovnog sustava. Uz takvu, dobro izbalansiranu hardversku konfiguraciju, softverska komponenta se brine za usklađivanje svih dijelova sustava, paralelno izvođenje obrada nad podacima, te maksimalnu iskoristivost svakog S-Blade čvora. Uz sirovu snagu, Netezza donosi poboljšanu kompresiju podataka (4x), što omogućava ne samo uštedu prostora za pohranu podataka, već i povećanje brzine čitanja podataka, budući da FPGA tehnologija omogućuje dekompresiju podataka u hodu bez dodatnog utroška resursa i pada performansi, čime se omogućuje da se  podaci učitavaju praktički i do 4x brže od fizičkih ograničenja samog diskovnog sustava. Također, Netezza tehnologija je u potpunosti skalabilna u pogledu diskovnog prostora za pohranu podataka i procesorske snage, pri čemu se performanse sustava povećavaju linearno, analogno dodanom broju S-Blade modula.

Detaljna hardverska konfiguracija (broj diskova, S-Blade-ova, količina memorije) specifična je za pojedini model Netezze. Aktualni full rack model Netezze N2002 sastoji se od  7 S-Blade čvorova s ukupno 112 procesorskih jezgri i FPGA jedinica, te diskovnog sustava za pohranu 192TB nekomprimiranih podataka.

ZoneMaps™ (Anti-Indexes)

Jednostavnost Netezza arhitekture uvelike doprinosi popularnosti IBM PureData System for Analytics sustava, koji ima reputaciju sustava kojeg je vrlo lako upogoniti i koji ne zahtijeva odviše vremena za održavanje. Jednostavnosti doprinosi i činjenica da umjesto indeksa, Netezza koristi patentiranu tehnologiju za particioniranje podataka nazvanu ZoneMaps. ZoneMaps su automatski generirane,  male, kompaktne interne tablice koje zahtjevaju minimalni diskovni prostor za pohranu podatkaka i znatno utječu na poboljšanje performansi izvođenja SQL upita nad velikim tablicama koje sadrže grupirane ili približno sortirane podatke. Za svaki blok podataka Netezza pohranjuje minimalne i meksimalne vrijednosti koje su sadržane u pojedinoj koloni tipa date ili integer. Prilikom čitanja podataka s diskovnog sustava, u fazi filtriranja podataka Netezza preskače blokove podataka za koje na temelju ZoneMapsa zna da ne sadrže željene podatke, čime se dodatno povećava brzina izvođenja upita i ukupna propusnost sustava. Ovakav pristup optimizaciji sustava također omogućava spremanje velike količine povijesnih podataka unutar iste tablice, bez potrebe za fizičkim odvajanjem podataka u zasebne particije ili više zasebnih tablica.

PureData System for Analytics vs. Tradicionalna baza podataka

Uspoređujući IBM PureData System for Analytics s tradicionalnim bazama podataka pronalazimo niz prednosti koje su na strani IBM PureData sustava. Tako sama jednostavnost arhitekture omogućava brzu instalaciju na strani korisnika, te je PureData sustav odmah nakon isporuke spreman za uporabu bez potrebe za dodatnom konfiguracijom komponenti. Vrijeme instalacije je vrlo kratko, mjerljivo u satima, ne u tjednima ili mjesecima kao što je to slučaj s tradicionalnim bazama podataka, a za korisnika predstavlja crnu kutiju, gotovo rješenje, koje se vrlo lako integrira u postojeći data centar. PureData for Analytics je vrlo prilagodljiv poslovnim potrebama i promjenama u poslovnom sustavu, a bez potrebe za dodatnom optimizacijom nudi znatno bolje performanse od tradicionalnih baza, te pojednostavljuje i omogućuje brži razvoj procesa za integraciju podataka. Uspoređujući performanse izvođenja upita na IBM PureData sustavu i na tradicionalnim sustavu usporedive hardverske konfiguracije, dobili smo očekivane rezultate, gdje je IBM PureData u svim segmentima pokazao dominaciju i nadmoć nad tradicionalnim rješenjem. Napravili smo usporedbu zauzeća prostora za pohranu 600 mililijuna slogova podataka, te mjerenje vremena potrebnog za izvođenje jednostavnog i složenog SQL upita nad takvom tablicom. Zauzeće prostora na  IBM PureData sustavu je bilo približno 4x manje kao što je i deklarirano, a performanse neusporedivo bolje.

Capture 1

 Zauzeće prostora  – Netezza vs Klasična relacijska baza podataka

Capture 2

Brzina izvođenja upita  – Netezza vs Klasična relacijska baza podataka

Pogled u budućnost – platforma za naprednu analitiku

IBM PureData System for Analytics definitivno ima svijetlu budućnost, nameće se kao logično rješenje, koje organizaciji osigurava iskoristivost svih podataka koje kompanija prikuplja, čime se omogućuje donošenje strateških i taktičkih odluka na način na koji to ranije nije bilo moguće. Načela masivnog paralelnog procesiranja primjenjiva su na izvođenje naprednih analitičkih funkcija nad velikim količinama podataka. Mogućnost izvođenje složenih non-SQL algoritama osigurava jednostavnu integraciju s  analitičkim sustavima, te izvođenje složenih analitičkih funkcija nad velikim skupom podataka, bez potrebe za premještanjem obrade podataka na zasebni server, čime se postižu fantastične performanse. Prijelaskom sa stare tehnologije na novi IBM PureData sustav, organizacija također stječe korist u vidu manjeg utroška resursa i vremena potrebnih za obavljanje tekućih poslova i održavanje postojećeg sustava. Integracija s analitičkim platformama poput SPSS-a i SAS-a nudi mogućnosti dosad neostvarivih vrsta analiza, a puna vrijednost prijelaska na Netezza tehnologiju ogleda se u tome što se i sama organizacija mijenja, koristeći i obrađujući podatke na način na koji to nije bilo moguće korištenjem tradicionalnog sustava, što u konačnici organizaciji donosi ono najbitnije, kompetitivnu prednost na tržištu.