Big data na co dzień. Dlaczego analiza danych powinna być ważna w każdej firmie.
Pewnie większość z was zetknęła się z terminem Big data. Pojęcie to słyszymy od jakiegoś czasu i wydaje się ono stawać coraz bardziej popularne. Ale co oznacza Big data i dlaczego analiza danych jest tak ważna w firmie? Big data to tu, to tam, a może jeszcze okaże się nawet, że w odległej galaktyce albo za górami za lasami były sobie kiedyś Big Data? ? Dosłownie tłumacząc możemy powiedzieć Duże lub Wielkie Dane. Ale zaraz któs zapyta „Ile to jest dużo”? Mówimy o megabajtach, gigabajtach a może będziemy je mierzyć w kilogramach, tonach? Jeśli mamy dużo danych to jak to dalej rozumieć? Czy jeśli mam dużo znajomych na Facebooku czy Instagramie to już jesteśmy królami Big Data ? Jeszcze inny pytanie to czy Duże Dane są tylko dla dużych firm a może również dla małych? Na te i pare innych pytań postaram się poniżej odpowiedzieć. Zapraszam do lektury!
Big in USA
Sam termin został użyty w USA już na początku lat 80-ych przez socjologa Charlsa Tilly. Wydaje się jednak, że dopiero XXI wiek przyniósł popularyzację tego określenia. Szczególnie, że w 2013 roku Big data pojawiło się po raz pierwszy w słowniku English Oxford. Wynikało to po części z faktu, że jego rozumienie ewoluowało wraz z otoczeniem. Przybywało bowiem wszelkich informacji i była coraz większa potrzeba ich efektywnego zagospodarowania. Mówiąc więc o Big Data zwracano uwagę na potrzebę gromadzenia, przechowywania i możliwość przetwarzania danych w rozsądnym czasie. Same dane nie były oczywiście nowością ale zmiana nastąpiła w ilości i różnorodności. Big Data odnosi się do faktu, iż z uwagi na wielkość danych były potrzebne coraz bardziej zaawansowane narzędzia i techniki, niż miało to miejsce w przeszłości przy tradycyjnych sposobach radzenia sobie z tym problemem.
Trzym a może pięć V?
Na przestrzeni ostatnich dekad pojawiło się sporo definicji ale jedna z bardziej popularnych mówi o tzw. 3 „V” (od początkowych liter ze słów z języka angielskiego – Volume, Velocity, Variety). Chodzi o to, że potrzebujemy dane o odpowiedniej wielkości, dające się szybko przetwarzać i stosunkowo zróżnicowane. Jednocześnie Big data oznacza także dane, które wymagają zaawansowanych narzędzi i metod, aby można było mieć z nich praktyczny pożytek. Poźniej pojawiły się jeszcze dwa dodatkowe „V” tj. Value i Veracity. W przypadku pierwszego chodzi o to, że dane powinny być wartościowe tak, aby móc zobaczyć np. trendy, wzorce zachowań, powiązania a więc lepiej zrozumieć badane zjawisko. Natomiast w przypadku Veracity (dosłownie prawdomówność) chodzi o odrzucenie informacji skrajnych, anomalii i pozostawienie tych, które są najbardziej miarodajne (tj prawdziwe) w danym obszarze.
Kiedy małe było na prawdę małe
Trzeba jeszcze dodać, że to co duże czy małe to trochę względna sprawa i granica ciągle się przesuwa. Chodzi o to, że ilość danych, które tworzymy i konsumujemy zwiększa się bardzo szybko i nic nie wskazuje, żeby w najbliższym czasie miało to ulec zmianie. Może ktoś z was pamięta czasy dyskietek 1,44 MB ? ? Na kilku czy kilkunastu takich nośnikach można było zapisać popularną wówczas grę. Tymczasem dziś zwykły smartfon ma wewnętrzną pamięć często kilka lub kilkanaście tysięcy razy większą.
Były sobie dane
Dane to w pewnym sensie pochodna tego, że żyjemy. Innymi słowy, jest to ślad naszych działań, pracy, komunikowania się a także funkcjonowania tych wszystkich narzędzi, które to rejestrują. Dane są tworzone przez ludzi ale także przez same urządzenia, które są do tego zaprogramowane. Weźmy chociażby różne aplikacje, systemy księgowe i sprzedażowe, telefony, samochody wyposażone w nowoczesną elektronikę. To wszystko jest źródłem powstawania nowych informacji. Czasem dzieje się to przy pomocy człowieka, czasem rejestracja jest powiedzmy całkowicie autonomiczna. Ponadto, powstaje co raz więcej urządzeń domowych czyli tzw. inteligentnych lub smart, które gromadzą i przetwarzają dane. Co więcej, takie urządzenia mogą komunikować się ze sobą tworząc tzw internet rzeczy (Internet of Things).
Porządek czy chaos?
Na dane możemy popatrzeć jeszcze z innej strony. Chodzi o to, że ogólnie mogą być ustrukturyzowane, częściowo ustrukturyzowane lub nie ustrukturyzowane. Najbardziej pożądane są te pierwsze i często pochodzą z baz danych, raportów itp. Przykładowo może to być zestawienie sprzedaży, gdzie każda kolumna oznacza coś innego jak nazwa klienta, data sprzedaży, wartość netto, brutto itp. Z drugiej strony mamy dane totalnie „chaotyczne”, jak zapisy komunikacji z mediów społecznościowych, zapisy wideo. Tu sprawa bardziej komplikuje się chociaż coraz częściej takie dane są również wykorzystywane. Ciekawy wątek pojawił przy okazji skandalu politycznego z 2018 roku z udziałem firmy Cambridge Analytica i tego jak używała danych z Facebooka. Pokazuje on jak Big Data można wykorzystywać także w sposób nieetyczny.
Ponadto, jeśli chodzi o wyobrażenie Big data to może pamiętacie film Matrix i opadające cyfry i znaki na zielonym tle? To takie trochę nie ustrukturyzowane Big Data w czasie rzeczywistym. Tyle że oni sobie to czytali z ekranu używając tylko wzroku ale to tylko film, przynajmniej na razie ?
Czy ktoś pożyczy młotek?
Mamy zatem dane, jest ich dużo, są mniej lub bardzie ustrukturyzowane i co dalej? Następnie potrzebujemy odpowiednich narzędzi aby “wycisnąć” z tego wnioski i informacje, które będą zrozumiałe dla tzw. normalnego człowieka z ulicy ? W praktyce duże firmy same inwestują w hardware i software, które pozwoli im na gromadzenie, przechowywanie i przetwarzanie dużych ilości danych. Czasem tańszym i bardziej powszechnym rozwiązaniem są usługi w tzw. chmurze. Nie musimy wtedy fizycznie przechowywać wszystkiego na swoich serwerach czy komputerach ale mamy dostęp do środowiska, które jest zbudowane przez inna firmę a my tylko „wypożyczamy” przestrzeń i moce obliczeniowe.
Nie zawsze sobie zdajemy z tego sprawę ale z nieco podobnych wirtualnych rozwiązań korzystamy na co dzień. Weźmy chociażby zwykle konto pocztowe na jakimkolwiek z popularnych portali. Logujemy się do usługi poprzez stronę internetowa gdziekolwiek jesteśmy i fizycznie nie przechowujemy e-maili czy załączników u siebie na dysku. Wszystko jest na serwerach dostawcy usługi a zatem nie musimy ich przechowywać na swoim komputerze lub instalować żadnego oprogramowania.
Ludzki filtr
Do tego dochodzi również tzw. ludzki czynnik. Co prawda są rozwiązania czy algorytmy, które pokazują zależności i wizualizują dane w zróżnicowany sposób ale nie zawsze ma to znaczenie dla użytkownika. To człowiek najczęściej decyduje w którą stronę pójść i na czym się skupić. Inaczej możemy zestawić rożne rzeczy, które nie będą miały żadnej wartości. Na przykład monitorujemy ruch na lotnisku i chcemy dowiedzieć się więcej o tym, jakie kierunki wybierają pasażerowie. Ale dostajemy informację, że najwięcej osób kupując bilety miało na imię Tomek i Basia ? Może w inny dzień wyjdą inne imiona…ale to nie jest to, o co nam chodziło. Dlatego też stawianie pytań jest niezwykle ważne i zależy od tego, w jakim obszarze działamy i czego chcemy się dowiedzieć.
Duże czy małe?
Zostaje nam kwestia czy i jak Big Data i analiza danych może wyglądać w „mniejszym” świecie tj. małych i średnich firm. Można spotkać się ze stwierdzeniem “big data is for machines; small data is for people.” czyli wielkie dane są dla maszyn, mniejsze dla ludzi. Oczywiście, pewne podejścia i modele mogą nie mieć zastosowania w skali mikro ale nie zmienia to faktu, że gromadzenie i analiza informacji pomoże w wielu codziennych sprawach i biznesach ?
Obecnie, wiele małych i średnich firm może sobie pozwolić na analizę danych i na tym skorzystać. Narzędzia będą mniej skomplikowane niż te stosowane przed dużych graczy (tzw low cost lub nawet za darmo) ale mniejsza firma oznacza zazwyczaj mniej danych i mniej skomplikowane informacje do przetworzenia. Podejście jednak będzie podobne jak i podstawowy problem z jakim się mierzymy tj. jak z surowych danych wydobyć wartościową treść.
Dokąd idziesz?
Pozostaje pytanie, jak Big data i analiza danych przekłada się na bardziej praktyczne scenariusze. Przykładów jest na prawdę dużo. Jeśli mamy sklep to możemy chociażby analizować zachowania klientów na podstawie raportów sprzedaży. W jakie dni jakie produkty są kupowane, czy i jaki jest efekt po określonych kampaniach, promocjach. Jeszcze lepiej będzie, jeśli mamy stronę internetową i prowadzimy sprzedaż przez sklep internetowy. Można wówczas śledzić wiele zachowań, przykładowo jak długo ktoś spędza czas i na jakich zakładkach, czemu poświęca więcej uwagi lub kiedy najczęściej opuszcza naszą stronę. W konsekwencji może się okazać, że coś jest zbyt skomplikowane. Przykładowo jakiś element strony jest mało intuicyjnie umieszczony na stronie a nam wydaje się że wszystko powinno być jasne ponieważ dla nas takie jest.
Dane jako drogowskaz
To wszystko może powiedzieć więcej o potrzebach konsumentów oraz jakie są ich zachowania i jak można pomóc w lepszym dopasowaniu oferty. Taka analiza wymaga wysiłku ze strony przedsiębiorcy ale efekty mogą przynieść wielokrotnie większy zysk niż nakład pracy. Jeśli dalej nie wierzysz to pomyśl co się dzieje, kiedy idziemy do dobrego lekarza z jakimś problemem typu przewlekły ból. Pierwszą rzeczą są badania, prześwietlenia, zbadanie morfologii krwi itd. Można „na ślepo” albo „na czuja” coś leczyć ale efekty będą zapewne żadne lub wręcz odwrotne od zamierzonych. Jeśli problem nie jest bardzo złożony to nawet podstawowe badania (analiza) pozwolą na szybsze i precyzyjne poznanie przyczyny.
I to byłoby tyle na tytułem wstępu do tematu ? Szczególnie ostatni akapit na temat wykorzystania analizy danych będę rozwijał w oddzielnych wpisach. Mam nadzieję, że choć trochę przybliżyło Ci to pojęcie Big Data i na czym polega analiza danych. Jeśli chcielibyście coś konkretnego rozwinąć piszcie w komentarzach!
Ahoj! A może coś więcej?
Jeśli chcesz być na bieżąco to po prostu zostaw swój e-mail. Nie ominie Cię żadna nowość :)