Na zdj臋ciu znajduje si臋 Marzena O艂ubek, ekspertka z Orange

Jak wygl膮da dzie艅 pracy data scientistki?

Marzena O艂ubek

Kim jest Data Scientist i jak wygl膮da jej dzie艅 pracy? Sprawd藕, czy to praca dla Ciebie. Podpowiada Marzena O艂ubek, Data Scientist i Ekspertka R&D, Orange Innovation Poland.

Kim jest Data Scientistka?

Na pocz膮tek zacznijmy od wyja艣nienia, czym zajmuje si臋 osoba pracuj膮ca w tym zawodzie. Data Science to podobno najseksowniejszy zaw贸d XXI wieku, wed艂ug Harvard Business Review[1]. Nauka o danych to nic innego jak interdyscyplinarna dziedzina wiedzy, kt贸ra znajduje si臋 na pograniczu matematyki i 聽statystyki, informatyki i programowania oraz wiedzy bran偶owej. W codziennej pracy聽 – ka偶dy z tych aspekt贸w jest istotny, jednak na poszczeg贸lnych etapach pracy 鈥 ich proporcje czasowe si臋 zmieniaj膮.

Rola Data Scientistki (Data Scientisty) sprowadza si臋 zatem, do zbierania, przetwarzania, analizy i wizualizacji danych w spos贸b, kt贸ry pozwala na wyci膮gni臋cie z nich warto艣ci biznesowej.

Zaczynamy nowy projekt

Wyobra藕my sobie, 偶e naszym klientem jest dzia艂 marketingu i sprzeda偶y, kt贸rego celem jest zwi臋kszenie sprzeda偶y produktu A na rynku klient贸w indywidualnych. Naszym zadaniem jest wsparcie klienta poprzez zbudowanie modelu predykcyjnego, kt贸ry b臋dzie wskazywa艂 klient贸w najbardziej sk艂onnych do zakupu produktu A w kolejnym miesi膮cu.

Jak si臋 zabra膰 do takiego wyzwania?

Na pocz膮tku pracy w ka偶dym projekcie analitycznym, najwa偶niejsze jest ustalenie zakresu prac, uszczeg贸艂owienie wymaga艅 biznesowych i ustalenie produkt贸w ko艅cowych. W tym miejscu niezwykle istotna jest wiedza bran偶owa tj. jakiego produktu ma dotyczy膰 model, komu chcemy oferowa膰 dany produkt, a kto na pewno nie mo偶e znale藕膰 si臋 w kampanii sprzeda偶owej. Wsp贸艂praca z w艂a艣cicielami biznesowymi produktu, innymi jednostkami biznesowymi, a zw艂aszcza przedstawicielami dzia艂u marketingu i sprzeda偶y 鈥 聽w celu zrozumienia zasad dzia艂ania produktu 鈥 jest tutaj kluczowa do dobrego zrozumienia celu naszego zadania. W punktu widzenia modelowania predykcyjnego nale偶y okre艣li膰 zakres danych, kt贸re mog膮 zosta膰 wykorzystane w modelu oraz jak膮 histori膮 tych danych dysponujemy, czy jest ona wystarczaj膮ca do budowy modelu?

Jaki model wybra膰?

Dysponuj膮c podstawowymi informacjami odno艣nie zakresu dost臋pnych danych, mo偶emy przej艣膰 do projektowania modelu ekonometrycznego 鈥 tutaj wiedza z matematyki, statystyki i ekonometrii jest niezb臋dna do prawid艂owego wyboru algorytm贸w uczenia maszynowego. Czy lepsza b臋dzie regresja liniowa, klasyfikacja logarytmiczna, czy mo偶e lasy losowe? A mo偶e wystarczy klasteryzacja, czyli znalezienie grup podobnych klient贸w?

W naszym przyk艂adzie w bazie danych historycznych mamy oznaczonych klient贸w, kt贸rzy kupili produkt A 鈥 to jest nasza zmienna celu. Mamy zatem do czynienia z nadzorowanym uczeniem maszynowym, gdy偶 znamy wynik, jaki chcemy osi膮gn膮膰. Maszyna ma za zadanie samodzielnie nauczy膰 si臋 drogi doj艣cia od danych wej艣ciowych (input data) do danych wyj艣ciowych (output data), w taki spos贸b aby zminimalizowa膰 b艂膮d. W naszym projekcie jako dane wej艣ciowe do modelu mamy do dyspozycji informacje o kliencie, kt贸re dotycz膮 okresu przed zakupem danego produktu np. miesi膮c wcze艣niej.

Jest to typowy przyk艂ad modelowania klasyfikatora binarnego, gdy偶 predykcja b臋dzie polega膰 na przyporz膮dkowaniu klienta do jednej z dw贸ch klas: 1 dla klient贸w, kt贸rzy najprawdopodobniej kupi膮 produkt, 0 dla pozosta艂ych.

Mo偶emy tutaj zastosowa膰 r贸偶nego typu klasyfikatory np. regresj臋 logistyczn膮, drzewa losowe, XGBoost, LightGBM, czy te偶 sieci neuronowe.

Jak przygotowa膰 dane?

Zanim jednak przejdziemy do w艂a艣ciwego budowania modelu, baz臋 danych nale偶y odpowiednio przygotowa膰. Preprocessing danych polega w szczeg贸lno艣ci na analizie brak贸w danych i ich uzupe艂nieniu b膮d藕 usuni臋cie zmiennych z niepe艂n膮 informacj膮.

W dalszej kolejno艣ci dane dzielimy na tekstowe i liczbowe. Pierwsz膮 kategori臋 danych powinno si臋 przekszta艂ci膰 do postaci liczbowej. W jaki spos贸b to osi膮gn膮膰? Zmienn膮 porz膮dkow膮 typu wykszta艂cenie przyjmuj膮c膮 warto艣ci 鈥瀞zko艂a podstawowa鈥, 鈥瀞zko艂a 艣rednia鈥, 鈥瀞tudia wy偶sze鈥 mo偶na zamieni膰 na warto艣ci liczbowe odpowiednio: 1, 2 i 3 zachowuj膮c uporz膮dkowanie pod k膮tem poziomu wykszta艂cenia. Je艣li jednak zmienne tekstowe nie mo偶na uporz膮dkowa膰 w konkretnej kolejno艣ci, a poszczeg贸lne warto艣ci s膮 wzgl臋dem siebie r贸wnowa偶ne np. 鈥瀢ojew贸dztwo鈥 rekodowanie zmiennej polega na utworzeniu zmiennych binarnych dla ka偶dej wyst臋puj膮cej w bazie warto艣ci (dla ka偶dego wojew贸dztwa).

W przypadku zmiennych liczbowych transformacja sprowadza si臋 najcz臋艣ciej do normalizacji, czyli przekszta艂cenia warto艣ci do zbli偶onego zakresu liczbowego w celu umo偶liwienia ich wzajemnego por贸wnywania i dalszej analizy. Przyk艂adowo, zmienna 鈥瀢ynagrodzenie鈥 mo偶e przyjmowa膰 warto艣ci rz臋du tysi臋cy z艂otych, podczas gdy liczba posiadanych dzieci to liczby jednocyfrowe. Ich rozbie偶no艣膰 liczbowa utrudnia znalezienie istotnych zale偶no艣ci, st膮d standaryzacja jest cz臋sto stosowana i wymagana do zastosowania wi臋kszo艣ci algorytm贸w ML.

Je艣li liczba zmiennych do analizy przekracza mo偶liwo艣ci poznawcze przeci臋tnego analityka (np. kilka tysi臋cy zmiennych) warto zastosowa膰 metody redukcji wymiarowo艣ci.

Na koniec weryfikacji danych do modelowania, nie spos贸b pomin膮膰 analizy warto艣ci odstaj膮cych (outlier), kt贸rych istnienie znacz膮co wp艂ywa na wyniki modelowania. Ich usuni臋cie bardzo cz臋sto pozwala poprawi膰 rezultaty, gdy偶 nie zaburzaj膮 etapu uczenie si臋.

Na tym etapie bardzo przydaj膮 si臋 umiej臋tno艣ci informatyczne tj. znajomo艣膰 j臋zyk贸w zapyta膰 SQL, programowania w R, czy Pythonie. Obr贸bka danych zajmuje oko艂o 80% ca艂kowitego czasu potrzebnego na przygotowanie modelu, co wskazuje, i偶 im lepiej umiemy si臋 porusza膰 w 艣rodowisku programistycznym 鈥 tym b臋dzie nam 艂atwiej.

Jak zastosowa膰 model do przewidywania przysz艂o艣ci?

Posiadaj膮c odpowiednio przygotowan膮 baz臋 danych ze zmiennymi obja艣niaj膮cymi oraz zmienn膮 obja艣nian膮 (target) mo偶emy przyst膮pi膰 do w艂a艣ciwego modelowania danych. Na podstawie danych historycznych algorytmy uczenia maszynowego szukaj膮 matematycznych zale偶no艣ci mi臋dzy danymi wej艣ciowymi i wyj艣ciowymi. Jako wynik otrzymujemy parametry modelu, kt贸ry za pomoc膮 r贸wnania matematycznego opisuj膮 problem badawczy. W naszym przyk艂adzie szukamy korelacji mi臋dzy decyzj膮 o zakupie, a zachowaniem danego klienta przed podj臋ciem decyzji.

Znaj膮c ju偶 parametry modelu, mo偶emy dokona膰 prognozy na kolejny okres. Te same wzorce przek艂ada si臋 na bie偶膮c膮 populacj臋 klient贸w, by wyliczy膰 prawdopodobie艅stwo zakupu produktu A np. za miesi膮c.

Jak sprawdzi膰, czy nasz model dobrze dzia艂a?

Buduj膮c kolejne wersje modeli Data Scientistka ocenia ich stabilno艣膰 i skuteczno艣膰 na danych testowych, czyli pr贸bce danych, kt贸ra nie by艂a wykorzystywana do uczenia si臋 modelu. Taka 鈥瀦ewn臋trzna鈥 pr贸bka pozwala okre艣li膰, czy model dobrze b臋dzie prognozowa艂 na nowych danych, kt贸rych wcze艣niej nie widzia艂. Pozwala to unikn膮膰 tzw. overfittingu, czyli nadmiernego dopasowania do danych ucz膮cych.

Jako艣膰 prognoz ocenia si臋 wyliczaj膮c mierniku oceny, kt贸re s膮 inne dla poszczeg贸lnych typ贸w algorytm贸w. W przypadku naszego binarnego klasyfikatora mo偶emy zastosowa膰 macierz b艂臋d贸w, kt贸ra okre艣la w ilu przypadkach prognoza okaza艂a si臋 trafiona, a gdzie model wskaza艂 inaczej ni偶 by艂o w rzeczywisto艣ci.

Jak zatem por贸wna膰 uzyskane wyniki?

Czy 80% skuteczno艣膰 modelu to du偶o, czy ma艂o? Warto wr贸ci膰 do etapu wyboru algorytmu i przeliczy膰 ponownie model z zastosowaniem innej techniki uczenia maszynowego w celu por贸wnania wynik贸w.

Etapy te powtarzamy a偶 do uzyskania najlepszych, lub satysfakcjonuj膮cych nas wynik贸w.

Jak mo偶na wykorzysta膰 model w biznesie?

Jako rezultat otrzymuje si臋 baz臋 klient贸w, kt贸rzy s膮 najbardziej sk艂onni do zakupu produktu A w nast臋pnym miesi膮cu. Do tych klient贸w powinna zosta膰 skierowana kampania marketingowa promuj膮ca produkt A. Prezentacja wynik贸w dla zamawiaj膮cego ko艅czy realizacj臋 omawianego projektu.

Konkluduj膮c, tak wygl膮da codzienna praca Data Scientistki. Na pocz膮tku ka偶dego projektu wa偶na jest praca zespo艂owa, na kolejnych etapach jest to ju偶 typowa praca indywidualna, z ewentualnymi konsultacjami z innymi Data Scientistami.

Czy warto rozwija膰 si臋 w kierunku Data Science?

Bior膮c pod uwag臋, 偶e obecnie organizacje w ka偶dej dziedzinie d膮偶膮 do pe艂nej automatyzacji i robotyzacji to rola Data Scientisty jest potrzebna w ka偶dej bran偶y. Przysz艂o艣膰 data science rysuje si臋 zatem bardzo rozwojowo, tym bardziej, 偶e obecnie najcenniejsz膮 walut膮 na 艣wiecie s膮 dane. W dobie cyfrowej transformacji, posiadanie i umiej臋tno艣膰 wyci膮gania cennych informacji z wielkich zbior贸w danych stanowi w dzisiejszych czasach zas贸b wa偶niejszy ni偶 ropa naftowa[2]. 聽O tym najlepiej wiedz膮 najwi臋ksze 艣wiatowe korporacje GAAFA[3], kt贸rych zbiory danych przekraczaj膮 setki petabajt贸w. Pod膮偶aj膮c za tym trendem mo偶na stwierdzi膰, 偶e ten kto potrafi czyta膰 z danych i odkrywa膰 z nich cenne informacje biznesowe 鈥 b臋dzie bogaty dos艂ownie i w przeno艣ni.

W przysz艂o艣ci w ka偶dej dziedzinie 偶ycia b臋dzie obecna sztuczna inteligencja, czyli roboty wykorzystuj膮ce uczenie maszynowe. W sklepie 鈥 wk艂adaj膮c produkty do koszyka system automatycznie naliczy p艂atno艣膰 z naszego konta bankowego, nie trzeba b臋dzie 鈥瀒艣膰 do kasy鈥. W szpitalu nie spotkamy lekarza, kt贸ry b臋dzie ogl膮da艂 nasze wyniki bada艅 obrazowych 鈥 zamiast tego dostanie ju偶 gotowy opis z diagnoz膮 sporz膮dzon膮 przez AI. Autonomiczne samochody b臋d膮 na porz膮dku dziennym, bez udzia艂u kierowcy. Bo tego wszystkiego niezb臋dne jest data science, gdy偶 ka偶dego robota trzeba zaprogramowa膰, nauczy膰 i przetestowa膰.

Z drugiej jednak strony w przysz艂o艣ci uwaga powinna zosta膰 skupiona na takich zagadnieniach jak etyka, czy odpowiedzialno艣膰 za decyzje robot贸w. Je艣li autonomiczny samoch贸d spowoduje wypadek, kto powinien wzi膮膰 za to odpowiedzialno艣膰? Autor oprogramowania, ubezpieczyciel, czy w艂a艣ciciel samochodu? Co zrobi膰 z b艂臋dna diagnoz膮 lekarsk膮, kt贸ra przyczyni艂a si臋 do pogorszenia stanu zdrowia z powodu braku leczenia? Co jakiego stopnia robotyzacja jest przydatna? W kt贸rym momencie roboty mog膮 zacz膮膰 stwarza膰 zagro偶enie? Na te i inne pytanie odpowiedzi b臋dziemy szuka膰 ju偶 nied艂ugo.

O autorce

Marzena O艂ubek

Data Scientist, Ekspert R&D, Orange Innovation Poland. Absolwentka Informatyki i Ekonometrii na Uniwersytecie 艁贸dzkim. W przesz艂o艣ci realizowa艂a projekty badawcze dotycz膮ce analiz i prognoz rynku pracy. Autorka kilkudziesi臋ciu publikacji w tym temacie. W Orange odpowiedzialna m.in. za planowanie i kreowanie聽 strategii analitycznych na potrzeby marketingu us艂ug finansowych. Posiada wieloletnie do艣wiadczenie w analityce du偶ych zbior贸w danych poczynaj膮c od danych klienckich 鈥榗ustomer data鈥 ko艅cz膮c na danych dotycz膮cych sieci telekomunikacyjnej 鈥榥etwork data鈥. Na co dzie艅 w ramach dzia艂alno艣ci B+R projektuje i wdra偶a algorytmy sztucznej inteligencji przy u偶yciu najbardziej odpowiednich technik uczenia maszynowego dla sieci telekomunikacyjnych. Jej siln膮 stron膮 jest umiej臋tno艣ci po艂膮czenia 艣wiata biznesu ze 艣wiatem technologii. W swojej pracy skupia si臋 na dostarczaniu warto艣ci biznesowej dla klienta. Kreuje i zmienia rzeczywisto艣膰 na podstawie budowanych modeli predykcyjnych. Jest wr贸偶k膮, kt贸ra zamiast z talii kart przewiduje przysz艂o艣膰 z danych. Marzena anga偶uje si臋 te偶 mocno w aktywizacje i promowanie kobiet w 艣wiecie IT oraz wysokich technologii m.in. jako ambasadorka programu W艂膮czOne, czy jako prelegentka na konferencjach dotycz膮cych budowania kariery w艣r贸d kobiet.聽聽

Bibliografia

[1] Data Scientist: The Sexiest Job of the 21st Century, 2012 r. 聽https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century

[1] Data Is The New Oil, Forbes 15.11.2019 https://www.forbes.com/sites/forbestechcouncil/2019/11/15/data-is-the-new-oil-and-thats-a-good-thing/?sh=7c44cc247304

[2] Google, Apple, Alibaba, Facebook and Amazon

Zarejestruj si臋 aby otrzyma膰 newsletter

 

Na tej stronie wykorzystujemy cookies. Uzyskujemy do nich dost臋p w celach analitycznych oraz w celu zapewnienia prawid艂owego dzia艂ania strony. Je偶eli nie wyra偶asz na to zgody, mo偶esz zmieni膰 ustawienia w swojej przegl膮darce. Zobacz wi臋cej w Polityce Prywatno艣ci.

The cookie settings on this website are set to "allow cookies" to give you the best browsing experience possible. If you continue to use this website without changing your cookie settings or you click "Accept" below then you are consenting to this.

Close