Program studiów na rok akademicki 2018/2019


Program obejmuje 244 godziny zajęć, przypadających na 12 kursów obowiązkowych (łącznie 190 godzin, w tym 10 godzin seminarium dyplomowego) oraz 54 godziny kursów specjalistycznych (do wyboru przez słuchaczy).

Narzędziem wykorzystywanym w trakcie zajęć jest pakiet SAS®. Jego wcześniejsza znajomość nie jest wymagana.


Wszystkie kursy mają charakter warsztatów i prowadzone są w pracowni komputerowej według analogicznego schematu.

Zakres każdego kursu podzielony jest na kolejne bloki tematyczne. Każdy blok rozpoczyna się od wstępu teoretycznego, będącego przeglądem istniejących metod, ze szczególnym naciskiem na przedstawienie i omówienie czynników, od których powinien być uzależniony wybór właściwej metody. Następnie prezentowane są przykłady praktyczne pozwalające na zastosowanie poznanych metod w pakiecie SAS® oraz omówienie i interpretację uzyskanych wyników. Ostatnim elementem każdego bloku jest zestaw samodzielnych ćwiczeń wykonywanych przez uczestników, pozwalających utrwalić zdobytą wiedzę teoretyczną i praktyczną.


Na część praktyczną zajęć poświęcone jest 50-70% czasu (w zależności od kursu).


Ramowy program zajęć


lp.kodnazwagodziny
kursy obowiązkowe
1SAS Wprowadzenie do środowiska SAS27
2PST Podstawy statystyki - statystyka opisowa i wnioskowanie statystyczne27
3PS2 Podstawy statystyki - metody analizy współzależności zjawisk9
4ARL Analiza regresji liniowej18
5GMA Metody graficznej reprezentacji danych9
6SC1 Podstawy analizy szeregów czasowych18
7AWK Analiza wariancji i kowariancji9
8WAD Metody wielowymiarowej analizy danych - przegląd18
9BOP Badania operacyjne9
10MZD Modele dla zmiennych dyskretnych - uogólnione modele liniowe18
11WDM Wprowadzenie do Data Mining18
12SEM Seminarium dyplomowe10
razem190
kursy specjalistyczne (do wyboru)
13CSW Fraud Analytics – warsztaty z wykrywania nadużyć z zastosowaniem zaawansowanej analityki9
14SC2 Zaawansowana Analiza Szeregów Czasowych18
15MSY Metody symulacyjne9
16WDP Analiza danych panelowych9
17WAP Analiza przeżycia9
18BAY Bayesowska analiza danych przekrojowych9
19ZWA Zaawansowany warsztat analityka18
20DIS Hurtownie danych - warsztaty z SAS Data Integration Studio9
21TMI Analiza danych nieustrukturyzowanych - Text Mining18
razemwybrane 54

Kursy obowiązkowe


1. Wprowadzenie do środowiska SAS
Kod: SAS
Liczba godzin: 27
Prowadzący: mgr Miłosz Trawczyński (SAS Institute), dr Piotr Wójcik (WNE UW)


  1. Zastosowania i funkcjonalność platformy SAS 9
  2. Interfejs SAS Enterprise Guide
  3. Dostęp do danych:
    1. Definicja i wykorzystanie bibliotek
    2. Import danych z różnych formatów
  4. Tworzenie i modyfikacja zbiorów danych:
    1. Wybór zmiennych
    2. Tworzenie nowych zmiennych
    3. Ekstrakcja, filtrowanie i sortowanie danych
    4. Łączenie zbiorów danych (poziome i pionowe)
    5. Transpozycja zbiorów danych
    6. Wprowadzenie do języka 4GL
  5. Komunikacja z aplikacjami MS Office
  6. Graficzna prezentacja wyników
  7. Przetwarzanie danych z wykorzystaniem języka 4GL
  8. Formaty, informaty, tworzenie własnych formatów
  9. Import danych z różnych formatów (4GL), w tym bezpośrednio z Internetu
  10. zapisywanie wyników w postaci HTML, plików RTF lub PDF
  11. automatyzacja pracy - wstęp do makroprogramowania



2. Podstawy statystyki - statystyka opisowa i wnioskowanie statystyczne
Kod: PST
Liczba godzin: 27
Prowadząca: dr Milena Balcerzak (WNE UW)


  1. Pojęcie cechy statystycznej i jej rozkładu.
  2. Miary położenia rozkładu cechy:
    1. średnia – arytmetyczna, harmoniczna, geometryczna
    2. pozycyjne miary położenia – dominanta, kwartyle
  3. Miary zróżnicowania (dyspersji) rozkładu cechy:
    1. rozstęp
    2. odchylenie przeciętne, wariancja, odchylenie standardowe
    3. odchylenie ćwiartkowe
    4. miary względne zróżnicowania
  4. Asymetria rozkładu cechy i jej miary
  5. Miary spłaszczenia i koncentracji
  6. Rodzaje danych statystycznych
  7. Wybór miar w zależności od rodzaju danych
  8. Proste graficzne metody prezentacji danych
  9. Wizualizacja danych i statystyk opisowych
  10. Wstępna analiza danych z wykorzystaniem statystyk opisowych
  11. Wykrywanie obserwacji nietypowych
  12. Zmienne losowe i ich rozkłady teoretyczne:
    1. Rozkład jednowymiarowej zmiennej losowej skokowej (rozkład jednopunktowy, d wupunktowy, rozkład dwumianowy Bernoulliego, rozkład Poissona)
    2. Rozkład jednowymiarowej zmiennej losowej ciągłej (rozkład jednostajny, rozkład normalny, rozkład t-Studenta, rozkład Chi-kwadrat, F-Snedecora)
    3. Rozkład dwuwymiarowej zmiennej losowej skokowej i ciągłej
    4. Prawa wielkich liczb oraz twierdzenia graniczne
  13. Podstawy teorii estymacji:
    1. Estymacja punktowa (estymacja wartości średniej, estymacja wariancji, estymacja wskaźnika struktury)
    2. Estymacja przedziałowa (przedział ufności dla średniej, przedział ufności dla wariancji i odchylenia standardowego, przedział ufności dla składnika struktury)
    3. Ustalenie minimalnej liczebności próby losowej
  14. Weryfikacja hipotez statystycznych o wartości parametru:
    1. Test dla średniej wartości w populacji
    2. Testowanie hipotezy o równości dwóch średnich w populacji
    3. Test istotności dla wariancji
    4. Testowanie hipotezy o dwóch wariancjach
    5. Testowanie hipotezy o wskaźniku struktury w populacji
    6. Testowanie hipotezy o dwóch wskaźnikach struktury w populacji
  15. Nieparametryczne testy istotności:
    1. test zgodności Chi-kwadrat
    2. test zgodności λ-Kołmogorowa
    3. test zgodności Kołmogorowa-Smirnowa
    4. test niezależności Chi-kwadrat Pearsona
    5. test liczby serii do weryfikacji losowości próby



3. Podstawy statystyki - metody analizy współzależności zjawisk
Kod: PS2
Liczba godzin: 9
Prowadząca: dr Milena Balcerzak (WNE UW)


  1. Pojęcie analizy korelacji i regresji
  2. Miary korelacji zmiennych
    1. Korelacja zmiennych ilościowych
    2. Metody nieparametryczne
    3. Test niezależności chi-kwadrat
    4. Wprowadzenie do Klasycznego Modelu Regresji Liniowej - prosta regresja liniowa
  3. Analiza korespondencji



4. Analiza regresji liniowej
Kod: ARL
Liczba godzin: 18
Prowadzący: mgr Igor Jakubiak (WNE UW)


  1. Wprowadzenie do MNK
    1. Operacje macierzowe, własności hiperpłaszczyzny regresji
    2. Własności statystyczne estymatora MNK (nieobciążoność, zgodność, efektywność)
  2. Klasyczny Model Regresji Liniowej
    1. Założenia KMRL
    2. Interpretacja wyników regresji (parametry, dopasowanie, istotność zmiennych i modelu)
    3. Wykrywanie obserwacji nietypowych
    4. Testowanie normalności reszt
  3. Testowanie hipotez
    1. Testowanie hipotez prostych i złożonych
    2. estymacja modelu z ograniczeniami
    3. metoda od ogólnego do szczególnego
    4. kryteria informacyjne
  4. Dobór zmiennych
    1. Zmienne pominięte i nieistotne, porównywanie modeli
    2. Metody doboru zmiennych
    3. Testowanie współliniowości
  5. Zaawansowana diagnostyka
    1. Testowanie poprawności formy funkcyjnej
    2. Testowanie stabilności parametrów
    3. Testowanie homoskedastyczności
    4. Testowanie braku autokorelacji
    5. Postępowanie w przypadku heteroskedastyczności i autokorelacji
  6. Dyskretne zmienne objaśniające
  7. Forma funkcyjna modelu; modele sprowadzalne do liniowych:
    1. Regresja potęgowa
    2. Regresja wielomianowa



5. Metody graficznej reprezentacji danych
Kod: GMA
Liczba godzin: 9
Prowadzący: dr Tomasz Rybnik (WNE UW)


  1. Graficzna reprezentacja danych jednowymiarowych:
    1. Histogram
    2. Wykresy kołowe i słupkowe
    3. Wykres „pień i liście”;
    4. Wykres pudełkowy (boxplot)
  2. Wykresy rozkładów teoretycznych i empirycznych
    1. Dwuwymiarowy rozkład normalny
    2. Wygładzony histogram, estymacja funkcji gęstości
    3. Wykres QQ i PP
  3. Graficzna reprezentacja danych dwuwymiarowych
    1. Wykres rozrzutu (scatterplot)
    2. Wykresy związane z analizą regresji



6. Podstawy analizy szeregów czasowych
Kod: SC1
Liczba godzin: 18
Prowadzący: dr Paweł Sakowski (WNE UW)


  1. Wprowadzenie do analizy szeregów czasowych
    1. Definicja szeregu czasowego
    2. Składniki szeregu czasowego i jego dekompozycja
    3. Korygowanie danych ze względu na sezonowość
  2. Modele ekstrapolacyjne:
    1. Średnie ruchome
    2. Wyrównywanie wykładnicze
    3. Model liniowy Holta dla szeregów z trendem
    4. Model Holta-Wintersa dla szeregów z trendem i wahaniami sezonowymi
    5. Prognozowanie szeregów czasowych na podstawie modeli ekstrapolacyjnych
  3. Wprowadzenie do modeli ARIMA
    1. Pojęcie stacjonarności szeregu
    2. Funkcja autokowariancji, autokorelacji i autokorelacji cząstkowej
    3. Definicja białego szumu i jego testowanie
  4. Modele ARIMA:
    1. Proces AR
    2. Proces MA
    3. Proces ARMA, ARIMA
    4. Estymacja modeli ARIMA – procedura Boxa-Jenkinsa
  5. Sezonowe modele ARIMA
  6. Prognozowanie z wykorzystaniem modeli ARIMA i SARIMA



7. Analiza wariancji i kowariancji
Kod: AWK
Liczba godzin: 9
Prowadzący: dr Paweł Sakowski (WNE UW)


  1. Wstęp:
    1. Co to jest ANOVA? Do czego służy?
    2. Przegląd metod statystycznych
    3. Wstępna analiza danych
  2. Jednoczynnikowa analiza wariancji
  3. Dwuczynnikowa analiza wariancji
  4. Istotność czynników głównych i ich interakcji
  5. ANOVA zbilansowana vs. niezbilansowana
  6. Weryfikacja założeń modelu
  7. Regresja ze zmiennymi jakościowymi
  8. Analiza kowariancji – ANCOVA
  9. Porównanie: ANCOVA vs. regresja ze zmiennymi jakościowymi



8. Metody wielowymiarowej analizy danych – przegląd
Kod: WAD
Liczba godzin: 18
Prowadzący: dr Marcin Chlebus (WNE UW)


  1. Wprowadzenie do wielowymiarowej analizy danych
  2. Wieloczynnikowa analiza wariancji
    1. Jednoczynnikowa analiza wariancji
    2. Wieloczynnikowa analiza wariancji
    3. Analiza kowariancji
  3. Analiza kanoniczna
  4. Analiza dyskryminacji
  5. Analiza składowych głównych i analiza czynnikowa
    1. Wprowadzenie
    2. Analiza składowych głównych
    3. Analiza czynnikowa
  6. Analiza skupień
    1. Wprowadzenie
    2. Metody hierarchiczne
    3. Metody niehierarchiczne
  7. Skalowanie wielowymiarowe



9. Badania operacyjne
Kod: BOP
Liczba godzin: 9
Prowadzący: mgr Marek Pęczkowski (WNE UW)


Celem zajęć jest zapoznanie uczestników z deterministycznymi metodami optymalizacji, będącymi podstawą do podejmowania decyzji w problemach badawczych i biznesowych. Zajęcia obejmują formułowanie zadań decyzyjnych, przegląd algorytmów ich rozwiązywania i interpretację otrzymywanych wyników.


  1. Przedmiot badań operacyjnych. Model procesu decyzyjnego.
  2. Programowanie liniowe. Metoda sympleks. Dualność w programowaniu liniowym. Analiza wrażliwości i programowanie parametryczne
  3. Programowanie całkowitoliczbowe. Metoda podziału i ograniczeń
  4. Optymalizacja nieliniowa bez ograniczeń i z ograniczeniami
  5. Zagadnienie przydziału
  6. Zadanie transportowe
  7. Przepływy w sieciach. Maksymalny przepływ, najkrótsza droga. Zadania sieciowe z dodatkowymi ograniczeniami liniowymi




10. Modele dla zmiennych dyskretnych - uogólnione modele liniowe
Kod: MZD
Liczba godzin: 18
Prowadzący: dr Piotr Wójcik (WNE UW)


  1. Binarna zmienne zależna
    1. Liniowy model prawdopodobieństwa (LPM) a model logit, szansa, iloraz szans
    2. Ocena jakości dopasowania modelu
    3. quasi-kompletna i kompletna separacja
    4. pseudo R2
    5. tabela trafności dopasowań
    6. punkt odcięcia
    7. krzywa ROC
    8. Testowanie hipotez, interakcje w modelu
    9. Diagnostyka regresji logistycznej
    10. Metody automatycznego doboru zmiennych
  2. Uogólnione modele liniowe – wprowadzenie
    1. Regresja logistyczna jako przykład uogólnionego modelu liniowego
  3. Modele dla uporządkowanej zmiennej zależnej
  4. Modele dla nominalnej zmiennej zależnej
  5. Modele dla zmiennej będącej liczebnością:
    1. Model Poissona
    2. Problem nadmiernego rozproszenia, model ujemny dwumianowy
    3. Model ZIP i ZINB



11. Wprowadzenie do Data Mining
Kod: WDM
Liczba godzin: 18
Prowadzący: mgr Marek Pęczkowski (WNE UW)


  1. Zasady korzystania z programu Enterprise Miner oraz organizacja zbiorów danych wykorzystywanych w analizach Data Mining. Tworzenie projektów analizy danych i zarządzanie projektami
  2. Metodyka SEMMA oraz ogólne metody budowy diagramów analizy danych
  3. Przygotowanie danych do analizy Data Mining - wstępna analiza danych, wizualizacja graficzna danych, transformacje zmiennych, problemy związane z brakami danych, selekcja zmiennych dla potrzeb eksploracji danych
  4. Metody prognozowania - standardy modelowania i analiza wyników
  5. Regresja logistyczna
  6. Drzewa decyzyjne
  7. Sieci neuronowe
  8. Generowanie i wykorzystanie kodów skoringowych w prognozowaniu
  9. Generowanie raportów projektów
  10. Metody grupowania obiektów
  11. Metoda k-średnich
  12. Metoda sieci Kohonena
  13. Generowanie i wykorzystanie kodów skoringowych w grupowaniu
  14. Analiza asocjacji
  15. Analiza sekwencji



12. Seminarium dyplomowe
Kod: SEM
Liczba godzin: 10





Kursy specjalistyczne (do wyboru)

13. Fraud Analytics – warsztaty z wykrywania nadużyć z zastosowaniem zaawansowanej analityki
Kod: FRA
Liczba godzin: 9
Prowadzący: mgr Marcin Nadolny (SAS Institute)


W ostatnich latach skala nadużyć błyskawicznie rośnie we wszystkich obszarach biznesowych, a ich wykrywanie staje się krytyczne dla wszystkich branż w tym dla instytucji finansowych, firm ubezpieczeniowych, firm telekomunikacyjnych, instytucji rządowych. Pojawiają się również wymogi regulacyjne wzmacniające bezpieczeństwo w nowym zdigitalizowanym świecie. Aby sprostać kolejnym zagrożeniom firmy i instytucje muszą sięgać po zaawansowane rozwiązania technologiczne do wykrywania i prewencji nadużyć. Tym samym wzrasta zapotrzebowanie na data scientist wykorzystujących różnego rodzaju techniki analityczne w celu skutecznego wykrywania złożonych zjawisk przestępczych wykorzystując analizę ogromnych wolumenów danych gromadzonych przez organizacje.

W ramach zajęć słuchacze zostaną zapoznani z tematyką wykrywania nadużyć oraz zastosowaniem metod analitycznych do wykrywania nadużyć z wykorzystaniem narzędzi SAS. W oparciu o dane z sektora bankowego przeprowadzone zostaną praktyczne zajęcia z budowy modeli predykcyjnych na potrzeby wykrywania nadużyć.

Poruszane tematy:

  1. Wprowadzenie do tematyki wykrywania nadużyć
  2. Przegląd obszarów nadużyć w różnych branżach
  3. Metodologia wykrywania nadużyć z wykorzystaniem zaawansowanej analityki
  4. Budowa modeli predykcyjnych na potrzeby wykrywania nadużyć
    1. Definiowanie zmiennej celu
    2. Analiza jednowymiarowa
    3. Dobór próby do modelowania
    4. Budowa modelu
    5. Weryfikacja jakości modelu
  5. Analityka sieci powiązań społecznych (SNA) w obszarze wykrywania nadużyć
  6. Ocena skuteczności strategii wykrywania nadużyć
  7. Analiza śledcza



14. Zaawansowana Analiza Szeregów Czasowych
Kod: SC2
Liczba godzin: 18
Prowadzący: dr Paweł Sakowski (WNE UW)


  1. Charakterystyka i testowanie warunkowej heteroskedastyczności: stylizowane fakty, motywacja, podstawowe testy
  2. Estymacja modeli klasy ARCH/GARCH, ich zalety i wady, wariancja warunkowa i bezwarunkowa, poszukiwanie najlepszego modelu
  3. Zastosowania praktyczne modeli ARCH/GARCH: modelowanie wartości narazonej na ryzyko, wycena opcji azjatyckich
  4. Rozszerzenia modeli ARCH/GARCH: asymetryczne modele GARCH: EGARCH, TGARCH, model GARCH-M, model GARCH-t
  5. Współzależność w danych finansowych, zależności długookresowe w szeregach czasowych
  6. Kointegracja – definicja i testowanie, test ADF, estymacja wektora kointegrującego, test kointegracji Engle’a-Grangera
  7. Testowanie przyczynowości w sensie Grangera
  8. Modele wielorównaniowe VAR i VECM, wybór najlepszego modelu, kryteria informacyjne w modelach VAR, egzogeniczne modele VAR, test kointegracji Johansena, szacowanie funkcji reakcji na impuls, prognozowanie w modelach VAR



15. Metody symulacyjne
Kod: MSY
Liczba godzin: 9
Prowadzący: mgr Tomasz Mostowski (WNE UW)


  1. Metoda Monte Carlo:
    1. Kiedy metody symulacyjne są niezbędne?
    2. Podstawy symulacji Monte Carlo
    3. Generatory liczb pseudolosowych
    4. Przykłady zastosowania metody Monte Carlo w finansach
    5. techniki redukcji wariancji
  2. Bootstrapping:
    1. Idea metody bootstrapowej
    2. Bootstrapowa estymacja parametrów rozkładów zmiennych losowych
    3. Bootstrapowa estymacja parametrów funkcji regresji



16. Analiza danych panelowych
Kod: WDP
Liczba godzin: 9
Prowadzący: dr Tomasz Rybnik (WNE UW)


  1. Wprowadzenie do analizy danych panelowych
    1. charakterystyka danych panelowych
    2. zalety i ograniczenia
    3. analizy statystyczne z wykorzystaniem danych panelowych
  2. Modele ekonometryczne danych panelowych
    1. model efektów nieobserwolwalnych
    2. model efektów stałych
    3. model efektów losowych
    4. modele z dwukierunkowym komponentem błędu
  3. Testy
    1. test istotności efektów stałych
    2. test Hausmana
    3. test liniowych restrykcji



17. Analiza przeżycia
Kod: WAP
Liczba godzin: 9
Prowadzący: dr Paweł Sakowski (WNE UW)


  1. Zakres analiz przeżycia
  2. Nieparametryczna estymacja funkcji przeżycia
  3. Nieparametryczne metody porównywania rozkładów przeżycia
  4. Model Coxa (proportional hazard)
  5. Metody parametryczne



18. Bayesowska analiza danych przekrojowych
Kod: BAY
Liczba godzin: 9
Prowadzący: Marek Wielgosz


Jednym z głównych celów analizy statystycznej jest wspieranie podmiotów podejmujących decyzje w warunkach niepewności. Racjonalne decyzje powinny być podejmowane na podstawie wszystkich dostępnych informacji, jednocześnie powinny charakteryzować się wewnętrzną spójnością. Klasyczna statystyka często nie spełnia tego warunku, co może prowadzić do nieoptymalnych decyzji.

Celem kursu jest przedstawienie metodologii bayesowskiej. Szczególna uwaga poświęcona zostanie przedstawieniu rozwiązań problemów analizy danych w sytuacjach, kiedy klasyczna statystyka prowadzi do niewiarygodnych wniosków. W tym kontekście często przytaczanym przykładem jest modelowanie udziału (frakcji). Uczestnicy kursu zapoznają się z zaawansowanymi metodami symulacyjnymi Monte Carlo (MCMC), które prócz wewnętrznej spójności i koncepcyjnej prostoty metodologii bayesowskiej, są głównym czynnikiem wpływającym na jej dynamiczny rozwój.

Od uczestników nie oczekuje się zaawansowanej wiedzy z zakresu teorii prawdopodobieństwa ani statystyki (klasycznej) aczkolwiek jest ona mile widziana. Znaczna część kursu poświęcona jest rozwiązywaniu przykładów empirycznych.


  1. Twierdyenie Bayesa. Rozkład a priori, funkcja wiarogodności oraz rozkład a posteriori. Wpływ rozkładu a priori na rozkład a posteriori
  2. Rejection sampling. Metody Markov Chain Monte Carlo
  3. Estymacja punktowa oraz przedziałowa. Funkcja straty
  4. Testowanie hipotez statystycznych. Czynnik Bayes’a. Rola rozkładu a priori
  5. Wybór modelu, prognozowanie
  6. Uśrednianie modeli




19. Zaawansowany warsztat analityka
Kod: ZWA
Liczba godzin: 18
Prowadzący: dr Piotr Wójcik (WNE UW)


Celem zajęć jest przekazanie uczestnikom umiejętności umożliwiających samodzielną realizację zaawansowanych projektów analitycznych. Słuchacze zajęć nauczą się pobierać duże ilości danych bezpośrednio z Internetu, używać makroprogramowania do automatyzacji pracy, korzystać z SQL w SAS, generować wyniki analiz w postaci plików PDF, RTF, czy stron HTML, a także wielopoziomowych interaktywnych raportów w formacie HTML.


  1. Wczytywanie danych bezposrednio z Internetu
  2. Automatyzacja pracy - makra w SASie
  3. Zaawansowane przetwarzanie danych z wykorzystaniem 4GL
  4. Wykorzystanie SQL na platformie SAS
  5. ODS - zapisywanie wyników w HTML, RTF, PDF
  6. Ciekawe efekty graficzne, tworzenie prostych animacji
  7. Wyniki analiz w postaci interaktywnych wielopoziomowych stron www (technologia "drill-down")
  8. Tworzenie złożonych dashboardów analitycznych
  9. Komunikacja z MS Excel (DDE)




20. Hurtownie danych - warsztaty z SAS Data Integration Studio
Kod: DIS
Liczba godzin: 9
Prowadzący: dr Tomasz Jeruzalski (WNE UW)

Zajęcia obejmują poznanie hurtowni danych jako aparatu pojęciowego, technologii i techniki prowadzenia badań wykorzystywanej do analiz ekonomicznych. W ramach zajęć uczestnicy poznają intuicyjne narzędzia klasy ETL w oprogramowaniu SAS wspomagające proces uzyskiwania informacji z danych, ich wielowymiarowej analizy i prezentacji.

Podstawą takich analiz jest możliwość badania zależności pomiędzy wartościami liczbowymi reprezentującymi dane, a zbiorem parametrów zwanych wymiarami. Ponadto podczas zajęć zostanie zaprezentowany przykład wdrożenia hurtowni danych w administracji publicznej. Uczestnicy zajęć będą mieli do dyspozycji najnowszą wersję oprogramowania SAS DI Studio. Wśród wszystkich polskich uczelni wyższych jedynie WNE UW prowadzi warsztaty z oprogramowania SAS DI Studio do tworzenia struktur hurtowni danych.


  1. Architektura hurtowni danych jako element systemu wspomagania podejmowania decyzji (DSS)
  2. Rola hurtowni danych w aspekcie analizy danych
  3. Przykład wdrożenia hurtowni danych w administracji publicznej
  4. Architektura HD systemu SAS
  5. Źródła danych oraz model danych w hurtowni (metadane)
  6. Analizowanie informacji (danych), od opartej na parametrach selekcji danych, poprzez wielopoziomowe drążenie danych (drill down, drill through) - analizy "od ogółu do szczegółu", technika zagłębiania się od danych najbardziej syntetycznych do coraz bardziej szczegółowych
  7. Agregacja danych i definiowanie miar
  8. Analiza tabel wielowymiarowych. Przetwarzanie tablic faktów
  9. Wielowymiarowe analityczne przetwarzanie danych - On Line Analytical Processing (OLAP)




21. Analiza danych nieustrukturyzowanych - Text Mining
Kod: TMI
Liczba godzin: 18
Prowadząca: dr Karolina Kuligowska (WNE UW)


Celem zajęć jest zapoznanie uczestników z metodami Text Mining, które umożliwiają strukturyzację informacji tekstowych oraz doskonalenie analiz i metod podejmowania decyzji poprzez przeprowadzenie analizy zawartości różnorodnych dokumentów tekstowych oraz znajdowanie nieznanych zależności, wzorców i trendów pomiędzy danymi w zgromadzonych tekstowych zbiorach danych.


  1. Wprowadzenie do metod analizy danych nieustrukturyzowanych (techniki Data Mining, Text Mining, Web Mining)
  2. Funkcjonalności i działanie programu SAS Enterprise Miner i Text Miner
  3. Dekompozycja danych tekstowych (ilościowa reprezentacja zbioru dokumentów, funkcje ważące, wagi częstości)
  4. Transformacja danych tekstowych (redukcja wymiarów macierzy częstości)
  5. Wizualizacja danych (tworzenie drzewa powiązań)
  6. Analiza dużych repozytoriów dokumentów (zastosowanie makra %tmfilter w procesie text mining)
  7. Analiza treści stron WWW (zastosowanie makra %tmfilter w procesie web mining)
  8. Metody klasteryzacji. Modele klasyfikacji
  9. Inne narzędzia Text Miningu