Program studiów na rok akademicki 2018/2019

Program obejmuje 244 godziny zajęć, przypadających na 12 kursów obowiązkowych (łącznie 190 godzin, w tym 10 godzin seminarium dyplomowego) oraz 54 godziny kursów specjalistycznych (do wyboru przez słuchaczy).

Narzędziem wykorzystywanym w trakcie zajęć jest pakiet SAS®. Jego wcześniejsza znajomość nie jest wymagana.

Wszystkie kursy mają charakter warsztatów i prowadzone są w pracowni komputerowej według analogicznego schematu.

Zakres każdego kursu podzielony jest na kolejne bloki tematyczne. Każdy blok rozpoczyna się od wstępu teoretycznego, będącego przeglądem istniejących metod, ze szczególnym naciskiem na przedstawienie i omówienie czynników, od których powinien być uzależniony wybór właściwej metody. Następnie prezentowane są przykłady praktyczne pozwalające na zastosowanie poznanych metod w pakiecie SAS® oraz omówienie i interpretację uzyskanych wyników. Ostatnim elementem każdego bloku jest zestaw samodzielnych ćwiczeń wykonywanych przez uczestników, pozwalających utrwalić zdobytą wiedzę teoretyczną i praktyczną.

Na część praktyczną zajęć poświęcone jest 50-70% czasu (w zależności od kursu).

Ramowy program zajęć

lp.	kod	nazwa	godziny
kursy obowiązkowe
1	SAS	Wprowadzenie do środowiska SAS	27
2	PST	Podstawy statystyki - statystyka opisowa i wnioskowanie statystyczne	27
3	PS2	Podstawy statystyki - metody analizy współzależności zjawisk	9
4	ARL	Analiza regresji liniowej	18
5	GMA	Metody graficznej reprezentacji danych	9
6	SC1	Podstawy analizy szeregów czasowych	18
7	AWK	Analiza wariancji i kowariancji	9
8	WAD	Metody wielowymiarowej analizy danych - przegląd	18
9	BOP	Badania operacyjne	9
10	MZD	Modele dla zmiennych dyskretnych - uogólnione modele liniowe	18
11	WDM	Wprowadzenie do Data Mining	18
12	SEM	Seminarium dyplomowe	10
razem			190

kursy specjalistyczne (do wyboru)
13	CSW	Fraud Analytics – warsztaty z wykrywania nadużyć z zastosowaniem zaawansowanej analityki	9
14	SC2	Zaawansowana Analiza Szeregów Czasowych	18
15	MSY	Metody symulacyjne	9
16	WDP	Analiza danych panelowych	9
17	WAP	Analiza przeżycia	9
18	BAY	Bayesowska analiza danych przekrojowych	9
19	ZWA	Zaawansowany warsztat analityka	18
20	DIS	Hurtownie danych - warsztaty z SAS Data Integration Studio	9
21	TMI	Analiza danych nieustrukturyzowanych - Text Mining	18
razem			wybrane 54

Kursy obowiązkowe

1. Wprowadzenie do środowiska SAS
Kod: SAS
Liczba godzin: 27
Prowadzący: mgr Miłosz Trawczyński (SAS Institute), dr Piotr Wójcik (WNE UW)

Zastosowania i funkcjonalność platformy SAS 9
Interfejs SAS Enterprise Guide
Dostęp do danych:
1. Definicja i wykorzystanie bibliotek
2. Import danych z różnych formatów
Tworzenie i modyfikacja zbiorów danych:
1. Wybór zmiennych
2. Tworzenie nowych zmiennych
3. Ekstrakcja, filtrowanie i sortowanie danych
4. Łączenie zbiorów danych (poziome i pionowe)
5. Transpozycja zbiorów danych
6. Wprowadzenie do języka 4GL
Komunikacja z aplikacjami MS Office
Graficzna prezentacja wyników
Przetwarzanie danych z wykorzystaniem języka 4GL
Formaty, informaty, tworzenie własnych formatów
Import danych z różnych formatów (4GL), w tym bezpośrednio z Internetu
zapisywanie wyników w postaci HTML, plików RTF lub PDF
automatyzacja pracy - wstęp do makroprogramowania

2. Podstawy statystyki - statystyka opisowa i wnioskowanie statystyczne
Kod: PST
Liczba godzin: 27
Prowadząca: dr Milena Balcerzak (WNE UW)

Pojęcie cechy statystycznej i jej rozkładu.
Miary położenia rozkładu cechy:
1. średnia – arytmetyczna, harmoniczna, geometryczna
2. pozycyjne miary położenia – dominanta, kwartyle
Miary zróżnicowania (dyspersji) rozkładu cechy:
1. rozstęp
2. odchylenie przeciętne, wariancja, odchylenie standardowe
3. odchylenie ćwiartkowe
4. miary względne zróżnicowania
Asymetria rozkładu cechy i jej miary
Miary spłaszczenia i koncentracji
Rodzaje danych statystycznych
Wybór miar w zależności od rodzaju danych
Proste graficzne metody prezentacji danych
Wizualizacja danych i statystyk opisowych
Wstępna analiza danych z wykorzystaniem statystyk opisowych
Wykrywanie obserwacji nietypowych
Zmienne losowe i ich rozkłady teoretyczne:
1. Rozkład jednowymiarowej zmiennej losowej skokowej (rozkład jednopunktowy, d wupunktowy, rozkład dwumianowy Bernoulliego, rozkład Poissona)
2. Rozkład jednowymiarowej zmiennej losowej ciągłej (rozkład jednostajny, rozkład normalny, rozkład t-Studenta, rozkład Chi-kwadrat, F-Snedecora)
3. Rozkład dwuwymiarowej zmiennej losowej skokowej i ciągłej
4. Prawa wielkich liczb oraz twierdzenia graniczne
Podstawy teorii estymacji:
1. Estymacja punktowa (estymacja wartości średniej, estymacja wariancji, estymacja wskaźnika struktury)
2. Estymacja przedziałowa (przedział ufności dla średniej, przedział ufności dla wariancji i odchylenia standardowego, przedział ufności dla składnika struktury)
3. Ustalenie minimalnej liczebności próby losowej
Weryfikacja hipotez statystycznych o wartości parametru:
1. Test dla średniej wartości w populacji
2. Testowanie hipotezy o równości dwóch średnich w populacji
3. Test istotności dla wariancji
4. Testowanie hipotezy o dwóch wariancjach
5. Testowanie hipotezy o wskaźniku struktury w populacji
6. Testowanie hipotezy o dwóch wskaźnikach struktury w populacji
Nieparametryczne testy istotności:
1. test zgodności Chi-kwadrat
2. test zgodności λ-Kołmogorowa
3. test zgodności Kołmogorowa-Smirnowa
4. test niezależności Chi-kwadrat Pearsona
5. test liczby serii do weryfikacji losowości próby

3. Podstawy statystyki - metody analizy współzależności zjawisk
Kod: PS2
Liczba godzin: 9
Prowadząca: dr Milena Balcerzak (WNE UW)

Pojęcie analizy korelacji i regresji
Miary korelacji zmiennych
1. Korelacja zmiennych ilościowych
2. Metody nieparametryczne
3. Test niezależności chi-kwadrat
4. Wprowadzenie do Klasycznego Modelu Regresji Liniowej - prosta regresja liniowa
Analiza korespondencji

4. Analiza regresji liniowej
Kod: ARL
Liczba godzin: 18
Prowadzący: mgr Igor Jakubiak (WNE UW)

Wprowadzenie do MNK
1. Operacje macierzowe, własności hiperpłaszczyzny regresji
2. Własności statystyczne estymatora MNK (nieobciążoność, zgodność, efektywność)
Klasyczny Model Regresji Liniowej
1. Założenia KMRL
2. Interpretacja wyników regresji (parametry, dopasowanie, istotność zmiennych i modelu)
3. Wykrywanie obserwacji nietypowych
4. Testowanie normalności reszt
Testowanie hipotez
1. Testowanie hipotez prostych i złożonych
2. estymacja modelu z ograniczeniami
3. metoda od ogólnego do szczególnego
4. kryteria informacyjne
Dobór zmiennych
1. Zmienne pominięte i nieistotne, porównywanie modeli
2. Metody doboru zmiennych
3. Testowanie współliniowości
Zaawansowana diagnostyka
1. Testowanie poprawności formy funkcyjnej
2. Testowanie stabilności parametrów
3. Testowanie homoskedastyczności
4. Testowanie braku autokorelacji
5. Postępowanie w przypadku heteroskedastyczności i autokorelacji
Dyskretne zmienne objaśniające
Forma funkcyjna modelu; modele sprowadzalne do liniowych:
1. Regresja potęgowa
2. Regresja wielomianowa

5. Metody graficznej reprezentacji danych
Kod: GMA
Liczba godzin: 9
Prowadzący: dr Tomasz Rybnik (WNE UW)

Graficzna reprezentacja danych jednowymiarowych:
1. Histogram
2. Wykresy kołowe i słupkowe
3. Wykres „pień i liście”;
4. Wykres pudełkowy (boxplot)
Wykresy rozkładów teoretycznych i empirycznych
1. Dwuwymiarowy rozkład normalny
2. Wygładzony histogram, estymacja funkcji gęstości
3. Wykres QQ i PP
Graficzna reprezentacja danych dwuwymiarowych
1. Wykres rozrzutu (scatterplot)
2. Wykresy związane z analizą regresji

6. Podstawy analizy szeregów czasowych
Kod: SC1
Liczba godzin: 18
Prowadzący: dr Paweł Sakowski (WNE UW)

Wprowadzenie do analizy szeregów czasowych
1. Definicja szeregu czasowego
2. Składniki szeregu czasowego i jego dekompozycja
3. Korygowanie danych ze względu na sezonowość
Modele ekstrapolacyjne:
1. Średnie ruchome
2. Wyrównywanie wykładnicze
3. Model liniowy Holta dla szeregów z trendem
4. Model Holta-Wintersa dla szeregów z trendem i wahaniami sezonowymi
5. Prognozowanie szeregów czasowych na podstawie modeli ekstrapolacyjnych
Wprowadzenie do modeli ARIMA
1. Pojęcie stacjonarności szeregu
2. Funkcja autokowariancji, autokorelacji i autokorelacji cząstkowej
3. Definicja białego szumu i jego testowanie
Modele ARIMA:
1. Proces AR
2. Proces MA
3. Proces ARMA, ARIMA
4. Estymacja modeli ARIMA – procedura Boxa-Jenkinsa
Sezonowe modele ARIMA
Prognozowanie z wykorzystaniem modeli ARIMA i SARIMA

7. Analiza wariancji i kowariancji
Kod: AWK
Liczba godzin: 9
Prowadzący: dr Paweł Sakowski (WNE UW)

Wstęp:
1. Co to jest ANOVA? Do czego służy?
2. Przegląd metod statystycznych
3. Wstępna analiza danych
Jednoczynnikowa analiza wariancji
Dwuczynnikowa analiza wariancji
Istotność czynników głównych i ich interakcji
ANOVA zbilansowana vs. niezbilansowana
Weryfikacja założeń modelu
Regresja ze zmiennymi jakościowymi
Analiza kowariancji – ANCOVA
Porównanie: ANCOVA vs. regresja ze zmiennymi jakościowymi

8. Metody wielowymiarowej analizy danych – przegląd
Kod: WAD
Liczba godzin: 18
Prowadzący: dr Marcin Chlebus (WNE UW)

Wprowadzenie do wielowymiarowej analizy danych
Wieloczynnikowa analiza wariancji
1. Jednoczynnikowa analiza wariancji
2. Wieloczynnikowa analiza wariancji
3. Analiza kowariancji
Analiza kanoniczna
Analiza dyskryminacji
Analiza składowych głównych i analiza czynnikowa
1. Wprowadzenie
2. Analiza składowych głównych
3. Analiza czynnikowa
Analiza skupień
1. Wprowadzenie
2. Metody hierarchiczne
3. Metody niehierarchiczne
Skalowanie wielowymiarowe

9. Badania operacyjne
Kod: BOP
Liczba godzin: 9
Prowadzący: mgr Marek Pęczkowski (WNE UW)

Celem zajęć jest zapoznanie uczestników z deterministycznymi metodami optymalizacji, będącymi podstawą do podejmowania decyzji w problemach badawczych i biznesowych. Zajęcia obejmują formułowanie zadań decyzyjnych, przegląd algorytmów ich rozwiązywania i interpretację otrzymywanych wyników.

Przedmiot badań operacyjnych. Model procesu decyzyjnego.
Programowanie liniowe. Metoda sympleks. Dualność w programowaniu liniowym. Analiza wrażliwości i programowanie parametryczne
Programowanie całkowitoliczbowe. Metoda podziału i ograniczeń
Optymalizacja nieliniowa bez ograniczeń i z ograniczeniami
Zagadnienie przydziału
Zadanie transportowe
Przepływy w sieciach. Maksymalny przepływ, najkrótsza droga. Zadania sieciowe z dodatkowymi ograniczeniami liniowymi

10. Modele dla zmiennych dyskretnych - uogólnione modele liniowe
Kod: MZD
Liczba godzin: 18
Prowadzący: dr Piotr Wójcik (WNE UW)

Binarna zmienne zależna
1. Liniowy model prawdopodobieństwa (LPM) a model logit, szansa, iloraz szans
2. Ocena jakości dopasowania modelu
3. quasi-kompletna i kompletna separacja
4. pseudo R²
5. tabela trafności dopasowań
6. punkt odcięcia
7. krzywa ROC
8. Testowanie hipotez, interakcje w modelu
9. Diagnostyka regresji logistycznej
10. Metody automatycznego doboru zmiennych
Uogólnione modele liniowe – wprowadzenie
1. Regresja logistyczna jako przykład uogólnionego modelu liniowego
Modele dla uporządkowanej zmiennej zależnej
Modele dla nominalnej zmiennej zależnej
Modele dla zmiennej będącej liczebnością:
1. Model Poissona
2. Problem nadmiernego rozproszenia, model ujemny dwumianowy
3. Model ZIP i ZINB

11. Wprowadzenie do Data Mining
Kod: WDM
Liczba godzin: 18
Prowadzący: mgr Marek Pęczkowski (WNE UW)

Zasady korzystania z programu Enterprise Miner oraz organizacja zbiorów danych wykorzystywanych w analizach Data Mining. Tworzenie projektów analizy danych i zarządzanie projektami
Metodyka SEMMA oraz ogólne metody budowy diagramów analizy danych
Przygotowanie danych do analizy Data Mining - wstępna analiza danych, wizualizacja graficzna danych, transformacje zmiennych, problemy związane z brakami danych, selekcja zmiennych dla potrzeb eksploracji danych
Metody prognozowania - standardy modelowania i analiza wyników
Regresja logistyczna
Drzewa decyzyjne
Sieci neuronowe
Generowanie i wykorzystanie kodów skoringowych w prognozowaniu
Generowanie raportów projektów
Metody grupowania obiektów
Metoda k-średnich
Metoda sieci Kohonena
Generowanie i wykorzystanie kodów skoringowych w grupowaniu
Analiza asocjacji
Analiza sekwencji

12. Seminarium dyplomowe
Kod: SEM
Liczba godzin: 10

Kursy specjalistyczne (do wyboru)

13. Fraud Analytics – warsztaty z wykrywania nadużyć z zastosowaniem zaawansowanej analityki
Kod: FRA
Liczba godzin: 9
Prowadzący: mgr Marcin Nadolny (SAS Institute)

W ostatnich latach skala nadużyć błyskawicznie rośnie we wszystkich obszarach biznesowych, a ich wykrywanie staje się krytyczne dla wszystkich branż w tym dla instytucji finansowych, firm ubezpieczeniowych, firm telekomunikacyjnych, instytucji rządowych. Pojawiają się również wymogi regulacyjne wzmacniające bezpieczeństwo w nowym zdigitalizowanym świecie. Aby sprostać kolejnym zagrożeniom firmy i instytucje muszą sięgać po zaawansowane rozwiązania technologiczne do wykrywania i prewencji nadużyć. Tym samym wzrasta zapotrzebowanie na data scientist wykorzystujących różnego rodzaju techniki analityczne w celu skutecznego wykrywania złożonych zjawisk przestępczych wykorzystując analizę ogromnych wolumenów danych gromadzonych przez organizacje.

W ramach zajęć słuchacze zostaną zapoznani z tematyką wykrywania nadużyć oraz zastosowaniem metod analitycznych do wykrywania nadużyć z wykorzystaniem narzędzi SAS. W oparciu o dane z sektora bankowego przeprowadzone zostaną praktyczne zajęcia z budowy modeli predykcyjnych na potrzeby wykrywania nadużyć.

Poruszane tematy:

Wprowadzenie do tematyki wykrywania nadużyć
Przegląd obszarów nadużyć w różnych branżach
Metodologia wykrywania nadużyć z wykorzystaniem zaawansowanej analityki
Budowa modeli predykcyjnych na potrzeby wykrywania nadużyć

Definiowanie zmiennej celu
Analiza jednowymiarowa
Dobór próby do modelowania
Budowa modelu
Weryfikacja jakości modelu

Analityka sieci powiązań społecznych (SNA) w obszarze wykrywania nadużyć
Ocena skuteczności strategii wykrywania nadużyć
Analiza śledcza

14. Zaawansowana Analiza Szeregów Czasowych
Kod: SC2
Liczba godzin: 18
Prowadzący: dr Paweł Sakowski (WNE UW)

Charakterystyka i testowanie warunkowej heteroskedastyczności: stylizowane fakty, motywacja, podstawowe testy
Estymacja modeli klasy ARCH/GARCH, ich zalety i wady, wariancja warunkowa i bezwarunkowa, poszukiwanie najlepszego modelu
Zastosowania praktyczne modeli ARCH/GARCH: modelowanie wartości narazonej na ryzyko, wycena opcji azjatyckich
Rozszerzenia modeli ARCH/GARCH: asymetryczne modele GARCH: EGARCH, TGARCH, model GARCH-M, model GARCH-t
Współzależność w danych finansowych, zależności długookresowe w szeregach czasowych
Kointegracja – definicja i testowanie, test ADF, estymacja wektora kointegrującego, test kointegracji Engle’a-Grangera
Testowanie przyczynowości w sensie Grangera
Modele wielorównaniowe VAR i VECM, wybór najlepszego modelu, kryteria informacyjne w modelach VAR, egzogeniczne modele VAR, test kointegracji Johansena, szacowanie funkcji reakcji na impuls, prognozowanie w modelach VAR

15. Metody symulacyjne
Kod: MSY
Liczba godzin: 9
Prowadzący: mgr Tomasz Mostowski (WNE UW)

Metoda Monte Carlo:
1. Kiedy metody symulacyjne są niezbędne?
2. Podstawy symulacji Monte Carlo
3. Generatory liczb pseudolosowych
4. Przykłady zastosowania metody Monte Carlo w finansach
5. techniki redukcji wariancji
Bootstrapping:
1. Idea metody bootstrapowej
2. Bootstrapowa estymacja parametrów rozkładów zmiennych losowych
3. Bootstrapowa estymacja parametrów funkcji regresji

16. Analiza danych panelowych
Kod: WDP
Liczba godzin: 9
Prowadzący: dr Tomasz Rybnik (WNE UW)

Wprowadzenie do analizy danych panelowych
1. charakterystyka danych panelowych
2. zalety i ograniczenia
3. analizy statystyczne z wykorzystaniem danych panelowych
Modele ekonometryczne danych panelowych
1. model efektów nieobserwolwalnych
2. model efektów stałych
3. model efektów losowych
4. modele z dwukierunkowym komponentem błędu
Testy
1. test istotności efektów stałych
2. test Hausmana
3. test liniowych restrykcji

17. Analiza przeżycia
Kod: WAP
Liczba godzin: 9
Prowadzący: dr Paweł Sakowski (WNE UW)

Zakres analiz przeżycia
Nieparametryczna estymacja funkcji przeżycia
Nieparametryczne metody porównywania rozkładów przeżycia
Model Coxa (proportional hazard)
Metody parametryczne

18. Bayesowska analiza danych przekrojowych
Kod: BAY
Liczba godzin: 9
Prowadzący: Marek Wielgosz

Jednym z głównych celów analizy statystycznej jest wspieranie podmiotów podejmujących decyzje w warunkach niepewności. Racjonalne decyzje powinny być podejmowane na podstawie wszystkich dostępnych informacji, jednocześnie powinny charakteryzować się wewnętrzną spójnością. Klasyczna statystyka często nie spełnia tego warunku, co może prowadzić do nieoptymalnych decyzji.

Celem kursu jest przedstawienie metodologii bayesowskiej. Szczególna uwaga poświęcona zostanie przedstawieniu rozwiązań problemów analizy danych w sytuacjach, kiedy klasyczna statystyka prowadzi do niewiarygodnych wniosków. W tym kontekście często przytaczanym przykładem jest modelowanie udziału (frakcji). Uczestnicy kursu zapoznają się z zaawansowanymi metodami symulacyjnymi Monte Carlo (MCMC), które prócz wewnętrznej spójności i koncepcyjnej prostoty metodologii bayesowskiej, są głównym czynnikiem wpływającym na jej dynamiczny rozwój.

Od uczestników nie oczekuje się zaawansowanej wiedzy z zakresu teorii prawdopodobieństwa ani statystyki (klasycznej) aczkolwiek jest ona mile widziana. Znaczna część kursu poświęcona jest rozwiązywaniu przykładów empirycznych.

Twierdyenie Bayesa. Rozkład a priori, funkcja wiarogodności oraz rozkład a posteriori. Wpływ rozkładu a priori na rozkład a posteriori
Rejection sampling. Metody Markov Chain Monte Carlo
Estymacja punktowa oraz przedziałowa. Funkcja straty
Testowanie hipotez statystycznych. Czynnik Bayes’a. Rola rozkładu a priori
Wybór modelu, prognozowanie
Uśrednianie modeli

19. Zaawansowany warsztat analityka
Kod: ZWA
Liczba godzin: 18
Prowadzący: dr Piotr Wójcik (WNE UW)

Celem zajęć jest przekazanie uczestnikom umiejętności umożliwiających samodzielną realizację zaawansowanych projektów analitycznych. Słuchacze zajęć nauczą się pobierać duże ilości danych bezpośrednio z Internetu, używać makroprogramowania do automatyzacji pracy, korzystać z SQL w SAS, generować wyniki analiz w postaci plików PDF, RTF, czy stron HTML, a także wielopoziomowych interaktywnych raportów w formacie HTML.

Wczytywanie danych bezposrednio z Internetu
Automatyzacja pracy - makra w SASie
Zaawansowane przetwarzanie danych z wykorzystaniem 4GL
Wykorzystanie SQL na platformie SAS
ODS - zapisywanie wyników w HTML, RTF, PDF
Ciekawe efekty graficzne, tworzenie prostych animacji
Wyniki analiz w postaci interaktywnych wielopoziomowych stron www (technologia "drill-down")
Tworzenie złożonych dashboardów analitycznych
Komunikacja z MS Excel (DDE)

20. Hurtownie danych - warsztaty z SAS Data Integration Studio
Kod: DIS
Liczba godzin: 9
Prowadzący: dr Tomasz Jeruzalski (WNE UW)

Zajęcia obejmują poznanie hurtowni danych jako aparatu pojęciowego, technologii i techniki prowadzenia badań wykorzystywanej do analiz ekonomicznych. W ramach zajęć uczestnicy poznają intuicyjne narzędzia klasy ETL w oprogramowaniu SAS wspomagające proces uzyskiwania informacji z danych, ich wielowymiarowej analizy i prezentacji.

Podstawą takich analiz jest możliwość badania zależności pomiędzy wartościami liczbowymi reprezentującymi dane, a zbiorem parametrów zwanych wymiarami. Ponadto podczas zajęć zostanie zaprezentowany przykład wdrożenia hurtowni danych w administracji publicznej. Uczestnicy zajęć będą mieli do dyspozycji najnowszą wersję oprogramowania SAS DI Studio. Wśród wszystkich polskich uczelni wyższych jedynie WNE UW prowadzi warsztaty z oprogramowania SAS DI Studio do tworzenia struktur hurtowni danych.

Architektura hurtowni danych jako element systemu wspomagania podejmowania decyzji (DSS)
Rola hurtowni danych w aspekcie analizy danych
Przykład wdrożenia hurtowni danych w administracji publicznej
Architektura HD systemu SAS
Źródła danych oraz model danych w hurtowni (metadane)
Analizowanie informacji (danych), od opartej na parametrach selekcji danych, poprzez wielopoziomowe drążenie danych (drill down, drill through) - analizy "od ogółu do szczegółu", technika zagłębiania się od danych najbardziej syntetycznych do coraz bardziej szczegółowych
Agregacja danych i definiowanie miar
Analiza tabel wielowymiarowych. Przetwarzanie tablic faktów
Wielowymiarowe analityczne przetwarzanie danych - On Line Analytical Processing (OLAP)

21. Analiza danych nieustrukturyzowanych - Text Mining
Kod: TMI
Liczba godzin: 18
Prowadząca: dr Karolina Kuligowska (WNE UW)

Celem zajęć jest zapoznanie uczestników z metodami Text Mining, które umożliwiają strukturyzację informacji tekstowych oraz doskonalenie analiz i metod podejmowania decyzji poprzez przeprowadzenie analizy zawartości różnorodnych dokumentów tekstowych oraz znajdowanie nieznanych zależności, wzorców i trendów pomiędzy danymi w zgromadzonych tekstowych zbiorach danych.

Wprowadzenie do metod analizy danych nieustrukturyzowanych (techniki Data Mining, Text Mining, Web Mining)
Funkcjonalności i działanie programu SAS Enterprise Miner i Text Miner
Dekompozycja danych tekstowych (ilościowa reprezentacja zbioru dokumentów, funkcje ważące, wagi częstości)
Transformacja danych tekstowych (redukcja wymiarów macierzy częstości)
Wizualizacja danych (tworzenie drzewa powiązań)
Analiza dużych repozytoriów dokumentów (zastosowanie makra %tmfilter w procesie text mining)
Analiza treści stron WWW (zastosowanie makra %tmfilter w procesie web mining)
Metody klasteryzacji. Modele klasyfikacji
Inne narzędzia Text Miningu