DATA SCIENCE M

Scheda dell'insegnamento

Anno accademico di regolamento: 
2017/2018
Anno di corso: 
2
Anno accademico di erogazione: 
2018/2019
Tipo di attività: 
Obbligatorio a scelta
Lingua: 
Italiano
Crediti: 
12
Ciclo: 
Primo Semestre
Ore di attivita' didattica: 
84
Prerequisiti: 

Si consiglia la conoscenza degli argomenti trattati negli insegnamenti di “Probabilità e Statistica Computazionale M”, “Statistica Avanzata M” e “Data Science M” (modulo “Data Mining”).

Data mining

Si consiglia la conoscenza degli argomenti trattati nel modulo di Statistica Computazionale dell'insegnamento di Probabilità e Statistica Computazionale M.

Moduli

Metodi di valutazione

Tipo di esame: 
Orale
Modalita' di verifica dell'apprendimento: 

Prova in laboratorio

Valutazione: 
Voto Finale

Obiettivi formativi

L’obiettivo del modulo è di presentare nuovi algoritmi e metodi inferenziali utilizzabili per l’analisi di data set complessi. L’enfasi del modulo è posta su problemi ad elevata dimensionalità.

Data mining

L’obiettivo del modulo è una introduzione ai principali metodi di statistical learning e l’implementazione degli stessi tramite l’ambiente di programmazione R. L’enfasi del modulo è posta sul predictive modelling, ovvero sulla modellizzazione dei dati con finalità di previsione.

Contenuti

Statistical Learning

Boosting algorithms
High-dimensional problems
Graphical models
Sparse multivariate methods

Data mining

1. L’errore di previsione
2. Richiami sul modello di regressione lineare.
3. Metodi di classificazione.
4. Metodi di ricampionamento.
5. Selezione delle variabili e regolarizzazione.
6. Oltre la linearità.
7. Alberi di regressione e di classificazione.

Programma esteso

Boosting algorithms
High-dimensional problems
Graphical models
Sparse multivariate methods

Data mining

1. L’errore di previsione. Il compromesso tra distorsione e varianza. Ottimismo e Overfitting.
2. Richiami sul modello di regressione lineare. Metodi non parametrici e la maledizione della dimensionalità.
3. Metodi di classificazione: regressione logistica e analisi discriminante.
4. Metodi di ricampionamento: la convalida incrociata e il bootstrap.
5. Selezione delle variabili e regolarizzazione: Best subsets, Ridge e Lasso regression.
6. Oltre la linearità: splines di regressione e di lisciamento, generalized additive models.
7. Alberi di regressione e di classificazione. Bagging e Foreste Casuali.

Bibliografia consigliata

Statistical Learning

Hastie, Tibshirani and Friedman (2009) The Elements of
Statistical Learning. Data Mining, Inference and Prediction,
Springer

Hastie, Tibshirani, Wainwright
(2016) Statistical Learning with Sparsity: The Lasso and Generalizations. Chapman & Hall/CRC

Data mining

OBBLIGATORI:
Gareth J., Witten D., Hastie T., Tibshirani R. (2013). Introduction to Statistical Learning with applications in R, Springer.

CONSIGLIATI:
Azzalini A., Scarpa B. (2004). Analisi dei dati e data mining, Springer-Verlag Italia.

Kuhn and Johnson (2013) Applied Predictive Modelling
Springer

Modalità di erogazione

Convenzionale

Metodi didattici

Lezioni in laboratorio

Contatti/Altre informazioni