HIGH DIMENSIONAL DATA ANALYSIS

Scheda dell'insegnamento

Anno accademico di regolamento: 
2017/2018
Anno di corso: 
2
Anno accademico di erogazione: 
2018/2019
Tipo di attività: 
Obbligatorio a scelta
Lingua: 
Italiano
Crediti: 
6
Ciclo: 
Primo Semestre
Ore di attivita' didattica: 
46
Prerequisiti: 

Sono necessarie conoscenze di probabilità ed inferenza, algebra lineare, programmazione.

Moduli

Metodi di valutazione

Modalita' di verifica dell'apprendimento: 

Presentazione di un lavoro di gruppo su un progetto concordato con il docente e una prova scritta. Il voto finale sarà una media ponderata tra: prova scritta (50%), progetto di lavoro (30%), presentazione e discussione orale del progetto (20%).

Ciascun progetto può riguardare un articolo o un capitolo di libro su un argomento specifico trattato nel corso. La relazione deve comprendere una descrizione della metodologia utilizzata, una sua discussione critica e l'implementazione del metodo descritto attraverso R, dopo aver scelto opportunamente un set di dati. Il lavoro di gruppo può prevedere al massimo tre studenti per gruppo.

Valutazione: 
Voto Finale

Obiettivi formativi

Questo è un corso avanzato di statistica che ha come oggetto principale l'analisi di high-dimensional data. L'obietto del corso è quello di presentare le moderne tecniche di analisi dei dati e la teoria statistica sottostante, coniugando armoniosamente aspetti teorici, pratici e computazionali.

Contenuti

Il corso riguarda metodi di regressione e classificazione che possono essere impiegati nel caso di high-dimensional data.

Programma esteso

Regressione lineare, bias/variance trade-off
Regressione penalizzata, ridge regression e lasso.
Sezione del modello, metodi di validazione incrociata
Metodi lineari di classificazione: LDA e regressione logistica
Regressione nonparametrica. Nearest neighbors. Kernel smoothing. Regression splines, Smoothing splines, Local regression
Sparce Principal Component Analysis

Bibliografia consigliata

Materiale didattico fornito dal docente

Azzalini, Scarpa (2012) Data analysis and data mining, an introduction . New York: Oxford University Press
Gareth, Witten, Hastie, Tibshirani (2014) An Introduction to Statistical Learning, with Applications in R . Springer
Hastie, Tibshirani, Friedman (2009) The Elements of Statistical Learning. Data Mining, Inference and Prediction . Springer
Hastie, Tibshirani and Wainwright (2015) Statistical Learning with Sparsity: The Lasso and Generalizations . CRC Press

Metodi didattici

Tutte le lezioni si svolgono in laboratorio, integrando aspetti di carattere teorico con quelli computazionali attraverso l'uso di R.