Anno di corso: 1

Crediti: 6
Crediti: 9
Crediti: 9
Crediti: 6
Crediti: 6
Crediti: 3
Tipo: Lingua/Prova Finale
Crediti: 3
Tipo: Lingua/Prova Finale
Crediti: 3
Tipo: Lingua/Prova Finale
Crediti: 3
Tipo: Lingua/Prova Finale
Crediti: 3
Tipo: Altro

Anno di corso: 2

Anno di corso: 3

DATA SCIENCE E MODELLI STATISTICI PER IL TRATTAMENTO DEI DATI NON STRUTTURATI

Scheda dell'insegnamento

Anno accademico di regolamento: 
2016/2017
Anno di corso: 
3
Anno accademico di erogazione: 
2018/2019
Tipo di attività: 
Obbligatorio a scelta
Lingua: 
Italiano
Crediti: 
6
Ciclo: 
Primo Semestre
Ore di attivita' didattica: 
42
Prerequisiti: 

Conoscenze di base di Algebra Lineare e Analisi dei Dati

Moduli

Metodi di valutazione

Tipo di esame: 
Orale
Modalita' di verifica dell'apprendimento: 

Esame orale

Valutazione: 
Voto Finale

Obiettivi formativi

Introdurre gli studenti alla comprensione e all’uso delle più moderne tecniche statistiche, per l’analisi di dati multidimensionali e complessi. Il corso illustrerà i principali metodi di pattern recognition e classificazione non supervisionata, focalizzandosi in particolare sulle tecniche di tipo non lineare, per l’analisi esplorativa, la riduzione della dimensionalità e la visualizzazione dei dati.

Contenuti

1. Richiami di algebra lineare.
2. Metodi classici di cluster analysis e riduzione della multidimensionalità.
3. Metodi non-lineari metrici per la riduzione della dimensionalità.
4. Foreste casuali e loro applicazione alla classificazione non supervisionata.

Programma esteso

1. Sottospazi lineari e proiezioni ortogonali.
2. Decomposizioni matriciali: decomposizione a valori singolari (SVD) e per matrici non-negative.
3. Metodi lineari per la pattern recognition: k-medie, Analisi delle componenti principali (APC), Non-Negative Matrix Factorization (NMF), Multidimensional scaling (MDS), Proiezioni casuali.
4. Metodi non lineari: Self-organizing Map (SOM), Isomap, Local Linear Embedding (LLE).
5. Elementi di teoria dell’informazione: Entropia; Divergenza di Kullback-Liebler; Informazione mutua.
6. Entropia e riduzione della dimensionalità: Stochastic Neighbor Embedding (SNE); t-distributed SNE.
7. Random Forest.

Bibliografia consigliata

Wang J. “Geometric Structure of High Dimensional Data and Dimensionality Reduction”, Springer, 2012 (alcune parti)

Altro materiale predisposto dal docente

Metodi didattici

Lezioni frontali ed esercitazioni