MACHINE LEARNING AND DECISION MODELS

Scheda dell'insegnamento

Anno accademico di regolamento: 
2017/2018
Anno di corso: 
1
Anno accademico di erogazione: 
2017/2018
Tipo di attività: 
Obbligatorio
Lingua: 
Inglese
Crediti: 
12
Ciclo: 
Annualita' Singola
Ore di attivita' didattica: 
104
Prerequisiti: 

Conoscenza base di informatica, probabilità e statistica.

Moduli

Metodi di valutazione

Tipo di esame: 
Orale
Modalita' di verifica dell'apprendimento: 

Progetto ed esercizi durante l’erogazione del Corso. Inoltre, esame scritto ed orale.

Valutazione: 
Voto Finale

Obiettivi formativi

Lo studente sarà in grado di progettare e sviluppare cicli di data mining per risolvere problemi di classificazione supervisionata e non supervisionata, così come problemi di analisi delle associazioni. Lo studente sarà in grado di capire il valore dei dati nel processo decisionale per trasformare le informazioni in conoscenza di supporto alle decisioni, anche attraverso l’utilizzo di esempi e casi di studio. Lo studente apprenderà l’uso di KNIME, una piattaforma software open source, che integra la potenza e l’espressività di applicativi di data mining come Weka e RapidMiner con linguaggi per l’analisi dei dati come R, Java e Python.

Contenuti

L’insegnamento è diviso in due moduli: il primo modulo riguarda le tecniche di data mining per l’analisi di dati e la seconda presenta i modelli decisionali evidenziando il valore dei dati all’interno del processo decisionale. In particolare verranno affrontati i seguenti argomenti: Il ciclo del data mining. Esplorazione preliminare e tecniche di pre-processamento dei dati. Classificazione supervisionata e non supervisionata. Misure di validità e validazione. Modelli decisionali e tecniche di ottimizzazione. Il valore dell’informazione: analisi di scenari e di sensitività.

Programma esteso

Modulo Machine Learning
1) Introduzione al Data Mining
a. Esplorazione dei dati
b. Preprocessing
2) Classificazione supervisionata e non supervisionata
a. Classificatore e misure di prestazione (accuratezza, errore, precisione and richiamo): schemi di stima, k-folds cross validation, overfitting and underfitting, curse of dimensionality
b. Matrice di costo, receiver operating characteristic curve, grafici lift e del guadagno cumulato
c. Attributi irrilevanti e ridondanti, selezione delle feature
d. Problema di classificazione non supervisionata: Metodi di partizione, gerarchici, basati sulla densità e sul concetto di grafo
e. Misure di validità e validazione
3) Analisi dell associazioni
a. Regola di associazione, itemset ed itemset frequente, supporto e confidenza
b. Algoritmo Apriori
c. Itemset massimali e itemset frequenti chiusi
d. Criteri per valutare la qualità delle regole associative

Modulo Decision Models
1) Modelli decisionali
a. Tipi di decisioni
b. Decisioni ed incertezza
c. Modelli data driven
2) Dai dati alle decisioni
a. Modelli di ottimizzazione
b. Modelli di ottimizzazione in condizioni di incertezza
c. Principi di simulazione
3) Il valore dell’informazione
a. Analisi degli scenari
b. Analisi di sensitività

Bibliografia consigliata

Pang-Ning Tan, Michael Steinbach and Vipin Kumar (2006). Introduction to Data Mining, Pearson International.
Bertsimas, Dimitris, and Robert Freund. Data, Models, and Decisions: The Fundamentals of Management Science. Dynamic Ideas, 2004. ISBN: 9780975914601.

Metodi didattici

The course is hands-on. In particular, we use different data sets to show workflows to formulate and solve different types of problems.