DATA SCIENCE LAB

Scheda dell'insegnamento

Anno accademico di regolamento: 
2017/2018
Anno di corso: 
1
Anno accademico di erogazione: 
2017/2018
Tipo di attività: 
Obbligatorio
Crediti: 
6
Ciclo: 
Secondo Semestre
Ore di attivita' didattica: 
56

Moduli

Metodi di valutazione

Tipo di esame: 
Orale
Modalita' di verifica dell'apprendimento: 

Esame orale con discussione di un progetto applicato svolto.

Valutazione: 
Voto Finale

Obiettivi formativi

Lo studente che affronta questo laboratorio deve conoscere le principali tecniche statistiche e di machine learning (tecniche di regressione e classificazione supervisionata e non).

Alla fine del laboratorio lo studente sarà in grado di affrontare un problema di data science preparando i dati, scegliendo le tecniche più adatte e, una volta applicate, confrontando i risultati ottenuti per selezionare la tecnica più valida.

Contenuti

Si applicheranno le tecniche di statistical/machine learning viste nel primo anno di corso a dati reali. Si partirà da esempi di scuola per poi affrontare problemi più realistici pescati dalle passate e presenti esperienze dei docenti e da piattaforme quali www.kaggle.com.

Programma esteso

• Il linguaggio R
• R markdown
• Pacchetti R per statistical/machine learning
• Sas Enterprise Miner for data mining
• Applicazioni a dati reali guidate dal docente
• Impostazione lavoro di gruppo su problemi reali e/o competizioni Kaggle
• Presentazione di casi di studio da parte di data scientists invitati

Bibliografia consigliata

Matloff (2011) The Art of R Programming, No Starch Press.

Metodi didattici

Le lezioni si svolgeranno in laboratorio computer e dopo una serie di problemi risolti insieme alla classe gli studenti verranno invitati a formare gruppi di lavoro per risolvere collaborativamente problemi di data science reali ed eventualmente a partecipare a competizioni sulla piattaforma Kaggle (o simili).