Anno di corso: 1

Anno di corso: 2

Crediti: 6
Crediti: 6
Crediti: 6
Crediti: 6
Crediti: 6
Crediti: 6
Crediti: 12
Tipo: A scelta dello studente
Crediti: 3
Tipo: Lingua/Prova Finale
Crediti: 33
Tipo: Lingua/Prova Finale

DATA AND TEXT MINING

Scheda dell'insegnamento

Anno accademico di regolamento: 
2015/2016
Anno di corso: 
2
Anno accademico di erogazione: 
2016/2017
Tipo di attività: 
Obbligatorio a scelta
Crediti: 
6
Ciclo: 
Primo Semestre
Ore di attivita' didattica: 
52

Moduli

Metodi di valutazione

Tipo di esame: 
Orale
Modalita' di verifica dell'apprendimento: 

3 prove che richiedono di sviluppare modelli o pipeline di data mining o text mining con gli strumenti software presentati a lezione. 7 prove che prevedono quesiti con risposta multipla, le prove sono da svolgere durante il periodo di attività del corso. Progetto concordato con il docente da svolgere entro scadenza e da illustrare con presentazione basata su slide.

Valutazione: 
Voto Finale

Obiettivi formativi

Pianificazione e conduzione di studi di data mining o di text mining. Progettazione ed implementazione di pipeline e di componenti software per condurre studi di data mining o di text mining. Organizzazione e gestione di progetti di analisi dei dati seguendo le metodologie di data mining o di text mining. Utilizzo di risorse computazionali distribuite per la risoluzione di pipeline o modelli di data mining o di text mining ed la conseguente pubblicazione dei risultati ottenuti. Redazione di report di analisi e commento dei risultati ottenuti tramite uno studio di data o text mining. Redazione di documentazione per l’illustrazione della rilevanza e dei possibili vantaggi competitivi emergenti dai risultati ottenuti tramite il progetto di data mining o di text mining.

Contenuti

Analisi dei dati ed estrazione della conoscenza secondo il modello concettuale del data mining. Metodologie per l’analisi di dati strutturati, semi-strutturati e non strutturati. Problemi, modelli ed algoritmi di classificazione, supervisionata e non supervisionata, nel caso di variabili continue, discrete ordinali e nominali e nel caso di variabili miste. Algoritmi di estrazione automatica delle associazioni presenti nei dati. Modelli grafico probabilistici, generativi e discriminativi, per l’analisi di dati testuali semi-strutturati e non-strutturati. Metodi di valutazione della performance previsiva dei modelli. Progettazione ed implementazione del ciclo di data e text mining. Ambienti software, dati e risorse computazionali.

Programma esteso

"1) Data e text mining
1.1) motivazioni
1.2) il ciclo di estrazione della conoscenza a partire dai dati
1.3) tipologie di problemi
"

"2) Esplorazione dati
2.1) tipi di variabili
2.2) misure univariate, bi-variate e multi-variate
2.3) rappresentazioni grafiche
"

"3) Preprocessamento
3.1) binning, normalizzazione, standardizzazione, ...
3.2) selezione delle variabili e costruzione delle feature
3.3) tecniche di riduzione della dimensionalità e di compressione dei dati
"

"4) Classificazione supervisionata e regressione
4.1) problema di classificazione supervisionata; binari, multiclasse e multilabel
4.2) modelli di regressione, euristici, di separazione e probabilistici
4.3) misure di prestazione; accuratezza, precisione, recall
4.4) schemi di stima; hold-out, k-folds cross validation, LOOCV
4.5) regression lineare; modelli, stima, critica e inferenza
"

"5) Classificazione non supervisionata
5.1) problema di clustering
5.2) modelli di partizione, gerarchici, density-based, graph-based, prototype-based
5.3) misure di prestazione e valutazione, misure interne ed esterne
"

"6) Regole di associazione
6.1) problema di associazione
6.2) algoritmo a-priori
6.3) algoritmo tertius
"

"7) Text mining
7.1) preprocessing, vocabolari e tassonomie
7.2) bag-of-word, term frequency e term frequency – inverse document frequency
7.3) classificazione di documenti, pagine web, notizie, .
7.4) latent dirichlet allocation per la scoperta di argomenti
7.5) information extraction e co-reference problem
"

Bibliografia consigliata

Slide e materiale proprietario del docente. In aggiunta verranno resi disponibili capitoli di libri selezionati in base allo specifico argomento trattato.

Metodi didattici

Tutto il corso è fruibile in modalità e-learning. Ogni lezione frontale ed ogni esercitazione è resa disponibile per mezzo di unità video, slide, file di supporto dati e modelli. Il corso è pensato in modo tale che lo studente abbia a disposizione 4 giorni prima della lezione in aula il materiale videoregistrato, le slide associate, i dati ed i modelli necessari. Lo studente assiste alle lezioni video registrate, segnando punti non chiari, dubbi, domande che desidera porre ed argomenti da approfondire. Lo studente nel corso della lezione frontale o dell'esercitazione è meglio focalizzato sugli argomenti trattati, è maggiormente interattivo con il docente e con i compagni. Inoltre, al termine delal lezione può rivedere piu' volte la video registrazione eventualmente arricchita con le sue note che può rendere disponibili ai colleghi di corso. Tutto il corso è rganizzato e realizzato per rendere autonomo lo studio da parte dello studente. Lezioni frontali (circa il 75% del corso) ed esercitazioni (25%) a calcolatore con ambienti software open source su problemi realistici in ambito medico, biologico, finanziario, pubblicitario, social networking, ...