TEXT MINING AND SEARCH

Scheda dell'insegnamento

Anno accademico di regolamento: 
2017/2018
Anno di corso: 
2
Anno accademico di erogazione: 
2018/2019
Tipo di attività: 
Obbligatorio
Lingua: 
Inglese
Crediti: 
6
Ciclo: 
Primo Semestre
Ore di attivita' didattica: 
46
Prerequisiti: 

Conoscenza di base di statistica e di linguaggi di programmazione.

Moduli

Metodi di valutazione

Modalita' di verifica dell'apprendimento: 

Prova scritta ed orale separate, realizzazione di un progetto di laboratorio che è possibile svolgere in gruppo (sino a tre studenti.

Valutazione: 
Voto Finale

Obiettivi formativi

L'obiettivo del corso è fornire un'introduzione ai concetti fondamentali relativi a tecniche di Text Mining, e ad alcune applicazioni di Text Mining: Information Retrieval, Information Filtering, Classificazione di testi. In particolare verrà approfondito il tema dell'Information Retrieval e della definizione di motori di ricerca.

Contenuti

Il corso fornirà inizialmente la definizione di Text Mining e indicherà le principali differenze tra Data Mining e Text Mining.

Il corso introdurrà quindi alcune applicazioni correlate al Text Mining: Information Retrieval (IR), Information Filtering (IF), riassunto automatico di testi, e classificazione di testi. Tecniche di pre-processing di testi verranno presentate e il problema dell'indicizzazione di testi e della loro rappresentazione formale verrà affrontato. Il corso introdurrà quindi le applicazioni precedentemente citate, in particolare Information Retrieval e Information Filtering. Si presenteranno alcuni software open source per la definizione di applicazioni di Text Mining e di Information Retrieval.

Programma esteso

1. Definizione di Text Mining e delle principali differenze tra Text Mining e Data Mining.

2. Breve introduzione di alcune applicazioni correlate al Text Mining: Information Retrieval, Information Filtering, classificazione di testi

3. Pre-Processing e indicizzazione di testi

4. Information Retrieval: Motori di ricerca testuali e motori di ricerca su Web

5. Modelli di Information Retrieval (Modello Booleano, Vector Space Model, modelli probabilistici)

6. Information Filtering

7. Classificazione di testi e Riassunto automatico di testi

8. Software Open Source di Text Mining e Information Retrieval

Bibliografia consigliata

Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008.

Testi specifici su Text Mining accesibili online verranno indicati durante il corso.

Metodi didattici

Il corso prevede lezioni frontali ed esercitazioni in laboratorio, dove sarà spiegato e sperimentato l'utilizzo di software “open source”. Sono previsti seminari tenuti da esperti a livello nazionale ed internazionale.