INFORMATION RETRIEVAL

Scheda dell'insegnamento

Anno accademico di regolamento: 
2014/2015
Anno di corso: 
2
Anno accademico di erogazione: 
2015/2016
Tipo di attività: 
Obbligatorio a scelta
Crediti: 
6
Ciclo: 
Primo Semestre
Ore di attivita' didattica: 
52
Prerequisiti: 

Nozioni di base di Statistica e di Algebra Lineare.

Moduli

Metodi di valutazione

Tipo di esame: 
Orale
Modalita' di verifica dell'apprendimento: 

Prova scritta ed orale separate, realizzazione di un progetto di laboratorio.

Valutazione: 
Voto Finale

Obiettivi formativi

Il corso introdurrà un insieme di tecniche per il progetto e la realizzazione di motori di ricerca.
In particolare saranno presentate tecniche di indicizzazione di testi, con accenni a indicizzazione di documenti multimediali; saranno inoltre presentati alcuni modelli quantitativi per la determinazione della stima (grado, o probabilità) di rilevanza di un documento rispetto alle necessità informative dell'utente. Tra i modelli avanzati verranno presentati i “Language Model”.
Come sviluppo recente dell'IR saranno analizzati i motori di ricerca su Web. Il corso introdurrà inoltre alcune applicazioni avanzate di IR, come l’IR multimediale e tecniche di personalizzazione della ricerca.

Contenuti

L'obiettivo del corso è fornire un'introduzione ai concetti fondamentali, ai modelli formali, e alle tecniche per la realizzazione di sistemi per il reperimento automatico di documenti in forma digitale (sistemi di "Information Retrieval", detti Motori di Ricerca o Motori di Ricerca su Web quando i documenti da reperire sono costituiti da pagine Web). In questo contesto il principale problema da affrontare è quello della valutazione della rilevanza dei documenti rispetto alle necessità informative dell'utente. Al termine del corso lo studente sarà in grado di progettare tecniche per l'indicizzazione e per il reperimento di testi semi-strutturati, e di utilizzare software "open source" per definizione di applicazioni di Information Retrieval. Il laboratorio sarà finalizzato alla realizzazione di una applicazione.

Programma esteso

Introduzione all'Information Retrieval (IR).
• Documenti e necessità informative, e loro rappresentazione.
• Il concetto di rilevanza. Probabilità e parzialità.
• Efficienza, efficacia; valutazione dell'efficacia di un sistema di IR.
• Relevance feedback e riformulazione dell'interrogazione.

Introduzione al software open source per la definizione di motori di ricerca

Le tecniche di indicizzazione di testi

Modelli di sistemi di Information Retrieval: i modelli base (Booleano, Vettoriale, modelli Probabilistici). Modelli avanzati.

I motori di ricerca su Web: crawling, link analysis e altri fattori per la stima della rilevanza di pagine Web.

La valutazione dei motori di ricerca.

"Temi ``avanzati'' di Information Retrieval
• Information retrieval di documenti strutturati.
• Cenni a Multimedia information retrieval
• Cenni alla Categorizzazione automatica di documenti.
• Personalizzazione della ricerca.

Bibliografia consigliata

Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008.

Metodi didattici

Il corso prevede lezioni in aula, ed esercitazioni in laboratorio. Sono previsti seminari tenuti da esperti del settore a livello nazionale ed internazionale.