MACHINE LEARNING AND DECISION MODELS

Scheda dell'insegnamento

Anno accademico di regolamento: 
2018/2019
Anno di corso: 
1
Anno accademico di erogazione: 
2018/2019
Tipo di attività: 
Obbligatorio
Lingua: 
Inglese
Crediti: 
12
Ciclo: 
Annualita' Singola
Ore di attivita' didattica: 
92
Prerequisiti: 

MACHINE LEARNING:
Sono utili nozioni base di informatica, calcolo delle probabilità e statistica.

--------------**************
-------------

DECISION MODELS

Moduli

Metodi di valutazione

Tipo di esame: 
Orale
Modalita' di verifica dell'apprendimento: 

MACHINE LEARNING
La verifica si basa su due componenti complementari, lo svolgimento di un progetto di machine learning con conseguente redazione di un rapporto tecnico, stile articolo scientifico, e lo svolgimento di una prova d’esame, in laboratorio ed a calcolatore volta a verificare il grado di comprensione metodologica e teorica del candidato. Gli studenti sono incoraggiati al team working per quanto riguarda la componete progetto dell’esame, favorendo pertanto il confronto, la discussione e lo spirito critico, componenti irrinunciabili per un contesto complesso come quello oggetto del corso. Il progetto viene scelto dal candidato tra quelli segnalati dal docente come eleggibili a partire da quanto offre la piattaforma Kaggle (https://www.kaggle.com/), piattaforma digitale ed internazionale che offre uno spazio virtuale altamente professionalizzante dove si incontrano domanda ed offerta nell'ambito della Data Science.
Il progetto di machine learning attrbuisce un massimo di 21 punti assegnati i base ai seguenti criteri

Merito tecnico; rigore notazionale, accuratezza e correttezza (massimo 5 punti).
Chiarezza espositiva e di comunicazione delle idee del candidato, includendo leggibilità e visione critica (massimo 5 punti)
Inquadramento appropriato del problema trattato (massimo 2 punti)
Bilanciamento complessivo tra le diverse componenti del report (massimo 3 punti)
Assenza di ripetizioni, plagio ed auto plagio (massimo 3 punti)
Qualità dei diagrammi, tabelle, grafici, figure, ... (massimo 3 punti)
La prova d'esame in laboratorio ed a calcolatore attribuisce un massimo di 12 punti, ripartiti come segue; 6 punti per 6 quiz a risposta chiusa aventi per oggetto i concetti presentati nel corso e massimo 6 punti per una domanda aperta volta a valutare la capacità critica del candidato.
Infine, il candidato che lo desiderasse può richiedere di sostenere una prova orale (prevede domande di ragionamento e deduzione su argomenti presentati nel corso) che attribuisce un massimo di 3 punti.

-------------------**************--------

DECISION MODELS

There are two mutually exclusive exam modalities

1. Assignments [45%] +Project [45%] + oral (optional) [10%]

Along the course there will be proposed five assignments to be resolved individually. We only allow ”Type 1 collaboration”. This means that collaboration is allowed, but the final product must be individual. You are allowed to discuss the assignment with other team members and work through the problems together. What you turn in, however, must be your own product, written in your own handwriting, or in a computer file of which you are the sole author. Copying another’s work or electronic file is not acceptable.

– Assignment must to be delivered on the established date. No assignment will be considered after deadline.
(A project work will be proposed to be resolved in groups of 2/3 students. The project will be evaluating according to the following criteria:

– A structured report (problem statement, background on decision models and techniques involved, data preparation, computational experiments, analysis of results).

- Brief oral presentation.

Finally, in order to improve the grade, students can take an oral exam with questions about the models presented during the course.

2. Project [55%] +Oral exam [45%]

A project work will be proposed to be resolved in groups of 2/3 students. The project will be evaluating

according to the following criteria:

– A structured report (problem statement, background on decision models and techniques involved, data preparation, computational experiments, analysis of results).

– Brief oral presentation.

An oral examination will evaluate: Knowledge of Fundamental Concepts, Overall Understanding, Knowledge of specific models and methods Argumentation ability.

Valutazione: 
Voto Finale

Obiettivi formativi

MACHINE LEARNING:
Formare la figura professionale dell'analista dati tramite la metodologia informatica del machine learning.
L'obiettivo viene perseguito;

fornendo competenze di progettazione, sviluppo e documentazione di studi di machine learning,
fornendo competenze su software open source professionale per l'estrazione della conoscenza a partire dai dati,
stimolando e promuovendo il team working come metodo professionale di lavoro e collaborazione.
Al termine del corso lo studente avrà maturato competenze e conoscenze tali da progettare, sviluppare, documentare e presentare uno studio di machine learning.

-----------------*****************
------------------

DECISION MODELS

This module will emphasizes the relevance of data in decision making. The general aim is to develop skills in mathematical modeling and in algorithms and computational methods to solve and analyze decision problems. The course will illustrates how to formulate real world problems using case studies and examples; how to use efficient algorithms – both old and new – for solving these models; and how to evaluate, draw useful conclusions and derive useful planning information from the output of these algorithms.

Specific aims of the course module are:

To give students the basic concepts of decision theory, modeling and solution methods of
decision making problems with applications
Guide the students in using different mathematical modeling techniques with OR,
Teach students different methods that are used for numerical decision making,
Make students gain skills in finding optimal solutions to problems
use and integrate open source platforms and programming languages as R or Python

Contenuti

MACHINE LEARNING:
Il corso tratta i seguenti argomenti;

Esplorazione dei dati; mostra come progettare e sviluppare workflow di esplorazione dati e di pre-processamento dei dati stessi. Nello specifico mostra come effettuare caricamento di un insieme di dati, come riassumerne quantitativamente le principali caratteristiche, per variabili categoriche, nominali, ordinali e per variabili numeriche. Inoltre, viene mostrato come trattare il problema dei valori mancanti e come ridurre la dimensione dell’insieme di dati sia in termini di attributi che in termini di osservazioni.
Classificazione Supervisionata; introduce alla formulazione, valutazione e risoluzione di problemi di classificazione supervisionata, vale a dire problemi per i quali a fronte di un insieme di attributi di input si dispone di uno o più attributi di output che rappresentano le quantità da prevedere utilizzando gli attributi di input a disposizione. Viene dedicata attenzione al tema della progettazione dell’esperimento di apprendimento ed alla valutazione dei relativi risultati. Nello specifico si mostra come stimare le prestazioni di un modello di classificazione, come si comparano le prestazioni di due modelli di classificazione. Infine, viene riservata particolare attenzione al problema della selezione e/o generazione degli attributi tramite opportune procedure algoritmiche.
Classificazione non Supervisionata; questo argomento è dedicato alla formulazione, valutazione e risoluzione di problemi di classificazione non supervisionata, vale a dire problemi per i quali si dispone solamente di un insieme di attributi di input. In questo caso il compito dell’esperto di machine learning consiste nel progettare ed implementare un workflow che consenta di raggruppare le osservazioni dell’insieme di dati disponibili in modo tale da rendere ottimale l’omogeneità delle osservazioni associate allo stesso gruppo e rendere massima la differenza tra osservazioni assegnate a gruppi differenti. Vengono presentate e discusse diverse misure di similarità utilizzate per valutare l’omogeneità dei gruppi formati dalle procedure e dagli algoritmi di classificazione non supervisionata. Infine, particolare attenzione viene data agli indici di valutazione e comparazione di soluzioni alternative.
Regole di Associazione; viene mostrato come possibile apprendere in modo automatico regole di associazione nel caso di insiemi di dati dove le osservazioni sono caratterizzate dalla natura transazionale. In questo caso il compito dell’esperto di machine learning consiste nel progettare e implementare un workflow che consenta di estrarre regole di associazione tra attributi in modo da fornire capacità predittiva e decisionale. Infine, particolare attenzione viene data agli indici di valutazione e comparazione di soluzioni alternative.

---------------------*******************--------------------

DECISION MODELS

Types of decisions
Model driven and Data driven methods
Case studies using regression models, classification and regression trees
Decision trees: Value of information and value of perfect information (with case studies)
Basic mathematical programming models: linear programming and sensitivity analysis
Networks models
Markov decision processes and Reinforcement Learning

Programma esteso

MACHINE LEARNING:

Esplorazione dei dati e Pre-Processing
Tipi di dati ed attributi
Esplorazione dei dati, grafica e tabellare
Trattamento delle osservazioni mancanti
Pre-processamento dei dati
Classificazione Supervisionata
Introduzione alla classificazione supervisionata
Tecniche di classificazione supervisionata; reti neurali, classificatori Bayesiani, alberi di decisione, .
Misure di prestazione, procedure di valutazione e comparazione di classificatori
Classi sbilanciate e problemi di classificazione non binaria
Classificazione Non Supervisionata
Introduzione alla classificazione non supervisionata
Misure di prossimità per attributi continui, nominali, ordinali
Algoritmi di clustering; k-means,algoritmi gerarchici, dbscan, opossum, .
Misure di prestazione, procedure di valutazione e comparazione delle soluzioni di clustering
Regole di Associazione
Introduzione alle regole associative
Tipi di itemsets e loro rilevanza
Principio ed algoritmo Apriori
Misure di prestazione, procedure di valutazione e selezione di regole associative

---------------------******************---------------------

DECISION MODELS

Types of decisions
- Structured and programmed decision

- Unstructured and non-programmed decision

- Descriptive, predictive and prescriptive analytics
- Decision making conditions: certainty, uncertainty
2. Types of decision models: Model driven and Data driven models

- a case study using linear regression

- a case studi using logistic regression

- a case study using classification trees

3. Decision trees

- Basic definitions and examples

- Value of information: value of sampled information and value of perfect information

4. Basic mathematical programming models:

- examples of linear programming problems and their formulation

- solution of linear programming problems

- sensitivity analysis

- the use of heuristics

4. Networks models

- transportation problems

- the shortest path LP formulation

- shortest path dynamic programming solution

5. Markov decision processes and Reinforcement Learning

- dynamic programming and approximate dynamic programming

- Markov decision problem

- Value iteration

- Policy iteration

- Basic principles of reinforcement learning

Bibliografia consigliata

MACHINE LEARNING
Materiale audiovisivo, slides, dataset e workflow progettati e realizzati dai docenti del corso.

http://www.uokufa.edu.iq/staff/ehsanali/Tan.pdf
http://dsd.future-lab.cn/members/2015nlp/Machine_Learning.pdf
http://eu.wiley.com/WileyCDA/WileyTitle/productCd-0470276800.html

----------------****************---------

DECISION MODELS

Textbooks
[AE] Dimitris Bertsimas, Allison O’Hair ,and William Pulleyblank, The Analytics Edge, Dynamic Ideas LLC,

1st edition, 2016.
[BT] Dimitris Bertsimas and Robert Freund, Data, models, and decisions : the fundamentals of management

science, Dynamic Ideas, 2004. Software

[R-optimx] Optimization in R: https://cran.r-project.org/web/packages/optimx/optimx.pdf

Instructors make available slides, in-class exercises data and models, additional reading papers

Metodi didattici

MACHINE LEARNING
L'intera attività formativa viene svolta attraverso lezioni in presenza. L’intero corso è reso disponibile in formato digitale e si compone di lezioni audio-narrate sia per la componente metodologica che per la componente pratica, vale a dire l’impiego di software open source per il machine learning. Lo studente è stimolato a verificare il proprio livello di apprendimento tramite esercizi guidati da realizzarsi con l’impiego del software open source presentato a lezione. Il corso rende inoltre disponibili circa 170 quiz a risposta multipla, tramite la piattaforma Moodle, per consentire allo studente di verificare il proprio livello di preparazione.

-----------------************
--------------

DECISION MODELS

The course is hands-on. In particular, we use different case studies to show how to formulate and solve different types of problems.

Case studies will be the starting point to illustrate how the decision problem can be formulated and solved
Practical exercises using sw (basically R)

Assignments will be given periodically to access the student critical thinking skills