Introduzione alla chemiometria: obiettivi, metodi e applicazioni della chemiometria per l’analisi di sistemi chimici complessi. La struttura dei dati multivariati. Elementi di calcolo matriciale. Parametri statistici elementari: indici di posizione e di dispersione, covarianza e correlazione. Le scalature ed il pretrattamento dei dati: centratura, autoscalatura, scalatura di intervallo, scalatura sulla varianza.
Strategie per la razionalizzazione di problemi complessi, l’analisi della struttura e l’esplorazione dei dati chimici connessi a sistemi complessi; l'analisi delle componenti principali (PCA): obiettivi della PCA, accenni all’algoritmo di diagonalizzazione, matrici degli scores e dei loadings; autovalori e definizione delle componenti significative (analisi di rango). Esempi di applicazione della PCA su dati chimici. La correlazione multivariata.
Analisi della similarità e diversità in sistemi complessi: i concetti di analogia, similarità, dissimilarità e distanza. Misure di distanza e similarità per dati quantitativi e binari. Cluster Analysis: metodi gerarchici agglomerativi e metodi non gerarchici. Strategie per l'analisi di similarità. Esempi di applicazione della Cluster Analysis su dati chimici.
Il concetto di bias e i metodi di validazione: stimatori statistici; bias e varianza. Modelli descrittivi e predittivi. Tecniche di validazione dei modelli statistici multivariati: cross-validation, bootstrap, leave-one-out, leave-many-out, y scrambling.
Metodi di regressione multivariata: strategie di ricerca basate su modelli quantitativi e parametri di regressione. L'analisi di regressione multipla. I metodi di regressione biased: i metodi ridge, di selezione dei migliori sotto modelli, regressione in componenti principali, metodo Partial Least Square. Gli algoritmi genetici per la selezione di variabili. Il metodo Sequential Replacement. Esempi di applicazione della regressione multivariata su dati chimici.
Metodi di classificazione multivariata: strategie di ricerca basate sulla classificazione e parametri di classificazione. I metodi di classificazione locale: k Nearest Neighbours (kNN), N3, BNN. Le probabilità bayesiane e i metodi di analisi discriminante lineare e quadratica. Metodi di classificazione ad albero (CART). Le reti neurali di Kohonen.
Metodi di consensus e data fusion: introduzione alle strategie moderne per la concatenazione di differenti sorgenti di informazione chimica tramite approcci di consensus analysis e data fusion; definizione dei livelli di data fusion.
Introduzione alle relazioni tra struttura molecolare, proprietà chimico-fisiche, biologiche, ambientali (QSAR): metodologie QSAR, descrittori molecolari e loro applicazione.
Sono previste tre esperienze pratiche su dati reali per acquisire gli strumenti e le modalità di analisi sulle seguenti tematiche chemiometriche: analisi della struttura di dati chimici tramite Analisi delle Componenti Principali, realizzazione di modelli di regressione per il controllo di un processo chimico e classificazione multivariata in contesto QSAR. Le esperienze pratiche vengono eseguite in laboratorio informatico tramite il software MATLAB e specifici toobox grafici forniti dai docenti. Nelle esperienze è prevista una breve introduzione all’utilizzo del sofwtare MATLAB (import e gestione dei dati, integrazione con i toolbox statistici multivariati forniti dai docenti).