| FONDAMENTI DI ANALISI DATI E LABORATORIO |
|
Codice
|
1014452 |
|
Lingua
|
ITA |
|
Tipo di attestato
|
Attestato di profitto |
| Modulo: FONDAMENTI DI ANALISI DATI |
|
Codice
|
1014453 |
|
Lingua
|
ITA |
|
Tipo di attestato
|
Attestato di profitto |
|
Crediti
|
6
|
|
Settore scientifico disciplinare
|
INF/01
|
|
Ore Aula
|
24
|
|
Ore Esercitazioni
|
24
|
|
Attività formativa
|
Attività formative caratterizzanti
|
Canale Unico
|
Docente
|
FURNARI ANTONINO
(programma)
Il corso è articolato in cinque moduli principali:Introduzione all’analisi dei datiAnalisi dei dati descrittiva ed esplorativaAnalisi dei dati inferenzialeDati come punti N-dimensionaliAnalisi dei dati predittivaI paragrafi che seguono dettagliano i contenuti dei vari moduli.Introduzione all'analisi dei datiPanoramica sull'analisi dei dati, scopo e applicazioniPrincipali tipi di analisi dei dati: descrittiva, esplorativa, inferenziale, predittivaEsempi di analisi dei dati e applicazioni (esempi notevoli di analisi dei dati e come queste sono state utili per risolvere problemi reali)Diversi tipi di dati: dati nominali, ordinali, intervallo e rapportoTecniche di raccolta dati: sondaggi, esperimenti, studi osservazionali, campionamentoDifferenza tra campione e popolazioneTecniche di pre-processing dei dati: pulizia dei dati, gestione dei dati mancanti, standardizzazione dei dati, codifica delle variabili categoriche (variabili dummy), riduzione del rumore nei dati (filtraggio, rimozione di valori anomali, normalizzazione)Utilizzo della probabilità per l’analisi dei dati: concetti di base della probabilità (probabilità congiunta, marginale, condizionale, indipendenza e indipendenza condizionale), teorema di Bayes e suo utilizzo nell’analisi dei dati, distribuzioni di probabilità discrete, continue, cumulativi. Distribuzioni di probabilità notevoli.Analisi dei dati descrittiva ed esplorativaMisure della tendenza centrale, media, mediana e modaMisure di dispersione, varianza, deviazione standard, quartili e intervallo interquartileCovarianza, correlazioneTecniche di visualizzazione dei dati: diagrammi a torta, istogrammi, boxplot, scatterplot, hexbin, mappe di densità, curve di livello, scattermatrix, plot di regressioneAnalisi dei dati inferenzialeObiettivi dell'analisi dei dati inferenzialeUso degli intervalli di confidenza nell'analisi dei dati, livelli di significatività e come interpretarliUso dei test di ipotesi per l'analisi dei dati, ipotesi nulla e alternativa, p-value e significatività statistica. Principali test statistici: confronto di medie, t-test, chi-quadratoValutare la significatività dei coefficienti di correlazione con test di ipotesiUso della regressione lineare e logistica per studiare la relazione tra variabiliSignificatività statistica della regressione lineare e logisticaTecniche di selezione dei modelli di regressione, backward eliminationCenni di analisi dei dati causale: correlazione vs causalità, randomized controlled experiments, studi osservazionali, conterfactuals e confounders, regressione lineare con controllo di confoundersI dati come punti N-DimensionaliFeature, funzioni di rappresentazione, spazi delle feature, metricheTecniche di clustering: definizioni e K-MeansFit di Gaussiane ai dati, Maximum LikelihoodTecniche di stima della densità: finestra di Parzen, kernel density estimation, modelli di misture di gaussiane (GMM)Tecniche di riduzione della dimensionalità: analisi delle componenti principali (PCA)Analisi dei dati predittivaConcetti fondamentali dell’analisi predittiva: training, validation e test set, cross validation. Algoritmi generativi e discriminativi. Parametri e iper-parametri. Metodi parametrici e non parametrici. Overfitting e underfitting, bias e varianza. Modelli lineari e nonlineari.Tecniche di regressione. Misure di valutazione per problemi di regressione: errore quadratico medio e errore assoluto medio.Tecniche di classificazione. Valutazione delle prestazioni di un modello di classificazione: confusion matrix, precision, recall e F1 score. Curve ROC per la valutazione delle prestazioni della classificazione binaria. Funzioni discriminanti. Fisher Discriminant Analysis (FDA), Linear Discriminant Analysis (LDA), Quadratic Discriminant Analysis (QDA), Distanza di Mahalanobis, K-Nearest Neighbor (KNN) come metodo di classificazione non parametrico. MAP e Naive Bayes.
 Capitoli dei seguenti libri:Peck, Roxy, Chris Olsen, and Jay L. Devore. Introduction to statistics and data analysis. Cengage Learning, 2015.James, Gareth Gareth Michael. An introduction to statistical learning: with applications in Python, 2023.https://www.statlearning.comBishop, Christopher M. "Machine Learning. Machine learning, 2006. https://www.microsoft.com/en-us/research/publication/pattern-recognition-machine-learning/Hernán, Miguel A., and James M. Robins. Causal inference, 2010. https://www.hsph.harvard.edu/miguel-hernan/causal-inference-book/Materiale didattico condiviso dal docente mediante Microsoft Teams (codice del Team: i87g4nb) e tramite il sito http://antoninofurnari.github.io/fadlecturenotes/.
|
|
Date di inizio e termine delle attività didattiche
|
Dal al |
|
Modalità di erogazione
|
Tradizionale
|
|
Modalità di frequenza
|
Non obbligatoria
|
|
Metodi di valutazione
|
Prova scritta
|
|
|
| Modulo: LABORATORIO |
|
Codice
|
1014454 |
|
Lingua
|
ITA |
|
Tipo di attestato
|
Attestato di profitto |
|
Crediti
|
3
|
|
Settore scientifico disciplinare
|
INF/01
|
|
Ore Aula
|
12
|
|
Ore Laboratorio
|
12
|
|
Attività formativa
|
Attività formative caratterizzanti
|
Canale Unico
|
Docente
|
FURNARI ANTONINO
(programma)
Il corso è articolato in cinque moduli principali:Introduzione all’analisi dei datiAnalisi dei dati descrittiva ed esplorativaAnalisi dei dati inferenzialeDati come punti N-dimensionaliAnalisi dei dati predittivaI paragrafi che seguono dettagliano i contenuti dei vari moduli.Introduzione all'analisi dei datiPanoramica sull'analisi dei dati, scopo e applicazioniPrincipali tipi di analisi dei dati: descrittiva, esplorativa, inferenziale, predittivaEsempi di analisi dei dati e applicazioni (esempi notevoli di analisi dei dati e come queste sono state utili per risolvere problemi reali)Diversi tipi di dati: dati nominali, ordinali, intervallo e rapportoTecniche di raccolta dati: sondaggi, esperimenti, studi osservazionali, campionamentoDifferenza tra campione e popolazioneTecniche di pre-processing dei dati: pulizia dei dati, gestione dei dati mancanti, standardizzazione dei dati, codifica delle variabili categoriche (variabili dummy), riduzione del rumore nei dati (filtraggio, rimozione di valori anomali, normalizzazione)Utilizzo della probabilità per l’analisi dei dati: concetti di base della probabilità (probabilità congiunta, marginale, condizionale, indipendenza e indipendenza condizionale), teorema di Bayes e suo utilizzo nell’analisi dei dati, distribuzioni di probabilità discrete, continue, cumulativi. Distribuzioni di probabilità notevoli.Analisi dei dati descrittiva ed esplorativaMisure della tendenza centrale, media, mediana e modaMisure di dispersione, varianza, deviazione standard, quartili e intervallo interquartileCovarianza, correlazioneTecniche di visualizzazione dei dati: diagrammi a torta, istogrammi, boxplot, scatterplot, hexbin, mappe di densità, curve di livello, scattermatrix, plot di regressioneAnalisi dei dati inferenzialeObiettivi dell'analisi dei dati inferenzialeUso degli intervalli di confidenza nell'analisi dei dati, livelli di significatività e come interpretarliUso dei test di ipotesi per l'analisi dei dati, ipotesi nulla e alternativa, p-value e significatività statistica. Principali test statistici: confronto di medie, t-test, chi-quadratoValutare la significatività dei coefficienti di correlazione con test di ipotesiUso della regressione lineare e logistica per studiare la relazione tra variabiliSignificatività statistica della regressione lineare e logisticaTecniche di selezione dei modelli di regressione, backward eliminationCenni di analisi dei dati causale: correlazione vs causalità, randomized controlled experiments, studi osservazionali, conterfactuals e confounders, regressione lineare con controllo di confoundersI dati come punti N-DimensionaliFeature, funzioni di rappresentazione, spazi delle feature, metricheTecniche di clustering: definizioni e K-MeansFit di Gaussiane ai dati, Maximum LikelihoodTecniche di stima della densità: finestra di Parzen, kernel density estimation, modelli di misture di gaussiane (GMM)Tecniche di riduzione della dimensionalità: analisi delle componenti principali (PCA)Analisi dei dati predittivaConcetti fondamentali dell’analisi predittiva: training, validation e test set, cross validation. Algoritmi generativi e discriminativi. Parametri e iper-parametri. Metodi parametrici e non parametrici. Overfitting e underfitting, bias e varianza. Modelli lineari e nonlineari.Tecniche di regressione. Misure di valutazione per problemi di regressione: errore quadratico medio e errore assoluto medio.Tecniche di classificazione. Valutazione delle prestazioni di un modello di classificazione: confusion matrix, precision, recall e F1 score. Curve ROC per la valutazione delle prestazioni della classificazione binaria. Funzioni discriminanti. Fisher Discriminant Analysis (FDA), Linear Discriminant Analysis (LDA), Quadratic Discriminant Analysis (QDA), Distanza di Mahalanobis, K-Nearest Neighbor (KNN) come metodo di classificazione non parametrico. MAP e Naive Bayes.
 Capitoli dei seguenti libri:Peck, Roxy, Chris Olsen, and Jay L. Devore. Introduction to statistics and data analysis. Cengage Learning, 2015.James, Gareth Gareth Michael. An introduction to statistical learning: with applications in Python, 2023.https://www.statlearning.comBishop, Christopher M. "Machine Learning. Machine learning, 2006. https://www.microsoft.com/en-us/research/publication/pattern-recognition-machine-learning/Hernán, Miguel A., and James M. Robins. Causal inference, 2010. https://www.hsph.harvard.edu/miguel-hernan/causal-inference-book/Materiale didattico condiviso dal docente mediante Microsoft Teams (codice del Team: i87g4nb) e tramite il sito http://antoninofurnari.github.io/fadlecturenotes/.
|
|
Date di inizio e termine delle attività didattiche
|
Dal al |
|
Modalità di erogazione
|
Tradizionale
|
|
Modalità di frequenza
|
Non obbligatoria
|
|
Metodi di valutazione
|
Prova scritta
|
|
|
|