AO_438

Tutorial MAGGIO 2022 AUTOMAZIONE OGGI 438 | 145 Correlazioni e raggruppamenti I principali compiti associati a supervised e unsupervised learning si possono riassumere nella ricerca di correlazioni significative (o della loro mancanza) tra le feature, o nel rag- gruppamento di elementi dello spazio delle feature in categorie con determinati attributi in comune. Nell’unsupervised learning il task di riduzione della dimensionalità, effettuato ad esempio con gli algoritmi PCA (Principal Component Analysis), t-SNE (t-Distributed Stochastic Embedding), o di analisi della fun- zione discriminante LDA (Linear Discriminant Analysis), consiste nell’identificare le feature (o loro combinazioni) che mostrano la più netta dipendenza tra loro, escludendo invece quelle che non giocano un ruolo significativo. Nello spazio astratto delle feature, questo si traduce nel proiettare l’insieme dei vettori su un sotto- spazio di dimensioni ridotte, mantenendo per lo più invariata la quantità di informazioni nel nuovo set di dati. Il clustering è una tecnica di apprendimento automatico che opera su dati privi di etichetta, raggruppandoli in partizioni, i cluster, che con- tengono punti con caratteristiche simili (in base a un determinato criterio specificato dall’algo- ritmo). Il clustering può essere usato per ridurre il dataset a un numero esiguo di elementi rap- presentativi (uno per cluster) o per evidenziare relazioni tra variabili che non sarebbero rileva- bili nel dataset originale (è il caso del clustering gerarchico delle mappe di calore, o heatmap). Tra i task principali del supervised learning, la regressione identifica correlazioni tra variabili, utilizzando i dati di training per creare un mo- dello previsionale (che ipotizza una relazione di causa-effetto tra le variabili) da applicare a dati non presenti nel dataset originario. La creazione del modello avviene selezionandone i parametri che minimizzano una determinata funzione di costo, tipicamente la somma degli scarti qua- dratici (SSE, Sum of Square Errors). La ricerca dei valori ottimali è comunemente effettuata uti- lizzando il metodo della discesa del gradiente, che è una generalizzazionemultidimensionale e adattiva della ricerca del punto a derivata prima nulla. Il compito di classificazione si distingue da quello di regressione perché opera su variabili di tipo categorico, invece che numerico (o se vogliamo di valore numerico discreto: la regres- sione logistica è di fatto una tecnica di classifi- cazione in quanto il modello che crea permette di prevedere se per un dato valore delle variabili indipendenti si ricade nel ramo inferiore o su- periore della curva logistica). La classificazione opera su dati etichettati in fase di training e il modello che produce si può riassumere per mezzo di un confine decisionale nello spazio delle feature. Questi confini, che nel caso line- are sono spezzate, o più in generale iperpiani, delimitano regioni che sono impiegate per clas- sificare elementi mai visti prima. La configurazione dei confini decisionali di- pende dall’algoritmo di classificazione, ed è possibile utilizzare la loro rappresentazione nello spazio delle feature per distinguere, quando possibile, e comprendere il funziona- mento di questi algoritmi. Alberi e distanze Gli algoritmi di raggruppamento e regressione possono essere implementati con tecniche di vario tipo. È infatti possibile ricorrere ai metodi della branca logica dell’intelligenza artificiale (alberi di regressione e di classificazione), o a tecniche basate sul concetto di distanza tra ele- Tra le tecniche di algebra lineare più usate, l’algoritmo SVM (Support Vector Machine) permette di massimizzare la separazione tra i confini decisionali di gruppi di elementi linearmente separabili; il ricorso al cosiddetto ‘trucco del kernel’ rende possibile estenderne l’uso a confini decisionali più complessi Diversi algoritmi di machine learning si occupano della costruzione di alberi decisionali di regressione e di classificazione con tecniche che ne rendono efficiente l’impiego come strumenti predittivi

RkJQdWJsaXNoZXIy Mzg4NjYz