AO_427

GENNAIO-FEBBRAIO 2021 AUTOMAZIONE OGGI 427 92 AO TUTORIAL telligenza artificiale simbolica, l’esperto di Computer Vision può attingere a metodi probabilistici come la classificazione Naive Bayes o diversi metodi di regressione statistica, oppure a metodi di classificazione basati su kernel, come le diffuse ‘macchine’ SVM (Support Vector Machine), in cui un modello viene adde- strato con immagini campione a creare una rappresentazione delle immagini in un iperspazio in cui sia più semplice stabilire una linea, o meglio un iperpiano, di demarcazione tra elementi differenti. Molti sistemi di riconoscimento facciale, come FaceNet di Goo- gle, utilizzano questo approccio. Gli alberi decisionali sono un altro degli strumenti dell’AI classica che comprendono in par- ticolare gli algoritmi Random Forest e il diffusissimo metodo di Gradient Boosting (letteralmente ‘esaltazione del gradiente’) che migliora le prestazioni dei modelli di machine learning al punto da rendere gli alberi decisionali competitivi con il Deep Learning. Uno dei più utilizzati algoritmi di rilevamento facciale, intro- dotto nel 2001 da Paul Viola e Michael Jones, fa uso del meta- algoritmo di boosting adattivo AdaBoost per ottenere livelli di prestazioni adeguati all’implementazione e all’esecuzione in tempo reale su smartphone o camere digitali. L’algoritmo di ri- levamento viene addestrato su un elevato numero di facce per raggiungere la sua forma finale che gli permette di rilevare qual- siasi faccia su future immagini. Per ovviare alla domanda di insiemi di dati su cui addestrare gli algoritmi e le reti di machine learning e offrire una pietra di pa- ragone per collaudarne l’efficacia, diversi istituti di ricerca hanno approntato dei dataset liberamente accessibili alle comunità di sviluppatori. Uno dei set più utilizzati a cavallo del decennio scorso è stato il Visual Object Classes dataset Pascal, messo a punto dal Visual Geometry Group dell’Università di Oxford. Dal percettrone al Deep Learning Gli studi sulla corteccia visiva di Hubel e Wiesel hanno eviden- ziato come, per simulare il riconoscimento facciale da parte del cervello umano, la strada da percorrere sia quella di un pro- cesso di ricorsione iterativa in cui l’informazione viene estratta sotto forma di rappresentazioni astratte di crescente livello, dai pixel ai contorni, da lineamenti alle espressioni fino al ricono- scimento dell’intero viso. Per la loro struttura, le reti neurali si prestano naturalmente a simulare l’architettura e le operazioni elementari delle celle semplici, complesse e ipercomplesse della corteccia cerebrale. I primi passi nel campo delle reti neurali ar- tificiali (ANN) vennero fatti negli anni cinquanta, ma il seme del concetto di neurone artificiale era stato gettato già nel 1943 da Warren McCulloch e Walter Pitts con l’articolo ‘A logical calculus of the ideas immanent in nervous activity’ pubblicato sul Bul- letin of Mathematical Biophysics. Nel 1958, Franck Rosenblatt introdusse il concetto di percettrone, un neurone artificiale che viene attivato quando il contributo cumulativo di stimoli oppor- tunamente pesati supera una certa soglia di attivazione. Le prime reti neurali multipercettrone (MLP, Multi-layer Per- ceptron) generalizzarono il concetto di soglia a funzioni di tipo sigmoidale ma potevano essere addestrate solo sotto supervi- sione, un processo troppo dispendioso che ne limitò la diffu- sione al di fuori dell’ambito accademico. Con l’introduzione a metà degli anni ottanta del meccanismo di retropropagazione (backpropagation) che correggeva automaticamente i pesi dei neuroni con un algoritmo di discesa del gradiente, l’addestra- mento delle reti neurali è diventato molto più efficiente. La disponibilità di risorse hardware sempre più performanti ha portato poi a un incremento nella complessità delle reti neu- rali: dalle MLP composte da uno strato di ingresso, da uno a tre strati interni (‘nascosti’) e uno strato di uscita si passò così a reti con più di tre e in generale numerosi strati nascosti, le oramai famose reti neurali profonde (Deep Neural Networks) che sono alla base del Deep Learning. Le odierne metodologie di segmentazione delle immagini sono basate su modelli di Deep Learning che sono in grado di evol- vere per imparare a distinguere caratteristiche essenziali delle immagini di addestramento e utilizzarle per classificare imma- gini mai ‘viste’ prima, anche in tempo reale. Reti neurali convoluzionali Le reti neurali di maggior interesse ai fini della visione artificiale, e ampiamente utilizzate per operazioni di riconoscimento, iden- tificazione e classificazione sono reti neurali profonde di tipo convoluzionale (CNN, Convolutional Neural Networks). Il con- cetto di convoluzione, ben noto nell’ambito dell’elaborazione dei segnali e già impiegato nelle tecniche di rilevamento e tra- cking dell’ottica di Fourier, è in questo contesto utilizzato come metodo per condensare le informazioni di ogni possibile piccola area dell’immagine in un unico valore, che va a costituire un ele- mento di uno strato convoluzionale successivo. Una rete CNN ha Il perceptron rappresenta la forma più elementare di rete neurale e, nella sua forma generalizzata rappresenta il mattone costitutivo delle reti neurali più complesse, siano esse superficiali (shallow, con uno o due livelli nascosti) o profonde (deep, con almeno tre livelli nascosti) (Fonti: a - Sagar Sharma, Toward Data Science; b - IBM) a b

RkJQdWJsaXNoZXIy MTg0NzE=