AO_446

Sistemi di visione MAGGIO 2023 AUTOMAZIONE OGGI 446 | 115 Immagine per gentile concessione di AMD Xilinx energivori in base ai tipici modelli di utilizzo dell’energia: – 30% per i core; – 30% per la memoria interna (L1, L2, L3); – 40% per la memoria esterna (come DDR). Gli accessi frequenti alla inefficiente memoria DDR sono richiesti dalle GPU per supportare la programmabilità e possono costituire un collo di bottiglia per le richieste di calcolo ad alta larghezza di banda. L’architettura MPSoC Zynq, utilizzata in SoM Kria K26, supporta lo sviluppo di applicazioni con accesso minimo o nullo alla memoria esterna. In una tipica ap- plicazione automotive, per esempio, la comu- nicazione tra la GPU e i vari moduli richiede molteplici accessi alla memoria DDR esterna, mentre la soluzione basata su MPSoC Zynq in- corpora un flusso dati progettato per evitare la maggior parte degli accessi alla DDR (si veda figura 2). Razionalizzare per sfruttare tutti i vantaggi Le prestazioni delle reti neurali su SoM K26 si possono migliorare con uno strumento di otti- mizzazione AI che consente di razionalizzare i dati. È molto comune per le reti neurali essere eccessivamente parametrizzate, il che porta a livelli elevati di ridondanza, che possono es- sere ridotti utilizzando la razionalizzazione dei dati e la compressione dei modelli. L’utilizzo di AI Optimizer di Xilinx può ridurre la comples- sità del modello di 50 volte, con un impatto nominale sulla sua precisione. Un SSD (Single Shot Detector), più un’architettura CNN (o ConvNet, Convolutional Neural Network) VGG con 117 Gop, per esempio, è stata razionaliz- zata in 11 iterazioni utilizzando AI Optimizer. Prima dell’ottimizzazione, il modello funzio- nava a 18 fps su un MPSoC Zynq UltraScale+. Dopo 11 iterazioni - la 12 a esecuzione del mo- dello - la complessità si è ridotta da 117 Gop a 11,6 Gop (10 volte), le prestazioni sono au- mentate da 18 a 103 fps (5 volte) e l’accura- tezza è scesa da una precisione media (mAP) di 61,55 per il rilevamento degli oggetti a 60,4 mAP (solo l’1% in meno) (si veda figura 3). Esempio di applicazione reale È stata sviluppata un’applicazione di appren- dimento automatico per il rilevamento e il ri- Immagine per gentile concessione di AMD Xilinx Fig. 1 - Per le operazioni INT8 (8b Add) è necessario un ordine di grandezza inferiore rispetto alle operazioni FP32 (32b Add) Fig. 2 - In questa tipica applicazione automotive, la GPU richiede più accessi alla DDR per la comunicazione tra i vari moduli (sinistra), mentre l’architettura a pipeline del MPSoC Zynq (destra) evita la maggior parte degli accessi alla DDR