Le CPU scalabili Xeon di terza generazione di Intel offrono elaborazione FPU a 16 bit

redazione

2 anni fa

L’attenzione di Intel sull’architettura AI è così profonda che l’attuale tabella SKU sembrava poco più di un ripensamento. Si noti inoltre che non sono disponibili prezzi.
Questo è l’unico posto in cui vedrai affermazioni sulle prestazioni del carico di lavoro per uso generale, contro i sistemi solo Intel vecchi di cinque anni e ignorando le mitigazioni di Spectre/Meltdown.

Intel
Non si fa menzione di AMD in questa o in qualsiasi altra diapositiva. Intel dominerebbe effettivamente AMD in questa diapositiva se fosse mostrato, dal momento che Epyc non offre l’ottimizzazione AVX-512.

Intel
Ice Lake nel data center entro la fine dell’anno dovrebbe essere un lancio interessante, anche se in qualche modo limitato dal numero di socket inferiore.

Intel

Intel ha annunciato oggi i suoi processori Xeon Scalable di terza generazione (che significa Gold e Platinum), insieme alle nuove generazioni della sua memoria persistente Optane (leggi: SSD a latenza estremamente bassa e ad alta resistenza) e ai prodotti Stratix AI FPGA.

Il fatto che AMD stia attualmente battendo Intel su quasi tutti i parametri di prestazione immaginabili, ad eccezione dell’IA con accelerazione hardware, non è una novità a questo punto. Chiaramente non è nemmeno una novità per Intel, dal momento che la società non ha fatto alcuna pretesa sulle prestazioni di Xeon Scalable rispetto ai processori Epyc Rome concorrenti. Ancora più interessante, Intel ha appena menzionato i carichi di lavoro di elaborazione generici.

Trovare una spiegazione dell’unico miglioramento mostrato generazione su generazione non basato sull’IA richiedeva di passare da più note a piè di pagina. Con sufficiente determinazione, alla fine abbiamo scoperto che il “guadagno medio delle prestazioni di 1,9 volte” menzionato nella diapositiva panoramica si riferisce a benchmark SPECrate 2017 “stimati o simulati” confrontando un sistema Platinum 8380H a quattro socket con un sistema a quattro socket di cinque anni E7-8890 v3.

A chi non piace una bella foto di gatti? Queste immagini di un gattino archiviate nei tipi di dati INT8, BF16 e FP32 offrono una buona panoramica dei livelli di accuratezza di ciascuno.
Questi casi di studio dimostrano sia l’inferenza che l’accelerazione dell’allenamento offerte dal nuovo tipo di dati BF16. Nota la stampa in piccolo, che si riduce a “abbiamo ignorato Meltdown/Spectre per ottenere grandi numeri”.

Intel
Se non sei soddisfatto di una foto di gattino, puoi giocare a un gioco di formaggio e teoricamente correlato a BF16. È tanto divertente quanto sembra.

Ad essere onesti, Intel sembra aver introdotto alcune innovazioni insolitamente impressionanti nello spazio dell’IA. “Deep Learning Boost”, che in precedenza era solo il marchio per il set di istruzioni AVX-512, ora comprende anche un tipo di dati in virgola mobile a 16 bit completamente nuovo.

Con le precedenti generazioni di Xeon Scalable, Intel ha aperto la strada e ha spinto molto per l’utilizzo dell’elaborazione di inferenza di numeri interi a 8 bit – INT8 – con la sua libreria OpenVINO. Per i carichi di lavoro di inferenza, Intel ha affermato che la minore precisione di INT8 era accettabile nella maggior parte dei casi, pur offrendo un’accelerazione estrema della pipeline di inferenza. Per la formazione, tuttavia, la maggior parte delle applicazioni necessitava ancora della maggiore precisione dell’elaborazione in virgola mobile a 32 bit FP32.

La nuova generazione aggiunge il supporto del processore a virgola mobile a 16 bit, che Intel chiama bfloat16. Dimezzare la larghezza di bit dei modelli FP32 accelera l’elaborazione stessa, ma soprattutto dimezza la RAM necessaria per mantenere i modelli in memoria. Sfruttare il nuovo tipo di dati è anche più semplice per i programmatori e le basi di codice che utilizzano modelli FP32 rispetto alla conversione in intero.

Annuncio

Intel ha anche fornito premurosamente un gioco incentrato sull’efficienza del tipo di dati BF16. Non possiamo consigliarlo né come gioco né come strumento educativo.

Accelerazione dell’accumulo di Optane

I risultati delle prestazioni “potrebbero non riflettere tutti gli aggiornamenti di sicurezza disponibili pubblicamente” suonano come parole di donnola per “Mitigazioni Meltdown/Spectre non applicate”.
I grandi vantaggi dell’archiviazione Optane sono una latenza notevolmente inferiore e una maggiore resistenza in scrittura rispetto a quanto possono offrire gli SSD NAND.

Intel

Intel ha anche annunciato una nuova generazione, più veloce del 25%, dei suoi SSD Optane “persistent memory”, che possono essere utilizzati per accelerare notevolmente l’IA e altre pipeline di storage. Gli SSD Optane funzionano con la tecnologia 3D Xpoint piuttosto che con i tipici SSD NAND flash. 3D Xpoint ha una resistenza in scrittura tremendamente maggiore e una latenza inferiore rispetto alla NAND. La minore latenza e la maggiore resistenza in scrittura lo rendono particolarmente interessante come tecnologia di caching veloce, che può persino accelerare tutti gli array a stato solido.

Il grande vantaggio qui è che la latenza estremamente bassa di Optane consente l’accelerazione delle pipeline di intelligenza artificiale, che spesso creano colli di bottiglia nello storage, offrendo un accesso molto rapido a modelli troppo grandi per essere tenuti interamente nella RAM. Per le pipeline che implicano scritture rapide e pesanti, un livello di cache Optane può anche aumentare significativamente l’aspettativa di vita dello storage primario NAND sottostante, riducendo il numero totale di scritture che devono essere effettivamente impegnate su di esso.

Ingrandisci/Latenza rispetto a IOPS, con un carico di lavoro di lettura/scrittura 70/30. Le linee arancione e verde sono SSD NAND tradizionali di livello data center; la linea blu è Optane.

Ad esempio, un Optane da 256 GB ha una specifica di resistenza in scrittura di 360 PB, mentre un SSD Samsung 850 Pro da 256 GB è previsto solo per una durata di 150 TB, maggiore di un vantaggio di 1.000:1 rispetto a Optane.

Nel frattempo, questa eccellente recensione di Tom’s Hardware del 2019 dimostra fino a che punto nella polvere Optane lascia i tradizionali SSD di livello data center in termini di latenza.

FPGA Stratix 10 NX

Una curva che raddoppia quasi una volta per quarto fa vergognare la legge di Moore.
Questa panoramica del modello a blocchi di Stratix afferma enormi miglioramenti dell’inferenza INT8 generazione su generazione su scala di data center.

Intel
Quando hai bisogno di densità più elevate e di una migliore efficienza rispetto a quella che può fornire una CPU per uso generico, costruisci un ASIC. Stratix è la risposta di Intel agli ASIC mirati all’intelligenza artificiale.

Intel

Infine, Intel ha annunciato una nuova versione del suo Stratix FPGA. Gli array programmabili Field Gate possono essere utilizzati come accelerazione hardware per alcuni carichi di lavoro, consentendo a più core CPU generici di affrontare attività che gli FPGA non possono.

Immagine dell’elenco di Intel