Broadcom potenzia AI e ML con Tomahawk 5

65

Non sei riuscito a partecipare a Transform 2022? Dai un’occhiata a tutte le sessioni del vertice nella nostra libreria on-demand ora! Guarda qui.

L’intelligenza artificiale (AI) e l’apprendimento automatico (ML) non sono solo algoritmi: l’hardware giusto per potenziare i tuoi calcoli AI e ML è fondamentale.

Per accelerare il completamento del lavoro, i cluster di formazione AI e ML necessitano di un’elevata larghezza di banda e di un trasporto affidabile con una latenza di coda bassa prevedibile (la latenza di coda è l’1 o il 2% di un lavoro che segue il resto delle risposte). Un’interconnessione ad alte prestazioni può ottimizzare i data center e i carichi di lavoro HPC (High-Performance Computing) nel tuo portafoglio di cluster di formazione IA e ML iperconvergenti, con conseguente riduzione della latenza per una migliore formazione del modello, maggiore utilizzo dei pacchetti di dati e minori costi operativi.

Man mano che i lavori di formazione di IA e ML diventano più diffusi, è fondamentale disporre di switch radix più elevati, che riducono la latenza e la potenza, e velocità delle porte più elevate per la creazione di cluster di formazione più grandi con topologia di rete piatta.

Commutazione Ethernet per l’ottimizzazione delle prestazioni

Sebbene i requisiti di larghezza di banda di rete nei data center continuino a crescere notevolmente, c’è anche una forte spinta a combinare l’infrastruttura di elaborazione e archiviazione generale con processori di formazione IA e ML ottimizzati. Di conseguenza, i cluster di formazione AI e ML, in cui si specificano più macchine per l’addestramento, stanno guidando la domanda di fabric con connettività a larghezza di banda elevata, elevata radix e completamento più rapido dei lavori, operando con un utilizzo elevato della rete.

Evento

MetaBeat 2022

MetaBeat riunirà leader di pensiero per fornire indicazioni su come la tecnologia metaverse trasformerà il modo in cui tutti i settori comunicano e fanno affari il 4 ottobre a San Francisco, in California.

Registrati qui

Per accelerare il completamento del lavoro, è fondamentale disporre di un bilanciamento del carico efficace per ottenere un elevato utilizzo della rete, nonché meccanismi di controllo della congestione per ottenere una latenza di coda prevedibile. Infrastrutture di dati virtualizzate ed efficienti, combinate con hardware capace, possono anche migliorare gli offload della CPU e aiutare gli acceleratori di rete a migliorare l’addestramento della rete neurale.

Le infrastrutture basate su Ethernet offrono attualmente la migliore soluzione per una rete unificata. Combinano bassa potenza con larghezza di banda e radix elevati e le più veloci velocità di serializzatore e deserializzatore (SerDes), con un prevedibile raddoppio della larghezza di banda ogni 18-24 mesi. Con questi vantaggi, oltre al suo ampio ecosistema, Ethernet può fornire l’interconnessione con le prestazioni più elevate per watt e dollaro per l’IA e il ML e l’infrastruttura su scala cloud.

Secondo IDC, il mercato globale degli switch Ethernet è cresciuto del 12,7% su base annua a 7,6 miliardi di dollari nel primo trimestre del 2022 (1Q22). Broadcom offre la famiglia Tomahawk di switch Ethernet per abilitare la prossima generazione di reti unificate.

Oggi, Broadcom, con sede a San Jose, ha annunciato la serie di switch StrataXGS Tomahawk 5, che offre 51,2 Tbps di capacità di commutazione Ethernet in un unico dispositivo monolitico, più del doppio della larghezza di banda dei suoi concorrenti, afferma l’azienda.

“Tomahawk 5 ha una capacità doppia rispetto a Tomahawk 4. Di conseguenza, è uno dei chip di commutazione più veloci al mondo”, ha affermato Ram Velaga, vicepresidente senior e direttore generale del gruppo di commutazione principale di Broadcom. “Le funzionalità e le capacità specifiche appena aggiunte per ottimizzare le prestazioni per le reti AI e ML fanno [the] Tomahawk 5 due volte più veloce della versione precedente.

I chip switch Tomahawk 5 sono progettati per aiutare i data center e gli ambienti HPC, per accelerare le capacità di intelligenza artificiale e ML. Il chip switch utilizza un approccio Broadcom noto come routing cognitivo, un avanzato buffering di pacchetti condivisi, telemetria in banda programmabile, con failover del collegamento basato su hardware integrato nel chip.

Il routing cognitivo ottimizza l’utilizzo dei collegamenti di rete selezionando automaticamente i collegamenti meno caricati del sistema per ogni flusso che passa attraverso lo switch. Ciò è particolarmente importante per i carichi di lavoro di intelligenza artificiale e ML, che spesso combinano flussi a larghezza di banda elevata di breve e lunga durata con bassa entropia.

“Il routing cognitivo è un passo oltre il routing adattivo”, ha affermato Velaga. “Quando si utilizza il routing adattivo, si è a conoscenza solo della congestione dei dati tra due punti ma non si è a conoscenza delle altre estremità”.

Il routing cognitivo, ha aggiunto, può rendere il sistema consapevole delle condizioni oltre al prossimo vicino, reindirizzando per un percorso ottimale che fornisce un migliore bilanciamento del carico evitando la congestione.

Tomahawk 5 include il bilanciamento del carico dinamico in tempo reale, che monitora l’uso di tutti i collegamenti allo switch ea valle della rete per determinare il percorso migliore per ciascun flusso. Monitora inoltre lo stato dei collegamenti hardware e reindirizza automaticamente il traffico lontano dalle connessioni non riuscite. Queste funzionalità migliorano l’utilizzo della rete e riducono la congestione, con conseguente riduzione dei tempi di completamento del lavoro.

Il futuro di Ethernet per le infrastrutture AI e ML

Ethernet ha le caratteristiche richieste per cluster di formazione AI e ML ad alte prestazioni: larghezza di banda elevata, gestione della congestione end-to-end, bilanciamento del carico e gestione del tessuto a un costo inferiore rispetto ai suoi concorrenti, come InfiniBand.

È chiaro che Ethernet è un solido ecosistema in costante sviluppo a un rapido ritmo di innovazione. “Ethernet è implacabile e mi aspetto che continui a invadere aree come AI/ML”, ha detto a VentureBeat Craig Matsumoto, analista di ricerca senior presso 451 Research. “La ricompensa è l’omogeneità: se posso eseguire ogni carico di lavoro su Ethernet, supponendo che le prestazioni siano sufficientemente buone, posso avere una rete omogenea che tutti i carichi di lavoro possono condividere. È più semplice e mi acquista percorsi più ridondanti per l’inoltro del traffico”.

Broadcom ha dimostrato che continuerà a migliorare i suoi switch Ethernet per stare al passo con il ritmo dell’innovazione in atto nel settore dell’intelligenza artificiale e del machine learning e rimarrà parte dell’infrastruttura HPC in futuro.

La missione di VentureBeat deve essere una piazza cittadina digitale per i decisori tecnici per acquisire conoscenze sulla tecnologia aziendale trasformativa e le transazioni. Saperne di più sull’appartenenza.