Amazon inizia a spostare l'IA cloud di Alexa sul proprio silicio

490

Gli ingegneri di Amazon discutono della migrazione dell'80% del carico di lavoro di Alexa agli ASIC Inferentia in questa clip di tre minuti.

Giovedì, un post sul blog di Amazon AWS ha annunciato che la società ha spostato la maggior parte dell'elaborazione del cloud per il suo assistente personale Alexa dalle GPU Nvidia e sul proprio Inferentia Application Specific Integrated Circuit (ASIC). Lo sviluppatore di Amazon Sebastien Stormacq descrive il design hardware di Inferentia come segue:

AWS Inferentia è un chip personalizzato, creato da AWS, per accelerare i carichi di lavoro di inferenza di machine learning e ottimizzarne i costi. Ogni chip AWS Inferentia contiene quattro NeuronCores. Ogni NeuronCore implementa un motore multiplo a matrice di matrice sistolica ad alte prestazioni, che accelera enormemente le tipiche operazioni di deep learning come convoluzione e trasformatori. I NeuronCores sono inoltre dotati di una grande cache su chip, che aiuta a ridurre gli accessi alla memoria esterna, riducendo drasticamente la latenza e aumentando il throughput.

Quando un cliente Amazon, di solito qualcuno che possiede un Echo o un Echo dot, utilizza l'assistente personale di Alexa, pochissima elaborazione viene eseguita sul dispositivo stesso. Il carico di lavoro per una tipica richiesta di Alexa è simile a questo:

  • Un essere umano parla a un Amazon Echo, dicendo: "Alexa, qual è l'ingrediente speciale del tè Earl Grey?"
  • L'Echo rileva la parola sveglia, Alexa, utilizzando la propria elaborazione a bordo
  • Echo trasmette la richiesta ai data center di Amazon
  • All'interno del data center Amazon, il flusso vocale viene convertito in fonemi (carico di lavoro Inference AI)
  • Sempre nel data center, i fonemi vengono convertiti in parole (carico di lavoro inferenza AI)
  • Le parole sono assemblate in frasi (carico di lavoro inferenza AI)
  • Le frasi vengono distillate in intenti (carico di lavoro inferenza AI)
  • L'intento viene indirizzato a un servizio di adempimento appropriato, che restituisce una risposta come documento JSON
  • Il documento JSON viene analizzato, incluso il testo per la risposta di Alexa
  • La forma del testo della risposta di Alexa viene convertita in un discorso dal suono naturale (carico di lavoro inferenza AI)
  • L'audio vocale naturale viene ritrasmesso in streaming al dispositivo Echo per la riproduzione: "È olio di bergamotto e arancia".
  • Annuncio pubblicitario

    Come puoi vedere, quasi tutto il lavoro effettivo svolto per soddisfare una richiesta di Alexa avviene nel cloud, non in un dispositivo Echo o Echo Dot stesso. E la stragrande maggioranza di quel lavoro sul cloud non viene eseguita dalla tradizionale logica if-then ma dall'inferenza, che è l'aspetto che fornisce la risposta dell'elaborazione della rete neurale.

    Secondo Stormacq, lo spostamento di questo carico di lavoro di inferenza dall'hardware della GPU Nvidia al chip Inferentia di Amazon ha comportato un costo inferiore del 30% e un miglioramento del 25% della latenza end-to-end sui carichi di lavoro text-to-speech di Alexa. Amazon non è l'unica azienda che utilizza il processore Inferentia: il chip alimenta le istanze Amazon AWS Inf1, che sono disponibili al pubblico in generale e competono con le istanze G4 di Amazon basate su GPU.

    Il kit di sviluppo software AWS Neuron di Amazon consente agli sviluppatori di machine learning di utilizzare Inferentia come target per framework popolari, tra cui TensorFlow, PyTorch e MXNet.

    Immagine dell'elenco di Amazon