EuroWire , SAN FRANCISCO : Microsoft introduceerde op 26 januari Maia 200, de tweede generatie van zijn eigen accelerator voor kunstmatige intelligentie, ontworpen om AI-modellen in productie te draaien in Azure-datacenters. Het bedrijf gaf aan dat Maia 200 is ontworpen voor inferentie, de fase waarin getrainde modellen antwoorden genereren op live verzoeken, en zal worden gebruikt ter ondersteuning van een reeks Microsoft AI-services.

De Maia 200 wordt geproduceerd met behulp van TSMC's 3-nanometerproces en bevat meer dan 140 miljard transistors, aldus Microsoft . De chip combineert rekenkracht met een nieuw geheugensysteem dat 216 gigabyte HBM3e high-bandwidth geheugen en ongeveer 272 megabyte on-chip SRAM omvat, bedoeld om grootschalige tokengeneratie en andere inferentie-intensieve taken te ondersteunen.
Microsoft gaf aan dat de Maia 200 meer dan 10 petaflops aan prestaties levert bij 4-bits precisie en ongeveer 5 petaflops bij 8-bits precisie, formaten die veel gebruikt worden om moderne generatieve AI efficiënt uit te voeren. Het bedrijf zei ook dat het systeem is ontworpen met een stroomverbruik van 750 watt en is gebouwd met schaalbare netwerkmogelijkheden, zodat chips gekoppeld kunnen worden voor grotere implementaties.
Het bedrijf meldde dat de nieuwe hardware inmiddels in gebruik wordt genomen in een Azure US Central-datacenter in Iowa, en dat er een extra locatie in Arizona gepland staat. Microsoft omschreef Maia 200 als het meest efficiënte inferentiesysteem dat tot nu toe is ingezet, met een prestatieverbetering van 30% per dollar ten opzichte van de bestaande inferentiesystemen.
Focus op AI-inferentie en implementatie in Azure
Microsoft gaf aan dat Maia 200 bedoeld is ter ondersteuning van AI-producten en -diensten die afhankelijk zijn van grootschalige uitvoering van modellen met lage latentie, waaronder workloads die draaien in Azure en Microsofts eigen applicaties. Het bedrijf zei dat het de chip en het omliggende systeem heeft ontworpen als onderdeel van een end-to-end infrastructuurbenadering die silicium, servers, netwerken en software omvat voor het op grote schaal implementeren van AI-modellen.
Naast de chip kondigde Microsoft ook vroege toegang aan tot een Maia-softwareontwikkelingskit voor ontwikkelaars en onderzoekers die werken aan modeloptimalisatie. Het bedrijf gaf aan dat de tooling bedoeld is om teams te helpen bij het compileren en afstemmen van modellen voor op Maia gebaseerde systemen, en dat de structuur aansluit op gangbare AI-ontwikkelingsworkflows die worden gebruikt voor het implementeren van inferentie in de cloud.
Prestatieclaims en modelondersteuning
Microsoft gaf aan dat de Maia 200 is ontworpen voor het uitvoeren van grote taalmodellen en geavanceerde redeneersystemen, en dat deze zal worden gebruikt voor interne en gehoste modelimplementaties in Azure. Het bedrijf positioneert de chip als een inferentieversneller voor productieomgevingen, waarmee het zich onderscheidt van trainingsgerichte systemen die doorgaans worden gebruikt om modellen te bouwen vóór de implementatie.
Microsoft heeft de ontwikkeling van op maat gemaakte chips versneld, omdat de vraag naar rekenkracht voor generatieve AI-toepassingen is toegenomen. De kosten en beschikbaarheid van accelerators kunnen immers bepalen hoe snel diensten kunnen worden opgeschaald. De Maia 200 volgt op de Maia 100, die Microsoft in 2023 introduceerde, en is de nieuwste versie van Microsofts lijn van AI-acceleratoren voor datacenterinferentie.
Het bericht "Microsoft onthult Maia 200-accelerator, gebouwd voor AI-modelinferentie" verscheen eerst op British Pioneer .
