Apple-onderzoekers ontwikkelen methode om AI-modellen lokaal op iPhones te kunnen draaien

Onderzoekers van Apple hebben een methode ontwikkeld waarmee apparaten van het bedrijf, zoals de iPhones, hun eigen large language models lokaal kunnen draaien, zonder dat dat de beschikbare geheugen van deze apparaten overschrijdt. In een onderzoekspaper schrijft het team dat ze hiervoor een nieuwe techniek hebben ontwikkeld, waarmee de data van het AI-model tijdelijk in het flashgeheugen van het apparaat opgeslagen kan worden, zodat de dram-capaciteit niet wordt ontstijgt (PDF).

Hiervoor wordt gebruikgemaakt van twee methodes die de gegevensoverdracht minimaliseren en de doorvoer maximaliseren. De eerste, 'windowing', zorgt ervoor dat sommige data die reeds is verwerkt, hergebruikt kan worden, en er zodoende minder geheugen opgehaald hoeft te worden. Met 'row-column bundeling' is het vervolgens mogelijk om data te groeperen zodat deze sneller vanuit het flashgeheugen uitgelezen kan worden.

Door deze methodes te combineren zouden AI-modellen die tot twee keer de hoeveelheid beschikbare dram-geheugen van iPhones in beslag nemen, er toch lokaal op kunnen draaien. Ook zou deze techniek vier tot vijf keer sneller werken dan wanneer ze rechtstreeks in cpu's worden geladen, en zelfs twintig tot vijfentwintig sneller dan in gpu's. De onderzoekers spreken van een technologische 'doorbraak' die cruciaal gaat zijn bij 'het inzetten van geavanceerde llm's in omgevingen met beperkte middelen'. Er wordt overigens niet genoemd of dit betekent dat een toekomstige iPhone ook daadwerkelijk on-device AI gaat bevatten.

Bron: Apple-onderzoek (PDF)

« Vorig bericht Volgend bericht »
0