iPhone 17 Pro a permis cu succes rularea locală a unui model lingvistic mare de 400 de miliarde de parametri, o performanță care necesită tradițional minimum 200 GB de memorie chiar și atunci când este comprimat.
LLM rulat local pe un iPhone 17 Pro
Modelele lingvistice mari (LLM) cu 400 de miliarde de parametri pot fi rulate doar pe hardware capabil cu o mulțime de memorie, deoarece chiar și o versiune cuantizată sau comprimată necesită minimum 200 GB de RAM. Având în vedere aceste cerințe exigente, iPhone 17 Pro nu pare a fi niciodată prima alegere pentru acest gen de inteligență artificială. Dar dovezile video arată contrariul, deoarece o persoană a demonstrat că generația actuală a Apple a realizat imposibilul. Cu toate acestea, trebuie menționat că această performanță nu ar putea fi realizată fără câteva trucuri ingenioase, așa că haideți să vedem aceste detalii.
Un proiect open-source numit Flash-MoE rula pe un iPhone 17 Pro, utilizatorul X @anemll demonstrând că, deși flagship-ul poate rula modelul extrem de solicitant, acesta nu este lipsit de dezavantaje. În primul rând, dacă nu ați vizionat deja videoclipul, viteza este îngrozitor de lentă, de 0,6 t/s, ceea ce înseamnă că este generat un cuvânt la fiecare 1,5 până la 2 secunde.
Presupunând că aveți suficientă răbdare sau vă puteți ocupa cu alte sarcini în timp ce iPhone 17 Pro generează răspunsul, credem că mulți utilizatori vor începe să-și smulgă părul din cap când vor observa această performanță lentă. Pe de altă parte, faptul că un LLM de 400B rula pe un smartphone, indiferent de viteză, indică faptul că, cu câteva optimizări suplimentare, este mai mult decât posibil să rulați Modele de Limbaj Mare (LLM) pe dispozitiv chiar și pe telefoane.
Cât despre modul în care s-a realizat acest lucru, în loc să se încarce întregul LLM în memorie, ceea ce ar fi imposibil, deoarece iPhone 17 Pro este livrat doar cu 12 GB de RAM LPDDR5X, Flash-MoE utilizează SSD-ul dispozitivului pentru a transmite direct către GPU. De asemenea, „MoE” înseamnă Mixture of Experts model, deci necesită doar o fracțiune din acești parametri de 400B pentru fiecare cuvânt pe care îl generează.
Pe scurt, cea mai recentă demonstrație arată că, dacă ești dispus să parcurgi procesul minuțios de generare a interogărilor la o rată de 0,6 token-uri pe secundă, poți rula un LLM de 400 de miliarde de parametri pe un smartphone. Pe de altă parte, există o diferență uriașă între a rula un Model de Limbaj Mare (LML) și a-l declanșa într-un mod utilizabil.