Huawei a găsit o metodă de a accelera AI pentru a rula pe hardware mai vechi

Scris de | 7 octombrie, 2025
Huawei a găsit o metodă de a accelera AI pentru a rula pe hardware mai vechi

O nouă tehnică open source dezvoltată de Huawei micșorează LLM-urile pentru a le face să ruleze pe hardware mai puțin puternic și mai puțin costisitor. Tehnologia are ca scop să reducă cerințele de memorie pentru AI fără a sacrifica calitatea rezultatului.

AI accelerat de Huawei

Tehnica a fost denumită SINQ (Sinkhorn-Normalized Quantization) ;i este concepută pentru a fi rapidă, fără calibrare și ușor de integrat în fluxurile de lucru existente ale modelelor. Codul pentru realizarea acesteia a fost pus la dispoziție de echipa de cercetare Huawei pe Github și Hugging Face sub o licență Apache 2.0 permisivă și ușor de utilizat pentru întreprinderi, permițând organizațiilor să o preia și să o utilizeze, să o modifice și să o implementeze comercial, totul gratuit.

Pentru modele de diferite dimensiuni, SINQ reduce utilizarea memoriei cu 60-70%, în funcție de arhitectură și lățimea în biți. Acest lucru permite modelelor care anterior necesitau >60 GB de memorie să ruleze pe configurații de ~20 GB – un factor esențial pentru rularea modelelor mari pe un singur GPU high-end sau chiar pe configurații multi-GPU de nivel consumer.

Acest lucru face posibilă rularea modelelor care anterior necesitau GPU-uri enterprise de înaltă performanță – cum ar fi NVIDIA A100 sau H100 – pe hardware semnificativ mai accesibil, cum ar fi o singură placă grafică Nvidia GeForce RTX 4090 (în jur de 1600 USD), în loc de hardware enterprise precum A100 80GB (19.000 USD) sau chiar unități H100 care depășesc 30.000 USD.

Pentru echipele care utilizează infrastructură cloud, economiile sunt la fel de tangibile. Instanțele bazate pe A100 costă adesea 3-4,50 USD pe oră, în timp ce GPU-urile de 24 GB, cum ar fi RTX 4090, sunt disponibile pe multe platforme pentru 1-1,50 USD pe oră.

În timp, în special pentru sarcini de lucru extinse cu inferență, această diferență poate duce la reduceri de costuri de mii de dolari, deblocând în același timp implementarea LLM pe clustere mai mici, stații de lucru locale sau configurații de nivel consumer, anterior constrânse de memorie.

Metoda SINQ a fost evaluat[ într-o gamă largă de arhitecturi și modele, inclusiv seria Qwen3, LLaMA și DeepSeek. Pe teste de performanță precum WikiText2 și C4, SINQ reduce constant ratingul de perplexitate – o metrică comună pentru evaluarea modelelor lingvistice. O perplexitate mai mică înseamnă că modelul este mai bun la prezicerea următorului cuvânt dintr-o secvență și, prin urmare, este un model de calitate superioară. Reduce și ratele de schimbare a performanței în comparație cu metodele de bază, adesea apropiindu-se sau egalând performanța soluțiilor calibrate. De asemenea, acceptă scheme de cuantizare neuniforme, cum ar fi NF4, și poate fi combinat cu metode de calibrare precum AWQ, ducând la varianta A-SINQ. În setări calibrate, A-SINQ reduce și mai mult decalajul față de modelele de precizie maximă.

Etichete: , , ,

Sursa: VentureBeat