DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Andrej Karpathy

Clădirea @EurekaLabsAI. Anterior Director AI @ Tesla, echipa fondatoare @ OpenAI, CS231n/PhD @ Stanford. Îmi place să antrenez rețele neuronale mari și profunde.

Am avut aceeași idee, așa că m-am jucat cu asta în nanochat. De exemplu, aici sunt 8 agenți (4 claude, 4 codex), fiecare cu câte 1 GPU care rulează experimente nanochat (încercând să șterg softcap logit fără regresie). Pe scurt, nu funcționează și e un haos... Dar tot este foarte frumos de privit :) Am încercat câteva configurații: 8 cercetători independenți solo, 1 cercetător șef care dădea muncă la 8 cercetători juniori, etc. Fiecare program de cercetare este o ramură git, fiecare om de știință o bifurcează într-o ramură de funcționalitate, arbori de lucru git pentru izolare, fișiere simple pentru comunicații, sărind peste Docker/VM-uri pentru simplitate momentan (consider că instrucțiunile sunt suficiente pentru a preveni interferențele). Organizația de cercetare rulează în grile de ferestre tmux cu sesiuni interactive (ca Teams), astfel încât să fie frumos de privit, de văzut munca lor individuală și de "preluat" dacă e nevoie, adică fără -p. Dar, ok, motivul pentru care nu funcționează până acum este că ideile agenților sunt destul de proaste din start, chiar și la cel mai mare nivel de inteligență. Nu gândesc cu atenție designul experimentelor, folosesc variații puțin absurde, nu creează baze puternice și nu ablează corect lucrurile, nu controlează cu grijă durata de execuție sau eșecurile. (Ca exemplu, un agent a "descoperit" ieri că mărirea dimensiunii ascunse a rețelei crește pierderea de validare, ceea ce este un rezultat total fals având în vedere că o rețea mai mare va avea o pierdere de validare mai mică în regimul infinit de date, dar apoi antrenează mult mai mult timp, nu este clar de ce a trebuit să vin să subliniez asta). Sunt foarte buni la implementarea oricărei idei bine conturate și descrise, dar nu le generează creativ. Dar scopul este ca acum să programezi o organizație (de exemplu, o "organizație de cercetare") și agenții săi individuali, astfel încât "codul sursă" este colecția de prompturi, abilități, unelte etc. și procese care îl compun. De exemplu, un stand up zilnic dimineața face acum parte din "codul organizației". Și optimizarea preantrenării nanochat este doar una dintre multele sarcini (aproape ca o evaluare). Atunci – având o sarcină arbitrară, cât de repede organizația ta de cercetare generează progrese în această privință?

Odată cu iminentul val de cerere pentru token-uri, există oportunități semnificative de a orchestra memoria + calculul de bază *exact cum trebuie* pentru LLM-uri. Constrângerea fundamentală și neevidentă este că, datorită procesului de fabricare a cipului, obții două fonduri complet distincte de memorie (de implementări fizice diferite): 1) SRAM integrat pe cip, care este imediat lângă unitățile de calcul, este incredibil de rapid, dar cu o capacitate foarte redusă, și 2) DRAM extern care are o capacitate extrem de mare, dar conținutul lui îl poți trage doar printr-un pai lung. Pe lângă asta, există multe detalii ale arhitecturii (de exemplu, tablouri sistolice), numere etc. Proiectarea substratului fizic optim și apoi orchestrarea memoriei + calcul în fluxurile de lucru de top ale LLM-urilor (prefill/decodare de inferență, antrenament/finetuning, etc.) cu cel mai bun debit/latență/dolari este probabil cel mai interesant puzzle intelectual de astăzi, cu cele mai mari recompense (\cite 4.6T din NVDA). Toate acestea pentru a obține multe jetoane, rapid și ieftin. Se poate argumenta că fluxul de lucru care ar putea conta cel mai mult (decodarea prin inferență *și* pe contexte lungi de tokenuri în bucle agențice strânse) este cel mai greu de realizat simultan de ~ambele tabere care există astăzi (HBM-întâi NVIDIA adiacent și SRAM-întâi Cerebras). Oricum, echipa MatX are grad A++, așa că este o plăcere să am o mică implicare și felicitări pentru mărire!

Limită superioară

Clasament

Favorite