Alla prova del Grok3, il “più intelligente del mondo”

GRUPPO AIPU WATON (1)

Introduzione

Pensi che Grok3 sarà il "punto di arrivo" dei modelli pre-addestrati?

Elon Musk e il team di xAI hanno lanciato ufficialmente l'ultima versione di Grok, Grok3, durante una diretta streaming. Prima di questo evento, una notevole quantità di informazioni correlate, unita all'entusiasmo promozionale 24 ore su 24, 7 giorni su 7 di Musk, aveva portato le aspettative globali per Grok3 a livelli senza precedenti. Solo una settimana fa, Musk aveva dichiarato con sicurezza durante una diretta streaming, commentando DeepSeek R1, "xAI sta per lanciare un modello di intelligenza artificiale migliore". Dai dati presentati in diretta, Grok3 avrebbe superato tutti gli attuali modelli mainstream nei benchmark per matematica, scienze e programmazione, con Musk che ha persino affermato che Grok3 verrà utilizzato per compiti di calcolo relativi alle missioni su Marte di SpaceX, prevedendo "svolte degne del Premio Nobel entro tre anni". Tuttavia, queste sono al momento solo le affermazioni di Musk. Dopo il lancio, ho testato l'ultima versione beta di Grok3 e ho posto la classica domanda trabocchetto per i modelli di grandi dimensioni: "Qual è il più grande, 9.11 o 9.9?" Purtroppo, senza alcun qualificatore o segno, il cosiddetto "Grok3 più intelligente" non è ancora riuscito a rispondere correttamente a questa domanda. Grok3 non è riuscito a identificarne accuratamente il significato.

 

Questo test ha subito attirato l'attenzione di molti amici e, per coincidenza, vari test simili all'estero hanno mostrato che Grok3 aveva difficoltà con domande di fisica/matematica di base come "Quale palla cade per prima dalla Torre di Pisa?". Per questo motivo, è stato ironicamente etichettato come "un genio riluttante a rispondere a domande semplici".

640

Grok3 è buono, ma non è migliore di R1 o o1-Pro.

Grok3 ha riscontrato "fallimenti" in molti test di conoscenza comune nella pratica. Durante l'evento di lancio di xAI, Musk ha dimostrato di usare Grok3 per analizzare le classi e gli effetti dei personaggi del gioco Path of Exile 2, a cui ha dichiarato di giocare spesso, ma la maggior parte delle risposte fornite da Grok3 erano errate. Musk non ha notato questo evidente problema durante la diretta streaming.

 

Questo errore non solo ha fornito ulteriore prova ai netizen d'oltreoceano per deridere Musk per aver "trovato un sostituto" nel gaming, ma ha anche sollevato notevoli preoccupazioni riguardo all'affidabilità di Grok3 nelle applicazioni pratiche. Per un tale "genio", a prescindere dalle sue effettive capacità, la sua affidabilità in scenari applicativi estremamente complessi, come le attività di esplorazione di Marte, rimane in dubbio.

 

Attualmente, molti tester che hanno avuto accesso a Grok3 settimane fa e coloro che hanno testato le funzionalità del modello per poche ore ieri, giungono tutti a una conclusione comune: "Grok3 è buono, ma non è migliore di R1 o o1-Pro".

640 (1)

Una prospettiva critica su "Disruption Nvidia"

Nella presentazione PPT presentata ufficialmente durante il lancio, Grok3 si è dimostrato "molto più avanti" nella Chatbot Arena, ma ciò è stato possibile grazie all'uso intelligente di tecniche grafiche: l'asse verticale della classifica elencava solo i risultati nell'intervallo di punteggio 1400-1300, rendendo l'originale differenza dell'1% nei risultati dei test eccezionalmente significativa in questa presentazione.

640

Nei risultati effettivi del modello di punteggio, Grok3 è solo dell'1-2% superiore a DeepSeek R1 e GPT-4.0, il che corrisponde alle esperienze di molti utenti nei test pratici che non hanno riscontrato "alcuna differenza evidente". Grok3 supera i suoi successori solo dell'1-2%.

640

Sebbene Grok3 abbia ottenuto punteggi superiori a tutti i modelli attualmente testati pubblicamente, molti non lo prendono sul serio: dopotutto, xAI è già stata criticata per "manipolazione del punteggio" nell'era di Grok2. Poiché la classifica ha penalizzato la lunghezza delle risposte, i punteggi sono diminuiti notevolmente, portando gli addetti ai lavori a criticare spesso il fenomeno del "punteggio elevato ma scarsa abilità".

 

Che si tratti di "manipolazione" della classifica o di trucchi di design nelle illustrazioni, rivelano l'ossessione di xAI e Musk per l'idea di "essere in testa alla classifica" nelle capacità dei modelli. Musk ha pagato a caro prezzo questi margini: durante il lancio, si è vantato di aver utilizzato 200.000 GPU H100 (dichiarando "oltre 100.000" durante la diretta streaming) e di aver raggiunto un tempo di addestramento totale di 200 milioni di ore. Questo ha portato alcuni a credere che rappresenti un'altra significativa manna per l'industria delle GPU e a considerare "insensato" l'impatto di DeepSeek sul settore. In particolare, alcuni ritengono che la pura potenza di calcolo sarà il futuro dell'addestramento dei modelli.

 

Tuttavia, alcuni utenti hanno confrontato il consumo di 2000 GPU H800 in due mesi per produrre DeepSeek V3, calcolando che il consumo energetico effettivo di Grok3 durante l'allenamento sia 263 volte superiore a quello di V3. Il divario tra DeepSeek V3, che ha ottenuto 1402 punti, e Grok3 è di poco inferiore a 100 punti. Dopo la pubblicazione di questi dati, molti si sono resi conto che dietro il titolo di Grok3 come "il più potente al mondo" si cela un chiaro effetto di utilità marginale: la logica di modelli più grandi che generano prestazioni più elevate ha iniziato a mostrare rendimenti decrescenti.

640 (2)

Nonostante "punteggio elevato ma bassa capacità", Grok2 disponeva di enormi quantità di dati proprietari di alta qualità provenienti dalla piattaforma X (Twitter) per supportarne l'utilizzo. Tuttavia, durante l'addestramento di Grok3, xAI ha naturalmente incontrato il "limite" che OpenAI si trova attualmente ad affrontare: la mancanza di dati di addestramento premium mette rapidamente a nudo l'utilità marginale delle capacità del modello.

 

Gli sviluppatori di Grok3 e Musk sono probabilmente i primi a comprendere e identificare questi fatti in modo approfondito, motivo per cui Musk ha ripetutamente affermato sui social media che la versione che gli utenti stanno sperimentando ora è "ancora solo una beta" e che "la versione completa verrà rilasciata nei prossimi mesi". Musk ha assunto il ruolo di product manager di Grok3, suggerendo agli utenti di fornire feedback sui vari problemi riscontrati nella sezione commenti. Potrebbe essere il product manager più seguito al mondo.

 

Eppure, nel giro di un giorno, le prestazioni di Grok3 hanno indubbiamente destato allarme tra coloro che speravano di affidarsi a una "massiccia potenza di calcolo" per addestrare modelli di grandi dimensioni più potenti: secondo le informazioni Microsoft disponibili al pubblico, GPT-4 di OpenAI ha una dimensione dei parametri di 1,8 trilioni, oltre dieci volte superiore a quella di GPT-3. Si vocifera che la dimensione dei parametri di GPT-4.5 potrebbe essere ancora maggiore.

 

Con l'aumento delle dimensioni dei parametri dei modelli, anche i costi di addestramento stanno salendo alle stelle. Con la presenza di Grok3, concorrenti come GPT-4.5 e altri che desiderano continuare a "bruciare denaro" per ottenere prestazioni migliori dei modelli attraverso la dimensione dei parametri devono considerare il limite che ora è chiaramente visibile e riflettere su come superarlo. A questo punto, Ilya Sutskever, ex responsabile scientifico di OpenAI, aveva dichiarato lo scorso dicembre: "Il pre-addestramento a cui siamo abituati giungerà al termine", una dichiarazione che è riemersa nelle discussioni, stimolando gli sforzi per trovare la vera strada per l'addestramento di modelli di grandi dimensioni.

640 (3)

Il punto di vista di Ilya ha lanciato l'allarme nel settore. Ha previsto con precisione l'imminente esaurimento dei nuovi dati accessibili, che avrebbe portato a una situazione in cui le prestazioni non avrebbero potuto continuare a essere migliorate attraverso l'acquisizione di dati, paragonandola all'esaurimento dei combustibili fossili. Ha affermato che "come il petrolio, i contenuti generati dagli esseri umani su Internet sono una risorsa limitata". Nelle previsioni di Sutskever, la prossima generazione di modelli, dopo il pre-addestramento, avrà una "vera autonomia" e capacità di ragionamento "simili al cervello umano".

 

A differenza degli attuali modelli pre-addestrati che si basano principalmente sul content matching (basato sul contenuto del modello precedentemente appreso), i futuri sistemi di intelligenza artificiale saranno in grado di apprendere e definire metodologie per risolvere i problemi in modo simile al "pensiero" del cervello umano. Un essere umano può raggiungere una competenza fondamentale in una materia con la sola letteratura professionale di base, mentre un modello di intelligenza artificiale di grandi dimensioni richiede milioni di punti dati per raggiungere anche solo l'efficacia di base di livello base. Anche modificando leggermente la formulazione, queste domande fondamentali potrebbero non essere correttamente comprese, a dimostrazione del fatto che il modello non ha realmente migliorato l'intelligenza: le domande fondamentali ma irrisolvibili menzionate all'inizio dell'articolo rappresentano un chiaro esempio di questo fenomeno.

微信图片_20240614024031.jpg1

Conclusione

Tuttavia, al di là della forza bruta, se Grok3 riuscisse davvero a rivelare al settore che "i modelli pre-addestrati stanno per esaurirsi", ciò comporterebbe implicazioni significative per il settore.

Forse, una volta che la frenesia che circonda Grok3 si sarà gradualmente placata, assisteremo ad altri casi come quello di Fei-Fei Li, che "ha messo a punto modelli ad alte prestazioni su uno specifico set di dati per soli 50 dollari", scoprendo infine la vera strada verso l'AGI.

Trova la soluzione per cavi ELV

Cavi di controllo

Per cavi BMS, BUS, industriali e di strumentazione.

Sistema di cablaggio strutturato

Rete e dati, cavo in fibra ottica, cavo di collegamento, moduli, mascherina

Rassegna Mostre ed Eventi 2024

16-18 aprile 2024 Middle-East-Energy a Dubai

16-18 aprile 2024 Securika a Mosca

9 maggio 2024 Evento di lancio di nuovi prodotti e tecnologie a Shanghai

22-25 ottobre 2024 SICUREZZA CINA a Pechino

19-20 novembre 2024 MONDO CONNESSO KSA


Data di pubblicazione: 19 febbraio 2025