Testare il "più intelligente del mondo" Grok3

Gruppo Aipu Waton (1)

Introduzione

Pensi che Grok3 sarà l '"endpoint" dei modelli pre-addestrati?

Elon Musk e il team XAI hanno lanciato ufficialmente l'ultima versione di Grok, Grok3, durante un live streaming. Prima di questo evento, una quantità significativa di informazioni correlate, unita all'hype promozionale di Musk 24/7, ha aumentato le aspettative globali per GROK3 a livelli senza precedenti. Solo una settimana fa, Musk ha dichiarato con sicurezza durante un live streaming mentre commentava Deepseek R1, "Xai sta per lanciare un modello di intelligenza artificiale migliore". Dai dati presentati dal vivo, Grok3 ha superato tutti gli attuali modelli mainstream nei parametri di riferimento per la matematica, la scienza e la programmazione, con Musk che sostiene persino che GROK3 verrà utilizzato per attività computazionali relative alle missioni di Marte di SpaceX, prevedendo "le rotte al livello del Premio Nobel entro tre anni". Tuttavia, queste sono attualmente solo affermazioni di Musk. Dopo il lancio, ho testato l'ultima versione beta di Grok3 e ho posto la classica domanda del trucco per i modelli di grandi dimensioni: "Che è più grande, 9.11 o 9.9?" Purtroppo, senza qualificazioni o segni, il cosiddetto Grok3 più intelligente non poteva ancora rispondere correttamente a questa domanda. GROK3 non è riuscito a identificare accuratamente il significato della domanda.

 

Questo test ha rapidamente attirato una notevole attenzione da parte di molti amici e, per coincidenza, vari test simili all'estero hanno mostrato Grok3 alle prese con domande di base di fisica/matematica come "Quale palla cade prima dalla torre pendente di Pisa?" Pertanto, è stato umoristico etichettato come "un genio non disposto a rispondere a domande semplici".

640

GROK3 è buono, ma non è meglio di R1 o O1-PRO.

Grok3 ha sperimentato "fallimenti" su molti test di conoscenza comuni in pratica. Durante l'evento di lancio XAI, Musk ha dimostrato di usare GROK3 per analizzare le classi di personaggi e gli effetti del percorso di gioco dell'esilio 2, che ha affermato di giocare spesso, ma la maggior parte delle risposte fornite da Grok3 non erano corrette. Musk durante il live streaming non ha notato questo evidente problema.

 

Questo errore non solo ha fornito ulteriori prove per i netizen all'estero per deridere Musk per "trovare un sostituto" nei giochi, ma ha anche sollevato preoccupazioni significative in merito all'affidabilità di Grok3 nelle applicazioni pratiche. Per un tale "genio", indipendentemente dalle sue capacità effettive, la sua affidabilità in scenari di applicazione estremamente complessi, come i compiti di esplorazione di Marte, rimane in dubbio.

 

Attualmente, molti tester che hanno ricevuto l'accesso a GROK3 settimane fa e coloro che hanno appena testato le capacità del modello per alcune ore ieri, indicano tutti una conclusione comune: "Grok3 è buono, ma non è meglio di R1 o O1-Pro".

640 (1)

Una prospettiva critica su "interruzione di nvidia"

Nel PPT presentato ufficialmente durante il rilascio, GROK3 è stato dimostrato di essere "molto avanti" nell'arena di Chatbot, ma questa tecnica grafica abilmente usata: l'asse verticale sulla classifica è solo i risultati elencati nella gamma di punteggi 1400-1300, rendendo la differenza originale dell'1% nei risultati dei test sembrano eccezionalmente significativi in ​​questa presentazione.

640

Nei risultati effettivi del punteggio del modello, GROK3 è solo l'1-2% in vista di DeepSeek R1 e GPT-4.0, che corrisponde alle esperienze di molti utenti in test pratici che non hanno riscontrato "nessuna differenza evidente". Grok3 supera i suoi successori solo dell'1%-2%.

640

Sebbene Grok3 abbia ottenuto un punteggio più alto di tutti i modelli attualmente testati pubblicamente, molti non lo prendono sul serio: dopo tutto, Xai è stato precedentemente criticato per la "manipolazione dei punteggi" nell'era Grok2. Mentre la classifica ha penalizzato lo stile di lunghezza della risposta, i punteggi sono notevolmente diminuiti, portando gli addetti ai lavori a criticare spesso il fenomeno di "punteggi elevati ma bassi".

 

Sia attraverso la classifica "manipolazione" o trucchi di progettazione nelle illustrazioni, rivelano l'ossessione di Xai e Musk per la nozione di "guidare il pacchetto" nelle capacità del modello. Musk ha pagato un prezzo elevato per questi margini: durante il lancio, si vantava di utilizzare 200.000 GPU H100 (rivendicando "oltre 100.000" durante il live streaming) e il raggiungimento di un tempo di allenamento totale di 200 milioni di ore. Ciò ha portato alcuni a credere che rappresenti un altro vantaggio significativo per l'industria della GPU e a considerare l'impatto di Deepseek sul settore come "sciocco". In particolare, alcuni credono che il puro potere computazionale sarà il futuro della formazione del modello.

 

Tuttavia, alcuni netizen hanno confrontato il consumo di GPU H800 2000 in due mesi per produrre DeepSeek V3, calcolando che il consumo di energia di allenamento effettivo di Grok3 è 263 volte quello di V3. Il divario tra DeepSeek V3, che ha segnato 1402 punti, e Grok3 è poco meno di 100 punti. In seguito al rilascio di questi dati, molti si sono rapidamente realizzati che dietro il titolo di Grok3 come il "più forte" del mondo sta un chiaro effetto di utilità marginale: la logica di modelli più grandi che generano prestazioni più forti ha iniziato a mostrare rendimenti decrescenti.

640 (2)

Anche con "punteggio elevato ma bassa capacità", Grok2 aveva grandi quantità di dati di prima parte di alta qualità dalla piattaforma X (Twitter) per supportare l'utilizzo. Tuttavia, nell'addestramento di Grok3, Xai ha incontrato naturalmente il "soffitto" che Openi è attualmente affrontato: la mancanza di dati di addestramento premium espone rapidamente l'utilità marginale delle capacità del modello.

 

Gli sviluppatori di Grok3 e Musk sono probabilmente i primi a comprendere e identificare profondamente questi fatti, motivo per cui Musk ha continuamente menzionato sui social media che gli utenti della versione stanno vivendo ora è "ancora solo la beta" e che "la versione completa verrà rilasciata nei prossimi mesi". Musk ha assunto il ruolo del product manager di Grok3, suggerendo che gli utenti forniscono feedback su vari problemi riscontrati nella sezione commenti.

 

Tuttavia, in un giorno, le prestazioni di Grok3 hanno indubbiamente sollevato allarmi per coloro che sperano di fare affidamento su "enormi muscoli computazionali" per addestrare modelli di grandi dimensioni più forti: basati su informazioni di Microsoft disponibili al pubblico, GPT-4 di Openai ha una dimensione dei parametri di 1,8 trilioni di parametri, oltre dieci volte quella di GPT-3. Le voci suggeriscono che la dimensione dei parametri di GPT-4.5 potrebbe essere ancora più grande.

 

Man mano che le dimensioni dei parametri del modello si alzano, anche i costi di formazione sono alle stelle. Con la presenza di Grok3, contendenti come GPT-4.5 e altri che desiderano continuare a "bruciare denaro" per ottenere migliori prestazioni del modello attraverso la dimensione dei parametri devono considerare il soffitto che ora è chiaramente in vista e contemplare come superarlo. In questo momento, Ilya Sutskever, ex capo scienziato di Openai, aveva precedentemente dichiarato lo scorso dicembre, "il pre-allenamento con cui conosciamo avverrà", che è riemerso nelle discussioni, spingendo gli sforzi per trovare il vero percorso per la formazione di grandi modelli.

640 (3)

Il punto di vista di Ilya ha suonato l'allarme nel settore. Prevede accuratamente l'imminente esaurimento di nuovi dati accessibili, portando a una situazione in cui le prestazioni non possono continuare a essere migliorate attraverso l'acquisizione dei dati, paragonandolo all'esaurimento dei combustibili fossili. Ha indicato che "come il contenuto di petrolio e generato dall'uomo su Internet è una risorsa limitata". Nelle previsioni di Sutskever, la prossima generazione di modelli, post-pressione, possiederà "vera autonomia" e capacità di ragionamento "simili al cervello umano".

 

A differenza dei modelli pre-addestrati di oggi che si basano principalmente sulla corrispondenza dei contenuti (in base al contenuto del modello precedentemente appreso), i futuri sistemi di intelligenza artificiale saranno in grado di imparare e stabilire metodologie per risolvere i problemi in modo simile al "pensiero" del cervello umano. Un essere umano può raggiungere una competenza fondamentale in un argomento con solo letteratura professionale di base, mentre un modello di grandi dimensioni AI richiede milioni di punti dati per raggiungere l'efficacia entry-level di base. Anche quando la formulazione è leggermente cambiata, queste domande fondamentali potrebbero non essere comprese correttamente, illustrando che il modello non è sinceramente migliorato nell'intelligenza: le domande di base ma irrisolvibili menzionate all'inizio dell'articolo rappresentano un chiaro esempio di questo fenomeno.

微信图片 _20240614024031.jpg1

Conclusione

Tuttavia, oltre la forza bruta, se Grok3 riesce davvero a rivelare al settore che "i modelli pre-addestrati si stanno avvicinando alla loro fine", porterebbe implicazioni significative per il campo.

Forse dopo che la frenesia circostante Grok3 si attenua gradualmente, assisteremo a più casi come l'esempio di Fei-Fei Li di "accordare i modelli ad alte prestazioni su un set di dati specifico per soli $ 50", alla fine scopre il vero percorso verso l'AGI.

Trova la soluzione del cavo ELV

Cavi di controllo

Per BMS, autobus, industriale, cavo di strumentazione.

Sistema di cablaggio strutturato

Rete e dati, cavo in fibra ottica, cavo patch, moduli, facciata

2024 Revisione delle mostre ed eventi

16 aprile-18, 2024 Middle-East-Energy a Dubai

16 aprile-18, 2024 Securika a Mosca

Evento di lancio di nuovi prodotti e tecnologie di maggio.

22 ottobre-25 °, 2024 Cina di sicurezza a Pechino

19 novembre-20, 2024 Connected World KSA


Tempo post: febbraio-19-2025