Per BMS, autobus, industriale, cavo di strumentazione.

Mentre il festival di primavera si chiude, l'eccitazione che circonda Deepseek rimane forte. La recente vacanza ha evidenziato un significativo senso di concorrenza nel settore tecnologico, con molti che hanno discusso e analizzato questo "pesce gatto". La Silicon Valley sta vivendo un senso di crisi senza precedenti: i sostenitori di Open-Source stanno esprimendo di nuovo le loro opinioni e persino Openai sta rivalutando se la sua strategia di sorgente chiusa fosse la scelta migliore. Il nuovo paradigma di costi computazionali più bassi ha innescato una reazione a catena tra giganti dei chip come Nvidia, portando a registrare perdite di valore di mercato di un giorno nella storia del mercato azionario degli Stati Uniti, mentre le agenzie governative stanno studiando la conformità dei chip utilizzati da DeepSeek. Tra le recensioni contrastanti di Deepseek all'estero, a livello nazionale, sta vivendo una crescita straordinaria. Dopo il lancio del modello R1, l'app associata ha visto un aumento del traffico, indicando che la crescita nei settori delle applicazioni guiderà l'ecosistema di AI complessivo. L'aspetto positivo è che DeepSeek amplierà le possibilità di applicazione, suggerendo che fare affidamento su Chatgpt non sarà così costoso in futuro. Questo spostamento è stato riflesso nelle recenti attività di Openi, inclusa la fornitura di un modello di ragionamento chiamato O3-Mini per gli utenti liberi in risposta a Deepseek R1, nonché successivi aggiornamenti che hanno reso la catena di pensiero di O3-Mini. Molti utenti d'oltremare hanno espresso gratitudine a Deepseek per questi sviluppi, sebbene questa catena di pensiero funga da riassunto.
Ottimo, è evidente che DeepSeek sta unificando i giocatori domestici. Concentrandosi sulla riduzione dei costi di formazione, vari produttori di chip a monte, provider di cloud intermedi e numerose startup si stanno attivamente unindo all'ecosistema, migliorando l'efficienza dei costi per l'utilizzo del modello DeepSeek. Secondo DeepSeek's Papers, la formazione completa del modello V3 richiede solo 2,788 milioni di ore GPU H800 e il processo di formazione è altamente stabile. L'architettura MOE (miscela di esperti) è cruciale per ridurre i costi di pre-allenamento di un fattore di dieci rispetto a Llama 3 con 405 miliardi di parametri. Attualmente, V3 è il primo modello riconosciuto pubblicamente che dimostra una così alta scarsità in MOE. Inoltre, l'MLA (attenzione multi -strato) funziona in modo sinergico, in particolare negli aspetti di ragionamento. "Più scarser il moe, maggiore è la dimensione del lotto necessaria durante il ragionamento per utilizzare pienamente la potenza computazionale, con le dimensioni del KVCache che è il fattore di limitazione della chiave; l'MLA riduce significativamente la dimensione di KVCache", ha osservato un ricercatore della tecnologia Chuanjing in un'analisi per la revisione della tecnologia dell'intelligenza artificiale. Nel complesso, il successo di Deepseek sta nella combinazione di varie tecnologie, non solo una. Gli addetti ai lavori del settore lodano le capacità di ingegneria del team DeepSeek, notando la loro eccellenza nella formazione parallela e nell'ottimizzazione degli operatori, ottenendo risultati innovativi perfezionando ogni dettaglio. L'approccio open source di DeepSeek alimenta ulteriormente lo sviluppo complessivo di grandi modelli e si prevede che se modelli simili si espandono in immagini, video e altro ancora, ciò stimolerà significativamente la domanda in tutto il settore.
Opportunità per i servizi di ragionamento di terze parti
I dati indicano che dalla sua versione, DeepSeek ha accumulato 22,15 milioni di utenti attivi giornalieri (dau) in soli 21 giorni, raggiungendo il 41,6% della base di utenti di CHATGPT e superando 16,95 milioni di utenti attivi giornalieri di Doubao, diventando così l'applicazione in più rapida crescita a livello globale, in cima all'App Store di Apple in 157 paesi/regioni. Tuttavia, mentre gli utenti si sono affollati a frotte, gli hacker informatici hanno attaccato incessantemente l'app DeepSeek, causando una sforzo significativo sui suoi server. Gli analisti del settore ritengono che ciò sia parzialmente dovuto all'implementazione di deepSeek per la formazione, pur priva di un potere computazionale sufficiente per il ragionamento. Un addetto ai lavori del settore ha informato la revisione della tecnologia AI: "I problemi del server frequenti possono essere risolti facilmente addebitando commissioni o finanziamenti per acquistare più macchine; in definitiva, dipende dalle decisioni di DeepSeek". Ciò presenta un compromesso per concentrarsi sulla tecnologia rispetto alla produzione. DeepSeek ha in gran parte fatto affidamento sulla quantizzazione quantistica per l'autosufficienza, avendo ricevuto pochi finanziamenti esterni, con conseguente pressione relativamente bassa del flusso di cassa e un ambiente tecnologico più puro. Attualmente, alla luce dei problemi di cui sopra, alcuni utenti esortano Deep -Withing sui social media per elevare le soglie di utilizzo o introdurre funzionalità a pagamento per migliorare il comfort degli utenti. Inoltre, gli sviluppatori hanno iniziato a utilizzare l'API ufficiale o le API di terze parti per l'ottimizzazione. Tuttavia, la piattaforma aperta di Deepseek ha recentemente annunciato: "Le risorse del server attuali sono scarse e le ricariche del servizio API sono state sospese".
Ciò apre senza dubbio maggiori opportunità per i venditori di terze parti nel settore delle infrastrutture AI. Di recente, numerosi giganti nazionali e internazionali del cloud hanno lanciato le API del modello di Deepseek: i giganti di Overseas Microsoft e Amazon sono stati tra i primi a unirsi alla fine di gennaio. Il leader domestico, Huawei Cloud, ha fatto la prima mossa, rilasciando DeepSeek R1 e V3 Services in collaborazione con il flusso basato sul silicio il 1 ° febbraio. I rapporti della tecnologia AI indicano che i servizi di Flow basati su silicio hanno visto un afflusso di utenti, efficacemente "in crash" la piattaforma. Le tre grandi aziende tecnologiche-Bat (Baidu, Alibaba, Tencent) e Bytedance-hanno anche emesso offerte a basso costo a basso costo a partire dal 3 febbraio, che ricordano le guerre del prezzo cloud dell'anno scorso innestate dal lancio del modello V2 di Deepseek, dove Deepseek ha iniziato a essere soprannominata il "Butcher Price". Le azioni frenetiche dei fornitori di cloud fanno eco ai precedenti forti legami tra Microsoft Azure e Openi, dove nel 2019 Microsoft ha effettuato un sostanziale investimento da 1 miliardo di dollari in OpenAI e hanno raccolto benefici dopo il lancio di CHATGPT nel 2023. Tuttavia, questa stretta relazione ha iniziato a sfilare a sfilata dopo il meta un Llama Opending Llama, permettendo ad altri Venditori di Microsoft. In questo caso, DeepSeek non solo ha superato GHATGPT in termini di calore del prodotto, ma ha anche introdotto modelli open source in seguito alla versione O1, simile all'eccitazione che circonda il risveglio di GPT-3 di Llama.
In realtà, i fornitori di cloud si stanno anche posizionando come gateway di traffico per applicazioni di intelligenza artificiale, il che significa che l'approfondimento dei legami con gli sviluppatori si traduce in vantaggi preventivi. I rapporti indicano che Baidu Smart Cloud aveva oltre 15.000 clienti che utilizzavano il modello DeepSeek tramite la piattaforma Qianfan nel giorno di lancio del modello. Inoltre, diverse aziende più piccole offrono soluzioni, tra cui il flusso a base di silicio, la tecnologia Luchen, la tecnologia Chuanjing e vari fornitori di infralimenti di intelligenza artificiale che hanno lanciato supporto per i modelli DeepSeek. La revisione della tecnologia AI ha appreso che le attuali opportunità di ottimizzazione per le distribuzioni localizzate di DeepSeek esistono principalmente in due aree: si sta ottimizzando per le caratteristiche di scarsità del modello MOE utilizzando un approccio di ragionamento misto per distribuire il modello MOE di parametro da 671 miliardi a livello locale mentre utilizzano l'ingresso GPU ibrido/CPU. Inoltre, l'ottimizzazione di MLA è vitale. Tuttavia, i due modelli di Deepseek affrontano ancora alcune sfide nell'ottimizzazione della distribuzione. "A causa delle dimensioni del modello e di numerosi parametri, l'ottimizzazione è effettivamente complessa, in particolare per le distribuzioni locali in cui il raggiungimento di un equilibrio ottimale tra prestazioni e costi sarà impegnativo", ha dichiarato un ricercatore della Chuanjing Technology. L'ostacolo più significativo risiede nel superare i limiti di capacità della memoria. "Adottiamo un approccio di collaborazione eterogeneo per utilizzare pienamente le CPU e altre risorse computazionali, posizionando solo le parti non condivise della matrice MOE sparsa sulla CPU/DRAM per l'elaborazione utilizzando gli operatori della CPU ad alte prestazioni, mentre le porzioni dense rimangono sulla GPU", ha ulteriormente spiegato. I rapporti indicano che il quadro open source di Chuanjing KTransformer inietta principalmente varie strategie e operatori nell'implementazione di Transformers originali attraverso un modello, migliorando significativamente la velocità di inferenza usando metodi come CUDAGRAPH. DeepSeek ha creato opportunità per queste startup, poiché i benefici della crescita stanno diventando evidenti; Molte aziende hanno riportato una notevole crescita dei clienti dopo aver lanciato l'API DeepSeek, ricevendo richieste da clienti precedenti che cercano ottimizzazioni. Gli addetti ai lavori del settore hanno notato: "In passato, i gruppi di clienti in qualche modo affermati venivano spesso bloccati nei servizi standardizzati di aziende più grandi, strettamente vincolati dai loro vantaggi in termini di costi dovuti alla scala. Tuttavia, dopo aver completato lo spiegamento di DeepSeek-R1/V3 prima del Festival di primavera Attualmente, sembra che DeepSeek stia rendendo sempre più critiche le prestazioni di inferenza del modello e, con una più ampia adozione di grandi modelli, ciò continuerà a influenzare in modo significativo lo sviluppo nell'industria dell'infRA AI. Se un modello a livello di profondità potesse essere distribuito localmente a basso costo, aiuterebbe notevolmente gli sforzi di trasformazione digitale del governo e delle imprese. Tuttavia, le sfide persistono, poiché alcuni clienti possono contenere grandi aspettative riguardo a grandi capacità modello, rendendo più evidente che l'equilibrio e il costo diventa vitale nella distribuzione pratica.
Per valutare se DeepSeek è migliore di CHATGPT, è essenziale comprendere le loro differenze chiave, i punti di forza e i casi d'uso. Ecco un confronto completo:
Caratteristica/aspetto | Deep -Week | Chatgpt |
---|---|---|
Proprietà | Sviluppato da un'azienda cinese | Sviluppato da Openai |
Modello di origine | Open-source | Proprietario |
Costo | Libero di usare; Opzioni di accesso API più economiche | Prezzi di abbonamento o pay-per-utilizzo |
Personalizzazione | Altamente personalizzabile, consentendo agli utenti di modificare e costruirlo su di esso | Personalizzazione limitata disponibile |
Prestazioni in compiti specifici | Eccelle in determinate aree come l'analisi dei dati e il recupero delle informazioni | Versatile con forti prestazioni nella scrittura creativa e nelle attività conversazionali |
Supporto linguistico | Forte attenzione alla lingua e alla cultura cinese | Supporto linguaggio ampio ma incentrato negli Stati Uniti |
Costo di allenamento | Costi di allenamento inferiori, ottimizzati per l'efficienza | Costi di formazione più elevati, che richiedono sostanziali risorse computazionali |
Variazione di risposta | Può offrire risposte diverse, probabilmente influenzate dal contesto geopolitico | Risposte coerenti in base ai dati di formazione |
Pubblico target | Rivolto a sviluppatori e ricercatori che desiderano flessibilità | Rivolto agli utenti generali alla ricerca di funzionalità di conversazione |
Casi d'uso | Più efficiente per la generazione di codice e le attività rapide | Ideale per generare testo, rispondere alle domande e impegnarsi nel dialogo |
Una prospettiva critica su "interruzione di nvidia"
Al momento, a parte Huawei, diversi produttori di chip domestici come Moore Threads, Muxi, Biran Technology e Tianxu Zhixin si stanno anche adattando ai due modelli di DeepSeek. Un produttore di chip ha dichiarato all'IA Technology Review, "La struttura di Deepseek dimostra l'innovazione, eppure rimane un LLM. Il nostro adattamento a DeepSeek si concentra principalmente sulle applicazioni di ragionamento, rendendo l'implementazione tecnica abbastanza semplice e rapida". Tuttavia, l'approccio MOE richiede richieste più elevate in termini di archiviazione e distribuzione, unito alla garanzia della compatibilità durante la distribuzione con i chip domestici, presentando numerose sfide ingegneristiche che necessitano di una risoluzione durante l'adattamento. "Attualmente, il potere computazionale domestico non corrisponde a NVIDIA in usabilità e stabilità, che richiede la partecipazione originale di fabbrica per l'impostazione dell'ambiente software, la risoluzione dei problemi e l'ottimizzazione delle prestazioni fondamentali", ha detto un professionista del settore basato sull'esperienza pratica. Allo stesso tempo, "A causa della grande scala dei parametri di DeepSeek R1, la potenza computazionale domestica richiede più nodi per la parallelizzazione. Inoltre, le specifiche hardware domestiche sono ancora in qualche modo dietro; ad esempio, Huawei 910B attualmente non può supportare l'inferenza FP8 introdotta da Deepseek." Uno dei punti salienti del modello DeepSeek V3 è l'introduzione di un framework di addestramento a precisione mista FP8, che è stato convalidato efficacemente su un modello estremamente grande, segnando un risultato significativo. In precedenza, i principali attori come Microsoft e Nvidia hanno suggerito un lavoro correlato, ma dubbi sul settore per quanto riguarda la fattibilità. Resta inteso che rispetto a INT8, il vantaggio primario di FP8 è che la quantizzazione post-formazione può ottenere una precisione quasi senza perdita di perdita migliorando in modo significativo la velocità di inferenza. Quando si confronta con FP16, FP8 può realizzare un'accelerazione fino a due volte sull'H20 di NVIDIA e oltre 1,5 volte l'accelerazione sull'H100. In particolare, poiché le discussioni sulla tendenza della potenza computazionale domestica più i modelli domestici guadagnano slancio, la speculazione sul fatto che il nvidia possa essere interrotto e se il fossato CUDA potrebbe essere bypassato, sta diventando sempre più diffusa. Un fatto innegabile è che DeepSeek ha effettivamente causato un calo sostanziale del valore di mercato di Nvidia, ma questo spostamento solleva domande relative all'integrità di potenza computazionale di fascia alta di Nvidia. Le narrazioni precedentemente accettate sull'accumulo computazionale guidato dal capitale sono state sfidate, ma rimane difficile per Nvidia essere completamente sostituiti negli scenari di formazione. L'analisi del profondo utilizzo di CUDA di Deepseek mostra che la flessibilità, come l'utilizzo di SM per la comunicazione o la manipolazione diretta delle carte di rete, non è possibile per le GPU normali per accogliere. I punti di vista del settore sottolineano che il fossato di Nvidia racchiude l'intero ecosistema CUDA piuttosto che solo il CUDA stesso e le istruzioni PTX (esecuzione del thread parallela) che DeepSeek impiega fa ancora parte dell'ecosistema CUDA. "A breve termine, il potere computazionale di Nvidia non può essere bypassato: questo è particolarmente chiaro nella formazione; tuttavia, distribuire carte domestiche per il ragionamento sarà relativamente più semplice, quindi i progressi saranno probabilmente più veloci. L'adattamento delle carte domestiche si concentra principalmente sulla revisione della tecnologia. Nel complesso, dal punto di vista dell'inferenza, le circostanze sono incoraggianti per chip di grandi modelli domestici. Le opportunità per i produttori di chip domestici all'interno del regno dell'inferenza sono più evidenti a causa dei requisiti eccessivamente elevati della formazione, che ostacolano l'ingresso. Gli analisti sostengono che semplicemente sfruttando le carte di inferenza domestica; Se necessario, l'acquisizione di una macchina aggiuntiva è fattibile, mentre i modelli di addestramento pone sfide uniche: gestire un numero maggiore di macchine può diventare oneroso e tassi di errore più elevati possono avere un impatto negativo sugli esiti di allenamento. La formazione ha anche requisiti specifici della scala dei cluster, mentre le richieste di cluster per l'inferenza non sono così rigorose, facilitando così i requisiti GPU. Attualmente, le prestazioni della singola scheda H20 di Nvidia non superano quella di Huawei o Cambrian; La sua forza sta nel clustering. Sulla base dell'impatto complessivo sul mercato del potere computazionale, il fondatore di Luchen Technology, You Yang, ha osservato in un'intervista con AI Technology Review, "DeepSeek può temporaneamente minare lo stabilimento e il noleggio di una formazione ultra-larga, a lungo termine. domanda nel mercato del potere computazionale ". Inoltre, "L'accresciuta domanda di DeepSeek di ragionamento e servizi di perfezionamento è più compatibile con il panorama computazionale domestico, in cui le capacità locali sono relativamente deboli, contribuendo a mitigare i rifiuti dalle risorse di inattività post-cluster; ciò crea opportunità praticabili per i produttori attraverso diversi livelli di ecosistema computazionale domestico". Luchen Technology ha collaborato con Huawei Cloud per lanciare le API della serie DeepSeek R1 e i servizi di imaging cloud basati sulla potenza computazionale domestica. You Yang ha espresso ottimismo per il futuro: "DeepSeek infonde la fiducia nelle soluzioni prodotte a livello nazionale, incoraggiando un maggiore entusiasmo e investimenti nelle capacità computazionali domestiche in futuro".

Conclusione
Se DeepSeek è "migliore" di CHATGPT dipende dalle esigenze e dagli obiettivi specifici dell'utente. Per le attività che necessitano di flessibilità, a basso costo e personalizzazione, DeepSeek può essere superiore. Per la scrittura creativa, l'indagine generale e le interfacce conversazionali intuitive, CHATGPT può prendere il comando. Ogni strumento ha scopi diversi, quindi la scelta dipenderà notevolmente dal contesto in cui vengono utilizzati.
Cavi di controllo
Sistema di cablaggio strutturato
Rete e dati, cavo in fibra ottica, cavo patch, moduli, facciata
16 aprile-18, 2024 Middle-East-Energy a Dubai
16 aprile-18, 2024 Securika a Mosca
Evento di lancio di nuovi prodotti e tecnologie di maggio.
22 ottobre-25 °, 2024 Cina di sicurezza a Pechino
19 novembre-20, 2024 Connected World KSA
Tempo post: febbraio-10-2025