色奇吧亚洲国产成人精品,日本一区二区三区四区在线

今年才剛剛過(guò)去兩個(gè)月， AI 模型競(jìng)技場(chǎng)的火熱程度，堪比年底沖業(yè)績(jī)。

就在今天中午，馬斯克預(yù)告的那個(gè)號(hào)稱(chēng) “ 地球上聰明的人工智能 ” Grok 3 ，終于來(lái)了。

發(fā)布會(huì)還是馬斯克慣有的風(fēng)格，說(shuō)好的十二點(diǎn)準(zhǔn)時(shí)開(kāi)始，結(jié)果還是晾了大家快二十分鐘。

馬斯克用20萬(wàn)卡集群做出了比DeepSeek還強(qiáng)的模型

一個(gè)小時(shí)的直播，馬斯克攜 xAI 天團(tuán)（四個(gè)人里就有兩位華人），從各個(gè)方面介紹了 Grok 3 究竟有多厲害。一看紙面數(shù)據(jù)，又是吊打諸如谷歌、 OpenAI 和 DeepSeek 等一眾明星公司的招牌模型。

反正直播剛一結(jié)束， X 上就不淡定了，有人已經(jīng)提前體驗(yàn)上了 Grok 3 ， Andrej Karpathy 說(shuō)它的推理能力跟 o1-pro 差不多，而且還要略?xún)?yōu)于 DeepSeek R1 和 Gemini 的推理模型。

馬斯克用20萬(wàn)卡集群做出了比DeepSeek還強(qiáng)的模型

還有老哥用 AI 生成了一個(gè)奧特曼看到 Grok 3 發(fā)布后的視頻。。。

馬斯克用20萬(wàn)卡集群做出了比DeepSeek還強(qiáng)的模型

國(guó)內(nèi)外關(guān)于 Grok 3 的報(bào)道也是滿(mǎn)天飛， “ 首個(gè)突破 1400 分（模型在 Imarena.ai 競(jìng)技場(chǎng)的得分）的模型 ” “ 首個(gè)十萬(wàn)卡集群訓(xùn)練出來(lái)的模型 ” 。。。各種 title 看著就唬人。

而世超在第一時(shí)間，也觀看了這場(chǎng)發(fā)布會(huì)，不能說(shuō)炸裂，但至少?gòu)闹辈?nèi)容來(lái)看， Grok 3 確實(shí)又一次延續(xù)了AI 領(lǐng)域大力出奇跡的神話(huà)。

目前， Grok 3 只對(duì)部分 X 的 Premium+ 會(huì)員開(kāi)放，所以咱就簡(jiǎn)單從發(fā)布會(huì)的內(nèi)容給大伙兒介紹，這個(gè) Grok 3 究竟是啥水平。

一上來(lái)，就拿 Grok 和 GPT 的模型迭代速度進(jìn)行了對(duì)比。

圖上明明標(biāo)著 Others ，但 GPT 是卷卷有爺名，針對(duì)性很強(qiáng)。

馬斯克用20萬(wàn)卡集群做出了比DeepSeek還強(qiáng)的模型

而在模型性能方面， Grok 3 這次也是鐵了心要跟其他模型爭(zhēng)個(gè)高低。

需要注意，根據(jù)官方的介紹，這次的 Grok 3 事實(shí)上是一個(gè)模型家族，大致可以分為非推理模型和推理模型兩種。

咱先來(lái)看非推理模型，也就是 Grok 3 和 Grok 3 mini 。

還是熟悉的 Benchmark 基準(zhǔn)測(cè)試， xAI 拉來(lái)了 Gemini 2.0 pro 、 DeepSeek V3 、 Claude 3.5 Sonnet 還有 GPT-4o 四個(gè)模型，跟自家孩子進(jìn)行對(duì)比。

在 AIME ’ 24 數(shù)學(xué)競(jìng)賽、 GPQA （研究生水平科學(xué)知識(shí)問(wèn)答能力的基準(zhǔn)測(cè)試）和代碼三項(xiàng)測(cè)試中， Grok 3 的成績(jī)?nèi)庋劭梢?jiàn)高出了其他模型一大截。

Grok 3 mini 的水平雖然跟其他模型大差不差，但直播中也提到了， mini 版本可以通過(guò)犧牲一定程度的準(zhǔn)確性，來(lái)?yè)Q取更快速度的回答。

馬斯克用20萬(wàn)卡集群做出了比DeepSeek還強(qiáng)的模型

另外，在 Chatbot Arena 的盲測(cè)中， Grok 3 代號(hào)叫 “ 巧克力 ” 的早期版本也登上了榜一，分?jǐn)?shù)更是史無(wú)前例破了 1400 分。

馬斯克用20萬(wàn)卡集群做出了比DeepSeek還強(qiáng)的模型

具體來(lái)看，巧克力在整體風(fēng)格控制、編碼、數(shù)學(xué)還有創(chuàng)意寫(xiě)作等多個(gè)方面，全都拿了第一。

馬斯克用20萬(wàn)卡集群做出了比DeepSeek還強(qiáng)的模型

主要巧克力還只是早期版本的 Grok 3 ，今天的新版 Grok 3 性能或許還會(huì)更強(qiáng)。。。

再來(lái)看 Grok 3 的推理模型。

推理模型大家應(yīng)該不陌生，畢竟 OpenAI 的 o1 系列、 o3 mini 還有 DeepSeek R1 ，都已經(jīng)殺紅眼了，思維鏈也不是什么新鮮玩意兒。現(xiàn)在各家上新的模型里，如果不是推理模型，可能都不好意思拿出來(lái)。

所以這次， Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning 也代表 xAI 出戰(zhàn)了。

同樣還是紙面實(shí)力，表面一看還是吊打的姿態(tài)。

馬斯克用20萬(wàn)卡集群做出了比DeepSeek還強(qiáng)的模型

但有個(gè)需要注意的地方，這個(gè)測(cè)試中，加了 Test-Time Compute 。

簡(jiǎn)單理解就是給了模型更多的時(shí)間去思考，同一個(gè)橫坐標(biāo)上顏色淺一點(diǎn)的部分，就是加時(shí)賽的成績(jī)。

可以看到，如果不算上加時(shí)賽， Grok 3 兩個(gè)推理模型跟其他模型的差距，并沒(méi)有那么大。一旦加了時(shí)長(zhǎng)，這差距馬上就體現(xiàn)出來(lái)了。

換句話(huà)說(shuō)， Grok 3 的推理模型思考的時(shí)間越久，表現(xiàn)越好。

在現(xiàn)場(chǎng)，馬斯克他們還展示了 Grok 3 推理模型，在 2025 年 AIME 數(shù)學(xué)競(jìng)賽上的測(cè)試結(jié)果。

說(shuō)實(shí)在的，如果不算上 Test-Time Compute ，好像還是 o3-mini （ high ）的推理能力更強(qiáng)。。。

馬斯克用20萬(wàn)卡集群做出了比DeepSeek還強(qiáng)的模型

為了證明自己不是說(shuō)說(shuō)而已，馬斯克他們?cè)诂F(xiàn)場(chǎng)直接進(jìn)行了效果演示。

讓 Grok 3 生成 3D 動(dòng)畫(huà)代碼，可以看到模型一步步的思考過(guò)程。但他們也提到，這個(gè)思考過(guò)程是被模糊處理過(guò)的，理由跟奧特曼的差不多，都說(shuō)是為了防止模型被抄襲。

另外，現(xiàn)場(chǎng)還讓 Grok 3 生成一個(gè)，結(jié)合了俄羅斯方塊和寶石迷陣兩種游戲規(guī)則的新游戲。

馬斯克用20萬(wàn)卡集群做出了比DeepSeek還強(qiáng)的模型

這很難不讓人聯(lián)想到，馬斯克昨天實(shí)錘了 xAI 要成立一家 AI 游戲工作室的事情，如果 Grok 3 的游戲制作能力，真的跟現(xiàn)場(chǎng)演示的一樣甚至更強(qiáng)，這對(duì)于整個(gè)游戲圈的影響都將是巨大的。

而且根據(jù)馬斯克的說(shuō)法， Grok 3 在未來(lái)的兩到三年內(nèi)，還可能參與到特斯拉的生產(chǎn)還有火箭發(fā)射的過(guò)程當(dāng)中。

后，就是基于 Grok 3 構(gòu)建的 Agent ， Deepsearch 。

這玩意兒其實(shí)就是個(gè)智能搜索引擎，有點(diǎn)像 Perplexity 的 Deep Research 和 OpenAI 的 Deep Research 。

當(dāng)你問(wèn) Grok 3 下一次星艦發(fā)射是啥時(shí)候，左邊會(huì)顯示一個(gè)總體的進(jìn)度條，右邊則是展示瀏覽了哪些網(wǎng)頁(yè)、對(duì)哪些信源進(jìn)行了驗(yàn)證。。。

馬斯克用20萬(wàn)卡集群做出了比DeepSeek還強(qiáng)的模型

后得出了下一次發(fā)射的時(shí)間，是 2 月 24 日。

當(dāng)然了，這次 Grok 3 之所以看上去如此強(qiáng)大，拋不開(kāi)馬斯克老早就在念叨的，只花了 122 天就搭建起來(lái)的 10 萬(wàn)卡集群。

在此之后，他們又花了 92 天擴(kuò)展到了 20 萬(wàn)卡集群，一招大力出奇跡，在不到一年的時(shí)間里，供出了 Grok 3 。

馬斯克用20萬(wàn)卡集群做出了比DeepSeek還強(qiáng)的模型

這段時(shí)間大家都在爭(zhēng)論的技術(shù)路線問(wèn)題，但 Grok 3 的出現(xiàn)似乎再一次證明了，算力的絕對(duì)力量。

就是，把 20 萬(wàn)卡供出來(lái)的 Grok 3 和 DeepSeek 的模型放在一起比較，多少有點(diǎn)刻意了。。。

除此之外，馬斯克在前幾天的迪拜峰會(huì)上也提到， Grok 3 經(jīng)過(guò)了合成數(shù)據(jù)的訓(xùn)練，能夠通過(guò)檢查、驗(yàn)證信息來(lái)反思自己的錯(cuò)誤。

總而言之，這次的 Grok 3 的確算是拿出了點(diǎn)真家伙。

不過(guò)世超也注意到，在 Grok3 搶先體驗(yàn)的用戶(hù)分享當(dāng)中，有不少跟宣傳不符的實(shí)際測(cè)試案例。

就比如這位老哥用同一組 prompt 測(cè)試了 Grok 3 、 o3 mini 還有 Claude 3.5 Sonnet ，結(jié)果 Grok 3 翻得有點(diǎn)徹底。。。

馬斯克用20萬(wàn)卡集群做出了比DeepSeek還強(qiáng)的模型

在另外一組測(cè)試中， o3 mini 的表現(xiàn)也要優(yōu)于 Grok 3 和 DeepSeek R1 。

馬斯克用20萬(wàn)卡集群做出了比DeepSeek還強(qiáng)的模型

還有放大鏡選手，直接指出了發(fā)布會(huì)演示的案例里，有明顯錯(cuò)誤。

馬斯克用20萬(wàn)卡集群做出了比DeepSeek還強(qiáng)的模型

雖然世超這次沒(méi)能實(shí)際上手測(cè)試，但從外部的一些實(shí)測(cè)案例來(lái)看， Grok 3 似乎也沒(méi)有營(yíng)銷(xiāo)的這么神。

而且這次 Grok 3 上線后，很多人的注意力都放在了模型是否開(kāi)源上。

根據(jù)馬斯克的說(shuō)法， xAI 一般是新模型發(fā)布后再開(kāi)源舊模型，也就是說(shuō)，就算開(kāi)源也是老版的 Grok 2 。

看樣子，來(lái)自開(kāi)源陣營(yíng)的壓力還是不夠大，馬斯克想狙的還是老對(duì)手奧特曼。

就是不知道，已經(jīng)在 X 上預(yù)告了的 GPT 4.5 ，能不能打一場(chǎng)翻身仗了，大家就等著看吧。

本文鏈接：http://www.zh1234.com/news43766.html馬斯克用20萬(wàn)卡集群做出了比DeepSeek還強(qiáng)的模型

聲明：本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí)，若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：2376512515@qq.com。天上從來(lái)不會(huì)掉餡餅，請(qǐng)大家時(shí)刻謹(jǐn)防詐騙