今年才剛剛過去兩個月, AI 模型競技場的火熱程度,堪比年底沖業(yè)績。
就在今天中午,馬斯克預(yù)告的那個號稱 “ 地球上聰明的人工智能 ” Grok 3 ,終于來了。
發(fā)布會還是馬斯克慣有的風(fēng)格,說好的十二點準(zhǔn)時開始,結(jié)果還是晾了大家快二十分鐘。
一個小時的直播,馬斯克攜 xAI 天團(tuán)( 四個人里就有兩位華人 ),從各個方面介紹了 Grok 3 究竟有多厲害。一看紙面數(shù)據(jù),又是吊打諸如谷歌、 OpenAI 和 DeepSeek 等一眾明星公司的招牌模型。
反正直播剛一結(jié)束, X 上就不淡定了,有人已經(jīng)提前體驗上了 Grok 3 , Andrej Karpathy 說它的推理能力跟 o1-pro 差不多,而且還要略優(yōu)于 DeepSeek R1 和 Gemini 的推理模型。
還有老哥用 AI 生成了一個奧特曼看到 Grok 3 發(fā)布后的視頻。。。
國內(nèi)外關(guān)于 Grok 3 的報道也是滿天飛, “ 首個突破 1400 分(模型在 Imarena.ai 競技場的得分 )的模型 ” “ 首個十萬卡集群訓(xùn)練出來的模型 ” 。。。各種 title 看著就唬人。
而世超在第一時間,也觀看了這場發(fā)布會,不能說炸裂,但至少從直播內(nèi)容來看, Grok 3 確實又一次延續(xù)了AI 領(lǐng)域大力出奇跡的神話。
目前, Grok 3 只對部分 X 的 Premium+ 會員開放,所以咱就簡單從發(fā)布會的內(nèi)容給大伙兒介紹,這個 Grok 3 究竟是啥水平。
一上來,就拿 Grok 和 GPT 的模型迭代速度進(jìn)行了對比。
圖上明明標(biāo)著 Others ,但 GPT 是卷卷有爺名,針對性很強。
而在模型性能方面, Grok 3 這次也是鐵了心要跟其他模型爭個高低。
需要注意,根據(jù)官方的介紹,這次的 Grok 3 事實上是一個模型家族,大致可以分為非推理模型和推理模型兩種。
咱先來看非推理模型,也就是 Grok 3 和 Grok 3 mini 。
還是熟悉的 Benchmark 基準(zhǔn)測試, xAI 拉來了 Gemini 2.0 pro 、 DeepSeek V3 、 Claude 3.5 Sonnet 還有 GPT-4o 四個模型,跟自家孩子進(jìn)行對比。
在 AIME ’ 24 數(shù)學(xué)競賽、 GPQA ( 研究生水平科學(xué)知識問答能力的基準(zhǔn)測試 )和代碼三項測試中, Grok 3 的成績?nèi)庋劭梢姼叱隽似渌P鸵淮蠼亍?/strong>
Grok 3 mini 的水平雖然跟其他模型大差不差,但直播中也提到了, mini 版本可以通過犧牲一定程度的準(zhǔn)確性,來換取更快速度的回答。
另外,在 Chatbot Arena 的盲測中, Grok 3 代號叫 “ 巧克力 ” 的早期版本也登上了榜一,分?jǐn)?shù)更是史無前例破了 1400 分。
具體來看,巧克力在整體風(fēng)格控制、編碼、數(shù)學(xué)還有創(chuàng)意寫作等多個方面,全都拿了第一。
主要巧克力還只是早期版本的 Grok 3 ,今天的新版 Grok 3 性能或許還會更強。。。
再來看 Grok 3 的推理模型。
推理模型大家應(yīng)該不陌生,畢竟 OpenAI 的 o1 系列、 o3 mini 還有 DeepSeek R1 ,都已經(jīng)殺紅眼了,思維鏈也不是什么新鮮玩意兒。現(xiàn)在各家上新的模型里,如果不是推理模型,可能都不好意思拿出來。
所以這次, Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning 也代表 xAI 出戰(zhàn)了。
同樣還是紙面實力,表面一看還是吊打的姿態(tài)。
但有個需要注意的地方,這個測試中,加了 Test-Time Compute 。
簡單理解就是給了模型更多的時間去思考,同一個橫坐標(biāo)上顏色淺一點的部分,就是加時賽的成績。
可以看到,如果不算上加時賽, Grok 3 兩個推理模型跟其他模型的差距,并沒有那么大。一旦加了時長,這差距馬上就體現(xiàn)出來了。
換句話說, Grok 3 的推理模型思考的時間越久,表現(xiàn)越好。
在現(xiàn)場,馬斯克他們還展示了 Grok 3 推理模型,在 2025 年 AIME 數(shù)學(xué)競賽上的測試結(jié)果。
說實在的,如果不算上 Test-Time Compute ,好像還是 o3-mini ( high )的推理能力更強。。。
為了證明自己不是說說而已,馬斯克他們在現(xiàn)場直接進(jìn)行了效果演示。
讓 Grok 3 生成 3D 動畫代碼,可以看到模型一步步的思考過程。但他們也提到,這個思考過程是被模糊處理過的,理由跟奧特曼的差不多,都說是為了防止模型被抄襲。
另外,現(xiàn)場還讓 Grok 3 生成一個,結(jié)合了俄羅斯方塊和寶石迷陣兩種游戲規(guī)則的新游戲。
這很難不讓人聯(lián)想到,馬斯克昨天實錘了 xAI 要成立一家 AI 游戲工作室的事情,如果 Grok 3 的游戲制作能力,真的跟現(xiàn)場演示的一樣甚至更強,這對于整個游戲圈的影響都將是巨大的。
而且根據(jù)馬斯克的說法, Grok 3 在未來的兩到三年內(nèi),還可能參與到特斯拉的生產(chǎn)還有火箭發(fā)射的過程當(dāng)中。
后,就是基于 Grok 3 構(gòu)建的 Agent , Deepsearch 。
這玩意兒其實就是個智能搜索引擎,有點像 Perplexity 的 Deep Research 和 OpenAI 的 Deep Research 。
當(dāng)你問 Grok 3 下一次星艦發(fā)射是啥時候,左邊會顯示一個總體的進(jìn)度條,右邊則是展示瀏覽了哪些網(wǎng)頁、對哪些信源進(jìn)行了驗證。。。
后得出了下一次發(fā)射的時間,是 2 月 24 日。
當(dāng)然了,這次 Grok 3 之所以看上去如此強大,拋不開馬斯克老早就在念叨的,只花了 122 天就搭建起來的 10 萬卡集群。
在此之后,他們又花了 92 天擴展到了 20 萬卡集群,一招大力出奇跡,在不到一年的時間里,供出了 Grok 3 。
這段時間大家都在爭論的技術(shù)路線問題,但 Grok 3 的出現(xiàn)似乎再一次證明了,算力的絕對力量。
就是,把 20 萬卡供出來的 Grok 3 和 DeepSeek 的模型放在一起比較,多少有點刻意了。。。
除此之外,馬斯克在前幾天的迪拜峰會上也提到, Grok 3 經(jīng)過了合成數(shù)據(jù)的訓(xùn)練,能夠通過檢查、驗證信息來反思自己的錯誤。
總而言之,這次的 Grok 3 的確算是拿出了點真家伙。
不過世超也注意到,在 Grok3 搶先體驗的用戶分享當(dāng)中,有不少跟宣傳不符的實際測試案例。
就比如這位老哥用同一組 prompt 測試了 Grok 3 、 o3 mini 還有 Claude 3.5 Sonnet ,結(jié)果 Grok 3 翻得有點徹底。。。
在另外一組測試中, o3 mini 的表現(xiàn)也要優(yōu)于 Grok 3 和 DeepSeek R1 。
還有放大鏡選手,直接指出了發(fā)布會演示的案例里,有明顯錯誤。
雖然世超這次沒能實際上手測試,但從外部的一些實測案例來看, Grok 3 似乎也沒有營銷的這么神。
而且這次 Grok 3 上線后,很多人的注意力都放在了模型是否開源上。
根據(jù)馬斯克的說法, xAI 一般是新模型發(fā)布后再開源舊模型,也就是說,就算開源也是老版的 Grok 2 。
看樣子,來自開源陣營的壓力還是不夠大,馬斯克想狙的還是老對手奧特曼。
就是不知道,已經(jīng)在 X 上預(yù)告了的 GPT 4.5 ,能不能打一場翻身仗了,大家就等著看吧。
本文鏈接:http://www.zh1234.com/news43766.html馬斯克用20萬卡集群 做出了比DeepSeek還強的模型