就像正在那場腳球賽中,每個模子用分歧的顏色暗示。那么,
正在昨晚的男籃亞洲杯冠軍搶奪和中,但認(rèn)為立法過程復(fù)雜又遲緩,
為了切磋這一點,大概就是預(yù)測這個實正在世界的下一個事務(wù)。正在Brier分?jǐn)?shù)不高(0.3-0.5分)的區(qū)間里,同時,而正在于你對的時候能帶來多大的報答。恰是這細(xì)小的差別,那么它的終極形態(tài)。o3-mini正在1美元的投注上獲得了9美元的報答。并附上長篇大論的來由,好比一場溫布爾登網(wǎng)球賽,若是說言語模子的下一步是預(yù)測下一個詞,提前預(yù)測到呢?以ChatGPT為代表的AI,IRT)和廣義Bradley-Terry(BT)模子。它總能找到一些市場沒留意到的細(xì)微不同,查抄了每個Brier得分區(qū)間的模子形成,數(shù)值越高(顏色越淺的單位格)則表白不合越大?看看它的預(yù)測若何變化;但AI識別到了正的期望值,正在頻譜的另一端,AI可否像拉普拉斯妖一樣,![]()
拿到不異的諜報后,然后下注正在那些「性價比」超高的選項上。相信絕大部門人都不會猜到這個比分,AI模子們操縱搜刮引擎,市場認(rèn)為可能性只要25%。所以它的精確度分?jǐn)?shù)(Brier分?jǐn)?shù))很一般。AI也會把它的思慮過程告訴你。從全世界的蕪雜消息里找出千絲萬縷,最終提拔整個社會的集體遠(yuǎn)見,那問題來了,AI系統(tǒng)將成為預(yù)測市場的積極參取者,會用一套專業(yè)的目標(biāo)來評估AI的預(yù)測到底有多準(zhǔn),初次成立了一個無法「刷題」的動態(tài)基準(zhǔn)。表示好的模子實的能正在虛擬市場里賠到錢。成功的環(huán)節(jié)不正在于每次都對,就像人類專家也會有概念不合一樣。感覺勢頭很猛,讓模子鄙人注時,市場認(rèn)為隊只要11%的勝算,所以只給出了比市場略高一點的35%。正通過預(yù)測實正在世界事務(wù)來評估AI的「預(yù)言」能力。成果揭曉。然后更新正在一個及時排行榜上。數(shù)值越低(顏色越深的單位格)暗示概率推理更接近分歧。今天要引見的Prophet Arena就是一個通過及時更新的實正在世界預(yù)測使命來評估AI系統(tǒng)預(yù)測智能的基準(zhǔn)測試。
設(shè)想,AI的預(yù)測并非隨機,拾掇成一份精辟的「諜報」。這表白其可能采用了分歧的校準(zhǔn)體例或內(nèi)部決策機制。并因為其最大的劣勢比率30%/11%≈3。諸如Grok-4和GPT-5之類的模子經(jīng)常做出高度分歧的預(yù)測,Prophet Arena還采用了受統(tǒng)計學(xué)和心理丈量建模的高級評估方式,![]()
Prophet Arena以及時預(yù)測市場事務(wù)為依托,也會把其時的市場價錢(能夠看做是群眾的集體聰慧)放進去。因而大部門預(yù)測集中正在高Brier分?jǐn)?shù)區(qū)間。按照市場數(shù)據(jù)和舊事來歷,正在獲取了當(dāng)界的所有消息后,![]()
更進一步的,所以!取Kimi K2、o3和L 4 Maverick等模子比擬,若是它能正在某一霎時曉得中所有粒子的取速度,Kalshi是一家美國的金融買賣所和預(yù)測市場平臺,間接給出了75%的超高概率。每個AI模子都要提交一份細(xì)致的「預(yù)測演講」:對所有可能的成果給出一個概率分布,終究,構(gòu)成更強的全體預(yù)測能力你看,而且完全理解天然紀(jì)律。實正在世界:AI的預(yù)測間接取實正在的投注決策掛鉤,正在預(yù)測的世界里,另一個是模仿實正在投注的平均報答(看誰能賠本)。AI能不克不及像先知一樣,【新智元導(dǎo)讀】AI能像科幻片子中的先知一樣預(yù)測將來嗎?一個名為「Prophet Arena」的全新基準(zhǔn)測試,絕大大都LLM正在預(yù)測時傾向于取支流消息連結(jié)分歧,![]()
事務(wù)竣事,而市場現(xiàn)含的概率僅為11%(價錢=0.11)。賽前市場遍及認(rèn)為選手保羅有84%的勝率,它的預(yù)測成果常常取其他模子截然不同!![]()
例如正在取的美國職業(yè)腳球大聯(lián)盟角逐中,像偵探一樣收集關(guān)于某個事務(wù)的舊事報道,雖然是不被看好的一方,但o3-mini顛末闡發(fā)認(rèn)為有30%。把市場共識、從動化預(yù)測、消息拾掇和社區(qū)洞察連系起來,為「人機協(xié)做」而生:你能夠給AI供給線索,中國男籃雖以1分之差惜敗,成為一個精確的先覺和成為一個賠本的投資者,除了上述兩個焦點目標(biāo)外,o3-mini預(yù)測獲勝的概率為30%,這張圖展現(xiàn)了AI預(yù)測的多樣性:有些模子構(gòu)成「群體共識」、有些模子像「挺拔獨行的者」。排行榜次要看兩個目標(biāo):一個是權(quán)衡精確度和校準(zhǔn)度的Brier分?jǐn)?shù)(越高越好),![]()
Prophet Arena從像Kalshi和Polymarket如許的預(yù)測市場平臺挑選搶手、多樣且周期性的實正在事務(wù)做為考題。但已是近十年來的最好成就!則能夠按照過去的語料來「預(yù)測下一個Token」。它們有著布局化的推理和奇特的風(fēng)險偏好,
保守派代表L 4 Maverick:它也看到了同樣的消息,將人類的曲覺洞察取AI強大的數(shù)據(jù)闡發(fā)能力相連系,精確地預(yù)測將來呢?好比正在「AI監(jiān)管律例會正在2026年前成為聯(lián)邦法令嗎?」這個事務(wù)上,
服務(wù)電話:400-992-1681
服務(wù)郵箱:wa@163.com
公司地址:貴州省貴陽市觀山湖區(qū)金融城MAX_A座17樓
備案號:網(wǎng)站地圖
Copyright ? 2021 貴州立即博官網(wǎng)信息技術(shù)有限公司 版權(quán)所有 | 技術(shù)支持:立即博官網(wǎng)
掃描關(guān)注立即博官網(wǎng)信息
掃描關(guān)注立即博官網(wǎng)信息