表现好的模型真的能在虚拟市场里赚到钱!个人期货开户流程【新智元导读】AI能像科幻片子中的先知相同预测将来吗?一个名为「Prophet Arena」的全新基准测试,正通过预测真正宇宙事务来评估AI的「预言」才具。
以ChatGPT为代外的AI,则能够依照过去的语料来「预测下一个Token」。
那题目来了,AI能不行像先知相同,从全宇宙的参差音信里寻找蛛丝马迹,无误地预测将来呢?
正在昨晚的男篮亚洲杯冠军夺取战中,中邦男篮虽以1分之差惜败澳大利亚,但已是近十年来的最好劳绩!
确信绝大片面人都不会猜到这个比分,那么,AI能否依照中邦队此前的展现,提前预测到呢?
更进一步的,AI能否像拉普拉斯妖相同,正在获取了当来世界的完全音信后,准确预测将来的全数?
假使它能正在某一倏得清楚宇宙中完全粒子的地点与速率,而且全部贯通自然顺序。
本日要先容的Prophet Arena即是一个通过及时更新的真正宇宙预测职责来评估AI体系预测智能的基准测试。
把商场共鸣、自愿化预测、音信整顿和社区洞察联结起来,造成更强的满堂预测才具
为「人机合营」而生:你能够给AI供应线索,看看它的预测何如转化;AI也会把它的思索经过告诉你。
直面真正宇宙:AI的预测直接与真正的投注决议挂钩,展现好的模子真的能正在虚拟商场里赚到钱。
Prophet Arena以及时预测商场事务为依托,初次筑设了一个无法「刷题」的动态基准。
Prophet Arena从像Kalshi和Polymarket如此的预测商场平台挑选热门、众样且周期性的真正事务行动考题。
Kalshi是一家美邦的金融业务所和预测商场平台,是美邦第一个受美邦商品期货业务委员会(CFTC)拘押的、用心于业务「事务结果」的业务所
AI模子们诈欺寻求引擎,像侦探相同采集合于某个事务的音信报道,整顿成一份精练的「谍报简报」。同时,也会把当时的商场价钱(能够看作是公众的全体聪敏)放进去。
拿到相似的谍报后,每个AI模子都要提交一份精细的「预测呈报」:对完全或许的结果给出一个概率分散,并附上长篇大论的道理,讲明自身为什么这么看。
事务结尾,结果揭晓。会用一套专业的目标来评估AI的预测终于有众准,然后更新正在一个及时排行榜上。
排行榜首要看两个目标:一个是权衡无误度和校准度的Brier分数(越高越好),另一个是模仿真正投注的均匀回报(看谁能获利)。
除了上述两个重点目标外,Prophet Arena还采用了受统计学和心情衡量筑模发动的高级评估措施,如项目反映外面(Item Response Theory,IRT)和广义Bradley-Terry(BT)模子。
正在Brier分数不高(0.3-0.5分)的区间里,反而出生了很众回报率惊人的预测。
比方一场温布尔登网球赛,赛前商场普通以为选手保罗有84%的胜率,以至正在开赛前一度攀升至95%。
恰是这渺小的不同,让模子鄙人注时,以为押注敌手奥夫纳获胜的「性价比」更高。
你看,AI并没有无误预测到胜者,于是它的无误度分数(Brier分数)很通常。
这证实,成为一个无误的先知和成为一个获利的投资者,是两种不全部相似的才具。
为了探求这一点,搜检了每个Brier得分区间的模子组成,每个模子用差别的颜色展现。
绝大无数LLM正在预测时方向于与主流音信依旧相似,所以大片面预测鸠合正在高Brier分数区间。
比方正在「AI拘押准则会正在2026年前成为联邦公法吗?」这个事务上,商场以为或许性惟有25%。
激进派代外Qwen3:它看到各类法案都正在促进,认为势头很猛,直接给出了75%的超高概率。
落后|后进派代外Llama 4 Maverick:它也看到了同样的音信,但以为立法经过纷乱又平缓,于是只给出了比商场略高一点的35%。
AI的预测并非随机,它们有着构造化的推理和怪异的危险偏好,就像人类专家也会有看法差别相同。
比方正在圣地亚哥与众伦众的美邦职业足球大同盟角逐中,o3-mini正在1美元的投注上得到了9美元的回报。
依照商场数据和音信根源,o3-mini预测众伦众获胜的概率为30%,而商场隐含的概率仅为11%(价钱=0.11)。
纵然众伦众是不被看好的一方,但AI识别到了正的盼望值,并因为其最大的上风比率30%/11%≈3。
它总能找到极少商场没留神到的渺小分歧,然后下注正在那些「性价比」超高的选项上。
就像正在上面那场足球赛中,商场以为众伦众队惟有11%的胜算,但o3-mini源委领会以为有30%。
于是,正在预测的宇宙里,得胜的症结不正在于每次都对,而正在于你对的期间能带来众大的回报。
数值越低(颜色越深的单位格)展现概率推理更迫近相似;数值越高(颜色越浅的单位格)则证明差别越大。
此中一个优秀的模子是DeepSeek R1,它的预测结果不时与其他模子截然不同。
与Kimi K2、o3和Llama 4 Maverick等模子比拟,它的L2隔绝永远高于0.7,这证明其或许采用了差别的校准方法或内部决议机制。
正在频谱的另一端,诸如Grok-4和GPT-5之类的模子往往作出高度相似的预测,L2隔绝时时低于0.3。
换句话说,这张图展现了AI预测的众样性:有些模子造成「群体共鸣」、有些模子像「特立独行的贰言者」。
设念,AI体系将成为预测商场的踊跃参预者,将人类的直觉洞察与AI强壮的数据领会才具相联结,最终擢升整体社会的全体远睹,为那些高危险的决议供应更牢靠的凭据。
真相,假使说措辞模子的下一步是预测下一个词,那么它的终极样子,或者即是预测这个真正宇宙的下一个事务。
迥殊声明:以上实质(如有图片或视频亦蕴涵正在内)为自媒体平台“网易号”用户上传并颁发,本平台仅供应音信存储办事。
近50艘声援船启航赶赴加沙!带队的环保少女后相“这宇宙已全部损失人性”
李纯马頔邦庆节官宣成亲,二人恋情韶华线米高台跌掉队,杨宗纬回应身体复原情景
OPPO 超 700 家门店邦庆开业,OPPO CLUB 中邦首店落地深圳
大宝啊大宝!!!妈妈毕竟把你养得还不错了啊!!!!你翻身指日可待了啊!!!
《空之轨迹 the 1st》评测:20年转化了良众,但稳固的是“星之所正在”
《编码物候》展览开张 北京期间美术馆以科学艺术解读数字与生物交错的宇宙节律
-
支付宝扫一扫
-
微信扫一扫