当大模型失去“品牌光环”,你还能分辨出谁更聪明吗?我做了一个 AI 盲测竞技场 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
如果想在 V2EX 获得更好的推广效果,欢迎了解 PRO 会员机制:
pro/about
lanweizhujiao

当大模型失去“品牌光环”,你还能分辨出谁更聪明吗?我做了一个 AI 盲测竞技场

  •  
  •   lanweizhujiao 3 月 29 日 4017 次点击

    最近我在死磕 AI Agent 的评估技术,看了市面上五花八门的评测榜单,又去深入研究了各种复杂的 AI 辅助评估体系(比如让 GPT-4 当裁判)、RAGAS 等等。

    但看来看去,总觉得心里缺点什么。

    现在的模型评测痛点真的太明显了:

    1. 指标太冰冷:各种学术化的分数堆叠在一起,当模型真正面对普通用户的闲聊、吐槽或者是各种稀奇古怪的需求时,那些干瘪的指标根本体现不出哪个模型更有“人情味”和灵性。
    2. AI 当裁判的偏见:用强模型做评委( LLM-as-a-Judge )不仅贵,而且这些模型特别喜欢“给自己打高分”(也就是自我偏好),或者是哪个答案长就选哪个。
    3. 真实声音太少:其实最有效、最能反映用户诉求的评测,就是真实用户的“用脚投票”( RLHF 人类偏好数据),然而市面上能让普通人低门槛参与进来的开源趣味测评并不多。

    所以,我索性自己动手糊了一个小项目:AI Evolution Arena ( AI 进化竞技场)

    体验地址在这里: https://arena.angrach.top/

    简单来说,这是一个 大模型盲测与评测平台

    它是怎么玩的?

    • 双开盲盒:当你进入竞技场,系统会自动在幕后随机抽选两个匿名大模型(可能是通义、GPT 、或者是某个黑马模型)。
    • 匿名对战:你可以尽情地抛给它们任何问题写代码、讲笑话、甚至情感咨询。两个模型会同时流式输出答案,这个时候你是看不到它们名字的。
    • 必须站队:抛开了排版和品牌的先入为主,你只能单凭“谁这盘回答得好”来选择偏好(左边好 / 右边好 / 都好 / 都烂)。
    • 揭开真名:当你投完票,才会揭晓这两位选手的“真面目”。那一刻你可能会惊呼:“什么?我刚才居然觉得 XXX 比 GPT 还要顺眼?”

    我最初做这个项目的初衷真的就是为了 撕掉大模型的厂牌标签,回归到“回答内容本身”

    它没有任何登录注册的门槛,即开即用。所有的流式渲染、打字机效果我都做了仔细的优化,只为给你最流畅的对阵体验。希望你能来玩一玩,哪怕只是偶尔遇到了什么无解的问题,顺手丢进竞技场,看看两个神秘模型谁能给你更好的启示。

    平台刚上线,后续我还会把胜率排行榜( Leaderboard )慢慢完善起来。你的每一次投票,其实都在帮我们沉淀一份最真实、最宝贵的人类偏好数据。

    26 条回复
    lanweizhujiao
        1
    lanweizhujiao  
    OP
       3 月 29 日
    昨晚熬到三点把那个「 AI 竞技场」的小玩具终于部署上线了,现在坐在工位上还有点恍惚。

    其实起因特别简单前阵子我在研究怎么给手里的 Agent 选基座模型,看了无数测评榜单,MMLU 分数一个比一个高,但实际用起来总觉得哪里不对。后来我发现一个问题:**当我看到「 GPT-4 」这个 logo 的时候,潜意识里就已经给它加分了**;而看到某些国产模型的名字时又会不自觉地带着偏见去挑刺。

    这让我想起以前看过的百事挑战实验。于是我就想:**如果我把所有模型的名字都藏起来呢?**

    说干就干。上周末推掉了所有社交活动在家糊了这个小网站:

    **https://arena.anqrach.top/**

    它长得特别朴素甚至有点简陋你进去之后输入任何问题系统会随机抽两个匿名模型同时给你回答你看不到任何品牌标识只能凭直觉判断左边好还是右边好或者都很烂。**只有当你投完票那一刻才会揭晓刚才跟你对话的到底是谁**可能是 Claude 也可能是某个开源小模型或者是通义千问...

    我自己测试了几天发现这事儿特魔幻有好几次我觉得「这回答逻辑清晰还有人情味肯定是 GPT 吧」结果揭开一看是某个我之前完全没正眼瞧过的小众模型;也有那种看着很华丽但其实空洞无物的答案最后发现是大厂旗舰款瞬间有种被品牌光环骗了的感觉。

    说实话这个项目没什么技术含量就是 FastAPI+React 的简单拼接甚至代码写得还挺糙的流式输出那块调了很久才不让两边打架但我自己玩得挺上瘾因为它真的逼着我回归到了内容本身而不是在看牌子下菜碟儿。

    如果你今天摸鱼无聊或者正好在纠结该用哪个 AI 不妨来扔几个问题试试手气不用注册打开就能玩要是遇到了什么离谱的对局结果欢迎截图发给我看看咱们一起祛祛魅
    Adven
        2
    Adven  
       3 月 29 日
    可以考虑下让其中一个大模型去给其他的各个大模型的回答打分。
    sddyzm
        3
    sddyzm  
    PRO
       3 月 29 日
    这个方向不错
    HeyWeGo
        4
    HeyWeGo  
       3 月 29 日
    进步
    tancy
        5
    tancy  
       3 月 29 日 via Android
    抽中的两个回答问题,没抽中的抽 n 个来给它俩打分,去掉一个最高分去掉一个最低分,计算平均分
    还能让提问者加入打分,通过权重来计算总得分
    还能通过得分累计系统,得分越高的模型打分权重也越高
    coderluan
        6
    coderluan  
       3 月 29 日   2
    楼主做之前没问下 ai 有没有类似产品吗,https://arena.ai/挺出名的。
    beasnail
        7
    beasnail  
       3 月 29 日 via Android
    @coderluan 哈哈刚想说这个,这已经是权威网站了
    limhiaoing
        8
    limhiaoing  
       3 月 29 日
    @coderluan 看到标题我也想到了这个
    icyalala
        9
    icyalala  
       3 月 29 日
    大模型竞技场一直都是知名榜单啊: https://arena.ai/leaderboard
    lanweizhujiao
        10
    lanweizhujiao  
    OP
       3 月 29 日
    @tancy 这个不错啊 就是费 token
    lanweizhujiao
        11
    lanweizhujiao  
    OP
       3 月 29 日
    @icyalala 我也刚知道 我说我用 ai 写的时候 ai 怎么这么顺畅 原来它有我不知道的原型啊
    CEBBCAT
        12
    CEBBCAT  
       3 月 29 日   12
    难评。AI 扩写的文案,AI 扩写的软件,AI 生成的一楼
    kuhung
        13
    kuhung  
       3 月 29 日
    其实 up 如果能强调特定人群的话,也许还有机会。arena.ai 的一眼能看出谁强,反正几乎都是新出的。但是垂直领域呢?难说
    Valid
        14
    Valid  
       3 月 29 日
    没告诉结果
    RRL
        15
    RRL  
       3 月 29 日
    很好用
    sharpy
        16
    sharpy  
       3 月 29 日
    应该这么做,你出一个问题,第一个模型答,第二个模型批判第一个模型,然后由你来判断哪个说得更有理
    KevinGreen
        17
    KevinGreen  
       3 月 29 日
    没告诉结果
    lanweizhujiao
        18
    lanweizhujiao  
    OP
       3 月 29 日
    @KevinGreen 3 轮过后 会出现结果的
    cyp0633
        19
    cyp0633  
       3 月 29 日
    鉴于太多人问的问题都太简单了,lmarena 也已经没有什么参考价值了,在最高频问题上回答讨喜,并不代表模型实际解决问题的能力强,更别提还有 Gemini 这种能力很差但很会奉承用户的模型
    lanweizhujiao
        20
    lanweizhujiao  
    OP
       3 月 29 日
    @cyp0633 陆续观察下来 你说的情况是存在的, 后面我会考虑解决方案
    lightyisu
        21
    lightyisu  
       3 月 29 日
    前端做得不错
    Tink
        22
    Tink  
    PRO
       3 月 29 日 via iPhone
    我记得有一个类似的项目
    wangtufly
        23
    wangtufly  
       3 月 30 日 via Android
    要不搞个述职评审,毕竟模型互评去掉最高去掉最低取平均已经是很合理的方式了
    Orchestraa
        24
    Orchestraa  
       3 月 30 日   1
    GPT4 过于古老的名字了 @livid ai 生成内容
    nightlight9
        25
    nightlight9  
       3 月 30 日
    有意思
    Meursau1T
        26
    Meursau1T  
       3 月 30 日
    grok 得益于搜索能力,确实在这种测试中很容易拿分。尝试了几个问题,你竞技场的模型回答的都不如 grok 准确。刚刚跑去 arena 上看了下,grok 就只比 A/和 gemini 3.1 低。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1064 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 96ms UTC 23:15 PVG 07:15 LAX 16:15 JFK 19:15
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86