当大模型失去“品牌光环”，你还能分辨出谁更聪明吗？我做了一个 AI 盲测竞技场

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

如果想在 V2EX 获得更好的推广效果，欢迎了解 PRO 会员机制：
pro/about

最近我在死磕 AI Agent 的评估技术，看了市面上五花八门的评测榜单，又去深入研究了各种复杂的 AI 辅助评估体系（比如让 GPT-4 当裁判）、RAGAS 等等。

但看来看去，总觉得心里缺点什么。

现在的模型评测痛点真的太明显了：

指标太冰冷：各种学术化的分数堆叠在一起，当模型真正面对普通用户的闲聊、吐槽或者是各种稀奇古怪的需求时，那些干瘪的指标根本体现不出哪个模型更有“人情味”和灵性。
AI 当裁判的偏见：用强模型做评委（ LLM-as-a-Judge ）不仅贵，而且这些模型特别喜欢“给自己打高分”（也就是自我偏好），或者是哪个答案长就选哪个。
真实声音太少：其实最有效、最能反映用户诉求的评测，就是真实用户的“用脚投票”（ RLHF 人类偏好数据），然而市面上能让普通人低门槛参与进来的开源趣味测评并不多。

所以，我索性自己动手糊了一个小项目：AI Evolution Arena （ AI 进化竞技场）。

体验地址在这里： https://arena.angrach.top/

简单来说，这是一个 大模型盲测与评测平台。

它是怎么玩的？

双开盲盒：当你进入竞技场，系统会自动在幕后随机抽选两个匿名大模型（可能是通义、GPT 、或者是某个黑马模型）。
匿名对战：你可以尽情地抛给它们任何问题写代码、讲笑话、甚至情感咨询。两个模型会同时流式输出答案，这个时候你是看不到它们名字的。
必须站队：抛开了排版和品牌的先入为主，你只能单凭“谁这盘回答得好”来选择偏好（左边好 / 右边好 / 都好 / 都烂）。
揭开真名：当你投完票，才会揭晓这两位选手的“真面目”。那一刻你可能会惊呼：“什么？我刚才居然觉得 XXX 比 GPT 还要顺眼？”

我最初做这个项目的初衷真的就是为了 撕掉大模型的厂牌标签，回归到“回答内容本身”。

它没有任何登录注册的门槛，即开即用。所有的流式渲染、打字机效果我都做了仔细的优化，只为给你最流畅的对阵体验。希望你能来玩一玩，哪怕只是偶尔遇到了什么无解的问题，顺手丢进竞技场，看看两个神秘模型谁能给你更好的启示。

平台刚上线，后续我还会把胜率排行榜（ Leaderboard ）慢慢完善起来。你的每一次投票，其实都在帮我们沉淀一份最真实、最宝贵的人类偏好数据。

盲测

评测

26 条回复

lanweizhujiao

3 月 29 日

昨晚熬到三点把那个「 AI 竞技场」的小玩具终于部署上线了，现在坐在工位上还有点恍惚。

其实起因特别简单前阵子我在研究怎么给手里的 Agent 选基座模型，看了无数测评榜单，MMLU 分数一个比一个高，但实际用起来总觉得哪里不对。后来我发现一个问题：**当我看到「 GPT-4 」这个 logo 的时候，潜意识里就已经给它加分了**；而看到某些国产模型的名字时又会不自觉地带着偏见去挑刺。

这让我想起以前看过的百事挑战实验。于是我就想：**如果我把所有模型的名字都藏起来呢？**

说干就干。上周末推掉了所有社交活动在家糊了这个小网站：

**https://arena.anqrach.top/**

它长得特别朴素甚至有点简陋你进去之后输入任何问题系统会随机抽两个匿名模型同时给你回答你看不到任何品牌标识只能凭直觉判断左边好还是右边好或者都很烂。**只有当你投完票那一刻才会揭晓刚才跟你对话的到底是谁**可能是 Claude 也可能是某个开源小模型或者是通义千问...

我自己测试了几天发现这事儿特魔幻有好几次我觉得「这回答逻辑清晰还有人情味肯定是 GPT 吧」结果揭开一看是某个我之前完全没正眼瞧过的小众模型；也有那种看着很华丽但其实空洞无物的答案最后发现是大厂旗舰款瞬间有种被品牌光环骗了的感觉。

说实话这个项目没什么技术含量就是 FastAPI+React 的简单拼接甚至代码写得还挺糙的流式输出那块调了很久才不让两边打架但我自己玩得挺上瘾因为它真的逼着我回归到了内容本身而不是在看牌子下菜碟儿。

如果你今天摸鱼无聊或者正好在纠结该用哪个 AI 不妨来扔几个问题试试手气不用注册打开就能玩要是遇到了什么离谱的对局结果欢迎截图发给我看看咱们一起祛祛魅