赛博斗蛐蛐, AI 模型的简单对比(白嫖版) - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
请不要在回答技术问题时复制粘贴 AI 生成的内容
nuII

赛博斗蛐蛐, AI 模型的简单对比(白嫖版)

  •  
  •   nuII 4 days ago 1021 views
    目前对于各 AI 应用的需求没有太深入,只是当作日常生活自动化的补充,更像是个人助手,并且 Gemini 3 flash preview 和 Grok 足够用,所以也没到订阅的程度,就一直在免费的几家里面来回切换,之前还一直用 Grok ,但是晚上用老是提示繁忙,就换成 Gemini 了。

    平时的需求也不复杂,没有长的上下文,正好这次遇到了脚本相关的任务和规划类任务,就在几个 AI 产品里都跑了下。实际结果也挺符合直觉的,以下是结果名次,没错就 1 个,其他的都拉完了。

    ## Google Gemini 3.1 Falsh lite
    ### 脚本任务

    > 背景是误删的移动硬盘数据,通过工具恢复出来了,但是一些文件有移动或者删除过,可能存在重复恢复,并且一些数据的 meta data 丢失,所以都是时间戳和设备命名的散乱、重复文件,需要简单的从文件名上初步区分出来,比如 example.jpg 和 example_1.jpg ,可能有 1 个以上的重复项,但最多不超过 9 个,所以是非常简单了。逻辑处理也不复杂,bash 本身就足够解决。

    **- 提示词**



    **- 生成脚本:扫描重复项**



    **- 生成脚本 2:扫描并总结为 csv**

    > 生成的很好,完全符合需求



    ### 识别、搜索和总结归纳任务

    > 背景是网上其他人整理的万豪飞猪闪促叠加 Q1 活动后,各个酒店的折算成本归类,截图表格里的数据非常详细,包括酒店名、所在省份、预估折算成本等,需要让 AI 先识别截图中的内容,然后找到指定价格范围内预估折算成本相符的酒店,并按地理位置分类,从西安开车出发去上海,筛选有哪些城市有符合条件的万豪酒店。同时城市之间的单程行车距离不超过 400km ,对应下来是 4-5 小时路程。这个其实很复杂,所以没有一个免费工具能跑出来,从 OCR 识别这里就开始出现幻觉了,越到后面幻觉越多,最终的结果就是纯编,Gemini 也一样。

    **- 思考过程**

    > 识别的还不错,酒店名和对应字段的折算成本价格部分能对应上,但有内容范围限制,并且在识别阶段就出现了幻觉,比如苏州尼伊格罗明显是 GHA 的,不是万豪,关键表格里也没有这个酒店,不知道是识别错了后找了个最相近的,还是没识别出来瞎写的。


    **- 输出结果**

    > 无中生有,商丘没有万枫。。。



    ### 技术知识和操作修改

    > Arch Linux + Hyprland ,4K 120hz 的 16 寸笔记本 200%缩放桌面环境下运行 4.0 版的微信 AppImage ,缩放异常,让 AI 识别并修复。还不错,正确的回答出了微信 Linux 4.0 版的技术栈,并且没有被我的提示词里猜测是 Eletron 系 App 而给出的修复参数给误导,给出了正确的缩放修复操作。

    **输出结果**



    ## MiniMax 网页版
    ### 脚本任务
    **- 脚本提示词**



    **- 思考过程**



    **- 脚本扫描结果**

    > 一次输出就能正常运行并且结果符合预期,代码和输出风格有点像 Gemini 。但是第二次总结 csv 的脚本就不行了,生成的 csv 奇奇怪怪,要么少数据要么 head 不对。



    ### 识别、搜索和总结归纳任务

    **- 思考过程**

    > 不知道这些思考的数据从哪来的,思考的逻辑也很乱。已经给出限定条件是从西安到上海,北京、广东和海南地区不应该直接排除了吗



    **- OCR 识别**

    > 幻觉和胡编乱造



    **- 思考时长**

    > 其他几个都写完了,它还在思考



    **- 思考结果**

    > 直接从西安到合肥,提示词里给的驾驶时间限制和两地距离限制完全给忽略了



    **- 结论**

    > 不知道它是不是故意的,西安到合肥的 7-9 小时路程被直接忽略了,只把剩下短的路程时间给写出来了,而这些恰好符合提示词里的限制,这就是 AI 的小把戏吗?思考了这么久,耗时最长,但是就给出这个结果,还是差了很多的,结果也不是纯幻觉,只是故意隐藏了不符合的内容来试图蒙混过关。虽然不合格,但是比较接近了。



    ## Deepseek 网页版
    ### 脚本任务
    **脚本报错**

    > 没招了,脚本改了好几次,就没一次能跑下来的,我也给了当前的环境和版本号信息,就是改不对,这不是什么困难的东西,甚至是搜一搜就能得到的结果。



    ### 技术知识和操作修改
    **输出结果**

    > 微信技术栈就答错了,不知道是不是被我提示词里关于 Eletron 系应用的修复方式给误导了,不及格。



    ## Qwen3-Coder
    ### 脚本任务
    **- 提示词**

    > 提示词都是一样的



    **- 脚本报错**



    **- 脚本报错:1**

    > 情绪价值给的很足。前面已经改了很多版了,真的非常无语,报错的地方比 Deepseek 还低级,实习生水平。



    **- 脚本报错:2**

    > 难绷,回复了报错和环境版本后,它的每个回复后面都会加上"已在 xx 系统下测试通过"。。。。???从哪学来的呢,好难猜啊

    5 replies    2026-04-23 10:50:55 +08:00
    LinusLiu
        1
    LinusLiu  
       4 days ago
    如果还有问题,我将不再提供修改。
    DeepSeek 目前感觉还是 R1 好用些(当然能不用就不用
    andlp
        2
    andlp  
       4 days ago
    你这使用不是偏向于 codeing 技术啊
    这都是免费版的吧 免费版的效果不好,不如付费的 试试 GLM5 之类的 minimax 2.7 就是最新的
    ColoThor
        3
    ColoThor  
       4 days ago
    第一个提示词写的比我 6
    nuII
        4
    nuII  
    OP
       4 days ago
    @LinusLiu 气死我了这破 AI
    nuII
        5
    nuII  
    OP
       4 days ago
    @andlp 横向对比的也是免费的,gemini 能解决,这不是免费和收费的问题哦
    About     Help     Advertise     Blog     API     FAQ     Solana     5406 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 43ms UTC 05:51 PVG 13:51 LAX 22:51 JFK 01:51
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86