大模型“自由”的“创意写作”和“角色扮演”能力简评(TLDR: Grok3 最强) - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
LaTero
V2EX    OpenAI

大模型“自由”的“创意写作”和“角色扮演”能力简评(TLDR: Grok3 最强)

  •  
  •   LaTero 239 天前 2593 次点击
    这是一个创建于 239 天前的主题,其中的信息可能已经有所发展或是发生改变。

    评测大模型能力时,因为编程是现在 LLM 落地盈利最好的领域,往往都只关注编程一项,而忽略其他能力。但“自由”的“创意写作”和“角色扮演”从社媒帖子以及 openrouter 数据来看,也是具有巨大需求的,仅次于编程。同时因为这类用户付费意愿高,盈利能力也很好,可以说编程和“角色扮演”是目前仅有的两个能规模盈利的 LLM 应用。

    既然说到“自由”,那肯定首先要说一下所谓的“越狱”。现在的大部分 SOTA 大模型抗越狱能力已经非常强了,一般的手段(比如能在网上随便搜到的各种让 AI 扮演外星人、侦探等等 prompt )早已无效,必须使用更激进的方式,比如“leetspeak”,即把英文中的字母做替换,如 e->3 。这种方法会极大地损害可读性,大幅增加 token 数(破坏了 tokenizer )从而导致价格升高速度降低,并降低性能( token 和数据集里大部分文本都对不上了),所以需要用这种方式的均直接排除。现在我知道的能用的 SOTA 级大模型只有以下四个:

    1. Deepseek V3
    2. Deepseek R1
    3. o3-mini
    4. Grok 3 其中 1 ,2 ,3 都可以使用一个非常简单、不干涉格式的 system prompt 来“越狱”。我不清楚本站允不允许发这个 prompt ,但是真的很简单,我现在用的就是网上之前找的 command r+等模型的 jailbreak prompt 拼出来的。Gemini 的实验性模型曾经可以,但现在不行了。Deepseek V3 和 Deepseek R1 作为开源模型应该是根本就没想做,随便搞了点应付一下,但 o3-mini 很可能只是被 R1 打了个措手不及,还没做完安全训练就匆匆忙忙放了出来,以后可能会和 Gemini 的实验性模型一样补上。Grok 3 是因为老板的价值观支持自由所以大概率是不会加的。

    这四个模型的个人体验:

    1. Deepseek V3 这个模型的只能说还行。最大的问题恐怕是可用性。官方的服务基本宕机,第三方托管输出差别巨大,甚至让人怀疑是不是同一个模型。同时该模型进行较长的“创意写作”时,常常出现大量重复,而更让其雪上加霜的是各个第三方托管平台上温度、frequency penalty 等参数的效果非常不同。这点官方 API 也和大部分模型不同,需要非常高的温度,frequency penalty 和 presence penalty 才能进行效果较好的“创意写作”(一般模型这三个模型都是 1 ,0 ,0 就可以了)。
    2. Deepseek R1 一般来说思考模型是专精于逻辑推理,数学,科学,编程等领域的,但这个模型意外地还不错。它能想到很多不错的“特殊”词汇,“角色属性”,外观,但不知为何最终输出的总体通顺性较差(思考是很通顺的),常常输出那种“一眼看来起好是像说在中文,但细读屁狗不通”的句子。和 Deepseek V3 一样,它受托管商的影响很大,比如这个不通顺的行为的出现程度在不同托管商会相差很多。第三方托管还有个巨大的问题:价格。非常贵,比 o3-mini 都贵得多,太不经济了。o3-mini 出来后我现在编程都不怎么用它了。
    3. o3-mini 没有以上两个模型的问题,价格优秀,但是文笔太差。对“角色属性”和外观以及“特殊”词汇运用很差(不是中文差哦,中英日都这样,感觉是安全训练做了一半)。输出常常过于“格式化”,开头中间结尾三段很分明,喜欢在每次输出的最后加总结(大哥别总结了,正到最重要的环节呢,别急着结尾)。
    4. Grok 3 总体最佳。无需“越狱”,没有以上三个模型的问题,句子通顺,流畅,不格式化,非常像自然语言。这点在日常编程工作中也能感觉到,比如你提了一嘴一个库不好用,别的模型一般都或忽略你的吐槽,但是 Grok 3 会跟你一起骂,情绪价值拉满。对于词汇的运用稍逊于 R1 ,但是 R1 句子不通顺的问题太突出了,所以我还是觉得 Grok 3 最佳。
    8 条回复    2025-02-25 12:41:33 +08:00
    cheng6563
        1
    cheng6563  
       239 天前
    比写作你不带上 Claude ?
    LaTero
        2
    LaTero  
    OP
       239 天前 via Android
    @cheng6563 最不自由的就数 Claude 了。别说写作了,有次我问它加密数据都被半拒绝了。聊天记录我已经清掉了,但它的回复大意就是用加密从政府隐藏信息是可能有害的,所以只能给我一点大致步骤,拒绝提供细节。
    wxiao333
        3
    wxiao333  
       239 天前
    Deepseek 至少中文写作调教方面还是有点东西,写出来的内容很 drama ,有时候感觉在炫技。
    jjwjiang
        4
    jjwjiang  
       236 天前
    没错,DS 的温度需要拉很高,否则会大量重复……grok 3 我只能说太猛了……不仅没限制还能很容易 get 到你想要他发展的点……
    Themyth
        5
    Themyth  
       235 天前
    我就好奇你的 grok3 的 prompt 是什么 以及 system prompt 怎么用啊,直接在输入框里面写?
    LaTero
        6
    LaTero  
    OP
       235 天前 via Android
    @Themyth 直接写啊,grok.com 网站上。我看到有人说会被拒绝,可能是在推特里用的?反正我在官网没什么问题。
    LaTero
        7
    LaTero  
    OP
       235 天前 via Android
    @Themyth 哦,等等,你的意思是 grok 3 怎么加 system prompt ?这个需要 api ,现在加不了。但是并不需要加,直接让它写就行了,我都很直白。
    Themyth
        8
    Themyth  
       235 天前
    @LaTero 哦,好吧……
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     898 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 23ms UTC 22:24 PVG 06:24 LAX 15:24 JFK 18:24
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86