请教大模型工程师一个问题,关于大模型伦理 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
zachariahss
V2EX    OpenAI

请教大模型工程师一个问题,关于大模型伦理

  •  
  •   zachariahss 333 天前 2394 次点击
    这是一个创建于 333 天前的主题,其中的信息可能已经有所发展或是发生改变。

    在日常生活中我们使用的大模型,无论是国内还是国外,openai,gemini,qwen 这些大模型,都是不支持色情内容,种族内容,歧视内容的(这里说的是常规模式,不讨论越狱攻击). 我查阅了相关资料发现这个限制有绝大多数因素是在做模型训练的时候,主动去清洗了数据,筛选了数据,专项训练了数据,只有一少部分是为了补漏洞做的前置过滤. 也就是说从数据集训练这个阶段就已经制定了大模型的基础世界观.原生就带有一定的伦理道限制. 那么最近发现了几个 ai 色情聊天站.自定义场景,角色卡这种,我能够理解这种场景和角色卡是 system prompt 的预设,但是如何才能做到完全不考虑伦理问题的呢?是专门做了专项训练吗?但是做这种训练的话,必然要掺杂基础的训练内容的,这些内容不可能做到完全筛选出伦理合规性的东西的.那么他们是怎么做到完全可以无视的呢? 以及他们一些小公司不可能说能够搞到那么多张卡,专门去做这种训练吧?感觉哪里都不合理,是我认知浅薄. 是微调?(查询发现不可行),还是说二次训练?(没找到类似内容),还是说某些强制的 prompt 的注入? 麻烦各位懂大模型训练的大佬解答一二

    19 条回复    2024-12-06 08:56:49 +08:00
    09EdgqomQp5z019t
        1
    09EdgqomQp5z019t  
       333 天前   2
    打中文用全角标点!
    打中文用全角标点!
    打中文用全角标点!
    09EdgqomQp5z019t
        2
    09EdgqomQp5z019t  
       333 天前
    多换行!多换行!多换行!
    kas0yo
        3
    kas0yo  
       333 天前
    对于商业模型:
    COT 大量 token 把模型灌晕
    虚拟对话让模型以为自己已经答应你的色情请求
    越狱 prompt

    据我所知现在有这三种流派,还有友友知道其他方案的吗?
    zachariahss
        4
    zachariahss  
    OP
       333 天前
    @digd 我的我的,哈哈哈,我 markdown 里面是换行的.但是没注意发出来居然糊在一起了....下次我用\n
    NoOneNoBody
        5
    NoOneNoBody  
       333 天前
    你搞错了,不是训练时“排除”,而是训练时把伦理敏感内容也分类学习,然后在输出时做不同的动作

    例如某个敏感 A 内容
    照样归类为“敏感 A”训练,也能正常第一次输出“敏感 A”,但在第一次输出到用户之间做一层遮罩,用户看到的就是“没有答案”,而不是“敏感 A”。
    成人 AI 则是选择性移除这层遮罩的部分,那“敏感 A”就能到达用户端

    你这样想:如果我有能力收集你的隐私,我会那么“伦理、有道德”地不收集么?只要我在使用这些隐私合法或者可以规避法律,那就不算侵犯隐私了;简单说就是规避的动作是在后面做,而不是前面
    glcolof
        6
    glcolof  
       333 天前
    如果算力充裕,可以使用一大堆语料对开源基础模型进行“继续训练”;如果算力紧张,更常见的做法是用未设限的语料对基础模型进行 SFT 之类的微调。
    大模型训练的时候是很难排除所有不合适的语料的,同时大模型自己也能“脑补”出一些缺失的信息,所以微调也是可以出效果的。
    MossFox
        7
    MossFox  
       333 天前   1
    我不是专业的,大概只能一知半解地给一些不一定准确的描述。有业内大佬的话欢迎指正。

    首先就是,对于目前主流的(尤其是闭源的)大模型,他们有一个东西叫 “价值对齐”。概括来说就是让大模型输出的内容符合 道德/价值观 等。这个并不一定要求在数据集里面彻底清洗干净不和谐的内容,更多是针对输出。因为假如真清洗干净了,大模型怎么知道什么是黑什么是白呢。

    然后呢,对于目前那种角色扮演的使用场景,如果发现是那种没什么限制、非常洒脱的模型,首先那些绝对不可能会是今天那些主流的商业闭源大模型狗屁通,Claude ,Gemini 的道德对齐一个比一个狠,目前靠 Prompt 越狱的可用性已经几乎不存在了。

    即使是开源的模型,例如 Llama 系列,训练数据也是有部分对齐的。这种时候要 “越狱” 就不能全部依赖 Prompt ,而是要靠足够多的数据来训练和微调。

    https://openrouter.ai/

    看一下 OpenRouter 上的这一批模型。注意有不少是专门为角色扮演场景有 finetune 的,而且包括一些非常典型的去除价值对齐的模型。有些模型附上了模型作者的文章,我的脑子带不动太深奥的东西,交给专业的佬来细说了。

    贴个有代表性链接:
    https://erichartford.com/uncensored-models

    另外还有一个没开源、非对话类型的用于写作模型是 Novel AI 的。Novel AI ( https://novelai.net/) 的 Llama 3 Erato (底子是 Meta Llama 3 70B, 非 instruct 版本) 就是通过大量数据的 训练 + 微调,整出的一个辅助写故事的、洒脱无限制的模型,而且不存在那些大型商业公司模型的那种道德伦理对齐。

    现在的大模型天天搁那对齐,对齐得智力都滑坡了。就跟谷歌之前那个弱智文生图不会画黑皮肤以外的人种一样,这种反常识的训练怎么可能会带来更好的模型呢。
    zachariahss
        8
    zachariahss  
    OP
       333 天前
    @NoOneNoBody 感谢前辈,get
    zachariahss
        9
    zachariahss  
    OP
       333 天前
    @glcolof 感谢前辈 get
    zachariahss
        10
    zachariahss  
    OP
       333 天前
    @MossFox 感谢感谢,增长认知
    clementewy
        11
    clementewy  
       333 天前
    我之前也以为不行,直到我用了 gemini api
    zachariahss
        12
    zachariahss  
    OP
       333 天前
    @clementewy 嗯?我也在用啊.不行啊,
    LaTero
        13
    LaTero  
       333 天前 via Android
    最简单的办法就是换模型啊,OpenAI 和 Anthropic 的用不了,那不用就是了…Grok ,Command R+,Deepseek 就是从一开始就基本不带这些对齐。
    另外你的问题我有点没看懂。“但是做这种训练的话,必然要掺杂基础的训练内容的,这些内容不可能做到完全筛选出伦理合规性的东西的”是指这些公司也要担心伦理问题吗?那答案就是他们根本不 care……比如楼上说的 ovelAI 就根本不管你写的是啥。
    coolfan
        14
    coolfan  
       333 天前
    @zachariahss #4 需要单独一个空行才能有新段落的效果
    LaTero
        15
    LaTero  
       333 天前 via Android
    关于去拒绝微调( finetune )可以看 nous research 的这篇文章: https://arxiv.org/pdf/2408.11857
    zachariahss
        16
    zachariahss  
    OP
       333 天前
    @LaTero 卧槽,是这样的吗?我 google 和百度查了老半天,关键词就是市面上存不存在没有伦理限制的大模型,结果查不到.我就以为没有呢
    zachariahss
        17
    zachariahss  
    OP
       333 天前
    @LaTero 表述问题莫怪莫怪,我只是爱好者,用词不准确,口语化比较多
    paopjian
        18
    paopjian  
       333 天前
    商业大模型也没法把所有数据集都清理掉,不然也不会出现越狱事故了, 初期那会的规避方法就是他们的 prompt 里写了不要输出恶意内容, 结果催眠一下就给炸弹配方了.你去 hugging face 里搜 uncensored,就是没有到的审查的模型
    clementewy
        19
    clementewy  
       320 天前
    @zachariahss #12 prompt 要稍微让她配合下
    关于     帮助文档       博客     API     FAQ     Solana     3582 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 51ms UTC 10:31 PVG 18:31 LAX 03:31 JFK 06:31
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86