AI 应用的方向会是 LLM 描述一切,还是不同内容推出专属的模型? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
samnya
V2EX    OpenAI

AI 应用的方向会是 LLM 描述一切,还是不同内容推出专属的模型?

  •  
  •   samnya 341 天前 1391 次点击
    这是一个创建于 341 天前的主题,其中的信息可能已经有所发展或是发生改变。

    现在大语言模型的结构化输出能力越来越强,那些可以用文本来描述的数据,是不是全部可以让 LLM 去处理呢?

    比如说图像生成领域有 GAN 和 diffusion 模型,但在有些很常见很有需求的生成场景,却很难想象如何为它专门训练一个模型。

    我举几个例子:

    幻灯片应用

    现有的 AI PPT 应用大部分能够实现的功能其实是:生成容大纲→填入预定义好的模板。还有根据当前页面内容,自动匹配模板。

    而 PowerPoint 的文件格式实际上是 Office Open XML ,也是文本格式。其实正确的途径是不是应该让大语言模型直接学习 XML 格式内容,然后生成也是直接输出 XML 呢?就像用大语言模型生成 SVG 格式的图像。

    音乐生成

    音乐生成的应用,似乎现在的方向都是直接出音频波形。通过在音频波形上做训练,人声也是使用克隆声音相关的技术。有的产品甚至采用的是在素材库中取一段伴奏,叠加歌词 TTS 的方式实现的...

    但实际上音乐的本质是乐谱,用语言模型来直接训练一种乐谱格式,最终输出成 MIDI ,然后通过音源来合成得到的效果会不会更好?人声也可以用乐谱来描述,典型例子就是 VOCALOID 软件。

    --

    我这么想的原因主要是很多 AI 产品它距离实用化还有很远的路径,主要一点原因就是生成结果不可控、不可改,因为它直接生成了最终产物。而大语言可以通过对话进行逐步修改,这才是用户需要的。

    比如用 AI 生成 PPT 的需求并不是得到一个自动填好大纲的 PPT 模板,而是生成出来之后可以继续修改,加段文字、左右移一点。 生成音乐也应该是输出一个能够在 DAW 里面打开的工程,随时想要增减什么东西都能让 AI 继续修改,这样才对专业用户具有实用价值。

    1 条回复    2025-01-29 22:07:58 +08:00
    qichunren
        1
    qichunren  
       333 天前 via Android
    你的这个思考我感觉是对的。随着 AI 领域的进化,各种新的设计思路和算法,会不断有更强的模型和专门领域的模型出现。路还长着呢
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3268 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 11:17 PVG 19:17 LAX 03:17 JFK 06:17
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86