AI 编程数据提问 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
collen

AI 编程数据提问

  •  
  •   collen 2 月 12 日 1168 次点击
    这是一个创建于 70 天前的主题,其中的信息可能已经有所发展或是发生改变。
    我把我之前和 gpt 的对话下载下来了,我想做清洗数据,但是我发现我之前大量和 gpt 的聊天就是编程,解决我的问题,现在这些数据是垃圾数据吗,应该过滤吗,或许,有可能,我在对话中提出了万中无一的解决方法,或者当时网络上没有解决方案,我通过自己的思考解决了,这种有可能吗,要记录吗,顺便如果我不是程序员,我是一个作家,我让他帮我生成了大量小黄文,这个小黄文也算是数据吗,要保留吗,医生呢,我让他帮我找了一堆类似的病例和文献,这些也是有意义的数据吗
    coreJK
        1
    coreJK  
       2 月 12 日
    1. 编程领域:解决过的问题,或者是和 AI 对话过程中解决过的方案,应该总结成可以复用的解决方案,这个还是有价值的(不过 AI 本身已经汲取了大量人类解决过的一些问题的答案),和 AI 对话过程中,更像是一种“查询”的过程,只是呈现方式变了,由 AI 组织语言回答,而且还存在说错的概率;
    2. 作家:这个不好界定感觉,应该归纳为素材吧;
    3. 医生:这个行业应该需要更加严谨的态度,如何保证病例和文献的真实性是个问题

    导出来的数据,如果是结构化的 json 应该还是好处理,MD 还得额外转换一次

    不过感觉对于对话历史记录,现在几个主流的都支持对话历史记录检索了
    collen
        2
    collen  
    OP
       2 月 12 日
    @coreJK 但是我 1 万多条对话,大概有 6000 多条都是问编程的,或者项目代码让他帮我改,比较古老了,2023 和 2024 年的,那个时候没有 claude code 我直接全部复制粘贴过去的,现在清洗起来要跑很久,这些代码都应该没有意义了吧
    coreJK
        3
    coreJK  
       2 月 12 日
    @collen #2 这个意义得看你自己了,如果确认是有用的数据,花多少时间整理都是值得的(个人观点),没必要为了整理而去整理数据吧

    感觉现在 op 是也不知道那些数据是有用的,所以一直在纠结中
    CLMan
        4
    CLMan  
       2 月 12 日
    类似的包括下载文件、浏览器打开的标签等。当堆积到一定程度后,就很难有心思去整理了。

    建议实在拿不定主意,保存在文件然后压缩存储,以后有精力再整理。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     926 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 31ms UTC 20:49 PVG 04:49 LAX 13:49 JFK 16:49
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86