自己学习遇到了一些问题,想问一下大家一些关于 nlp 的问题。 我正在做文本情感分类的模型,用的双向 lstm ,损失率一直在 0.7 左右震荡。 数据大小:5w 多条(第一列标签 0 1 ,第二列文字) batsize:32 lr:0.001 hidden dim: 64
![]() | 1 murmur 302 天前 情感分类对于国内没任何意义,因为审核机制导致人已经不能好好说话了 比如下面的话 活全家 祝你全家富贵 祝你以后玩的每个游戏都有来自星尘的品质 表达的是正面还是负面的情感呢? |
![]() | 2 murmur 302 天前 常上网的人都知道,骂人不带脏字,讨论敏感话题不漏敏感词,是基本技巧 一周不上网梗就不知道,还想依靠陈旧的语料库的算法判断情感 |
![]() | 7 context1997 301 天前 @murmur |
![]() | 8 ryougifujino 301 天前 LLM 出来后,传统 NLP 不是意义不大了么 |
9 jeddida OP @ryougifujino 感觉学习意义还是有的 |
10 wh1sper 301 天前 ![]() 要不就是数据质量不高,要不就是模型拟合能力不够,总之都没啥意义,有兴趣就搞搞大模型吧 顺便打个广告: 腾讯地图平台招牌:NLP 算法工程师-大模型方向 大平台福利好,老板人超 nice ,P9 大佬亲自带队,算力充足 |
11 kaneg 301 天前 via iPhone 之前一个专业团队的事,现在大模型实现 NLP 就是一个 prompt 的事,而且自动支持多语言。现在还研究传统 NLP ,就像有机械化不用,还用牛耕地一样。 |
![]() | 12 kaidong21 301 天前 数据很重要,不清楚你这个数据集质量如何,还有超参多调一调,另外可以换别的 model 试试你的数据集,比如 bert, 最后多和 chatgpt 聊一聊,提供的一些建议挺适合初学者的 |
![]() | 13 murmur 301 天前 @ryougifujino 我还真测了一下,AI 完美过关 这句话“祝你玩的每个游戏都有来自星尘一样的品质”可以被解读为一种讽刺或负面的情感,尤其是对于那些对《来自星尘》评价不高的玩家来说。从一些玩家和评论者的反馈来看,《来自星尘》在发布初期受到了批评,主要集中在游戏性不足、战斗系统设计问题、剧情文案质量低以及翻译问题等方面。因此,如果某人用这句话来祝福别人,可能是以一种反话的方式来表达,意指希望对方不要遇到像《来自星尘》这样被认为品质不佳的游戏。 这个是通义千问的结果 |
![]() | 16 murmur 301 天前 @jeddida 懂,但是想学习一样可以学大语言模型,大语言模型也是基于老架构迭代上的,比如简单的神经网络,先以这个方向学习,至少不会落后于时代 而且学习不可能不考虑商业应用或者落地 等到商业的时候就知道,还是 tire 树+敏感词库管事 |
17 Volekingsg 301 天前 先取少量训练数据确认是否能够过拟合 |
18 xz410236056 301 天前 |
19 xz410236056 301 天前 |
20 WallenHan 301 天前 via Android 还搞过时的技术呢,上面的大佬都指名方向了。该淘汰得让他淘汰。 |
23 jeddida OP 感谢大家的宝贵意见!我的问题已经解决了,数据预处理的时候我自己写的词表有问题,导致 loss 一直下不去,我换用了 word2vec 就好了。对于有些 v 友说的“过时”,没有人能一口气吃一口胖子,大家都是搞开发的,都明白要一步一个脚印。 |
24 jeddida OP @Volekingsg 谢谢大佬!问题已经解决!我自己写的词表有问题。 |
![]() | 25 murmur 301 天前 @xz410236056 gpt 错了,来自星尘是鹰角的游戏,当时被骂是赤石游戏(谐音吃 shi ,还有游戏里有一张地图全是红色的石头) |