我基于大模型写了个 Telegram 群反垃圾机器人 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
lovelilili

我基于大模型写了个 Telegram 群反垃圾机器人

  •  
  •   lovelilili 1 月 21 日 484 次点击
    这是一个创建于 89 天前的主题,其中的信息可能已经有所发展或是发生改变。

    一、为什么要做这个 Bot

    维护 Telegram 群组的朋友应该都遇到过类似问题:群里突然冒出一堆广告,机器人批量加群发垃圾信息,正常讨论都被打断。最头疼的是,管理员每天要花不少时间清理消息,删广告,封机器人。

    我自己也管理几个技术交流群,看着群从清净变成垃圾场,心里挺不是滋味的。传统方法要么效果一般,要么太麻烦。后来想了想,为什么不做一个更智能的解决方案?既能自动识别垃圾信息,又不会误伤正常用户,还能防住新出现的机器人。

    于是就开始折腾这个项目,希望能帮更多群主省心。

    二、技术方案的选择

    在实现上,我参考了很多现有方案,最后选择了几种互补的技术:

    基础规则过滤:设置一些关键词和模式,明显广告直接拦截。这个最快,但只能对付最简单的垃圾。

    媒体内容检查:有些垃圾是图片或链接,需要专门分析。

    大模型智能检测:这是最关键的一环。用 AI 来判断消息是否合适,比单纯的关键词匹配准确得多。为什么选大模型?因为它能理解上下文,识别那些绕过规则的"聪明"垃圾。

    为了不影响群聊速度,我设计了异步处理机制。明显垃圾秒删,复杂内容后台慢慢分析。用户感觉不到卡顿,机器人也逃不掉。

    验证新用户时,还加了人机验证环节,确保加群的都是真人。

    三、极简使用背后的技术思考

    用起来很简单:装好 Bot ,设置一下权限,它就开始工作了。群主不用操太多心,该删的删,该封的封。

    但背后其实挺复杂的。要让 AI 准确识别垃圾,又不误伤好人,需要不断优化算法。处理速度要快,不能让群聊变慢。数据库要稳,用户数据不能丢。

    我花了不少时间调参数,测试各种场景。目标就是,让复杂的技术变得简单好用。

    四、比传统广告拦截机器人强在哪里

    传统机器人大多只能防广告,或者只检查新用户。这种新 Bot 更全面:

    • 防广告:不仅关键词,还看内容语境
    • 防机器人:新用户要验证,人机识别
    • 内容质量:智能判断消息价值,低质内容也清理
    • 学习能力:用 AI 持续改进,适应新套路

    效果明显,群里干净多了,活跃用户也更愿意发言。

    五、实测效果

    • 得益于 ollama 提供的在线大模型提供的免费额度和其部署于谷歌 cloud 全球加速,我将 bot 部署于英国的服务器,到 ollama api 请求延迟 1-2ms ,到 telegram 荷兰数据中心的延迟在 10ms 以内。

    • 如果未来 ollama 提供的免费额度不足以满足需求,我可能会升级付费套餐或者尝试部署 ollama 本地轻量化模型,实际上我已经测试过本地部署 qwen2.5:1.5B 模型效果也挺好

    • 感谢一位网友贡献了一个垃圾内容特别多的群作为测试环境。三天时间,Bot 自动删除了 10000+条垃圾信息,终于清静了,实际上他的这个群进来几乎都是发广告的,也没正常主题交流。

    这个数据让我很惊喜,也证明了 AI 检测的有效性。

    六、未来的扩展方向

    目前功能已经能满足基本需求,但我觉得还可以做得更好:

    • 全局黑名单系统:基于已有的检测数据,建立跨群的黑名单。如果某个用户在 A 群被识别为垃圾,在其他群也会被自动拦截。这样能形成网络效应,越用越聪明。

    • 支持群管理员设置查杀的广告类型:让群管理可以根据垃圾分类标签自由选择重点查杀的广告类型

    还有一些想法,比如更智能的群统计,自动标签分类等。慢慢来,先把基础功能做好。

    欢迎邀请我们的管理机器人进群: https://t.me/SageGuardBot

    如果你对这些功能感兴趣,或者有更好的建议,欢迎交流!

    madou
        1
    madou  
       1 月 27 日
    看了一下网站的部署教程,第一步 Github 的仓库代码找不到.
    git clone https://github.com/your-repo/mtphelper.git
    cd mtphelper
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3536 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 43ms UTC 00:40 PVG 08:40 LAX 17:40 JFK 20:40
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86