开源一个使用 gemini-pro 解析抖音视频内容并转文字的一个小东西 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
xyy003
V2EX    分享创造

开源一个使用 gemini-pro 解析抖音视频内容并转文字的一个小东西

  •  1
     
  •   xyy003 2024-01-11 09:33:06 +08:00 3457 次点击
    这是一个创建于 673 天前的主题,其中的信息可能已经有所发展或是发生改变。

    开源地址:https://github.com/disingn/cliptalk 支持:

    • 抖音去水印
    • 抖音视频转文本(使用 gemini-pro-vision )
    • geminikey 随机调用(多个)

    由于没啥时间,就没写 web 界面,后续有时间会完成 web 界面,以及兼容 gpt4v 和更多的视频平台

    ps:本人菜鸡,水平有限,大佬勿喷!

    第 1 条附言    2024-01-11 16:33:59 +08:00
    兼容 GPT4v 了,可以自己试试
    消耗有点快,不过效果要比 gemini 好一点。
    21 条回复    2024-03-19 16:14:02 +08:00
    taxue67marx
        1
    taxue67marx  
       2024-01-11 09:43:01 +08:00
    不错啊,写个小程序调用你写的接口,有空试试
    simo
        2
    simo  
       2024-01-11 10:10:54 +08:00
    赞一个
    不过,抖音接口那个,bogus 一直固定就行?
    tool2d
        3
    tool2d  
       2024-01-11 10:13:28 +08:00
    看了源代码,表示脑洞很大。新知识又增加了。
    xyy003
        4
    xyy003  
    OP
       2024-01-11 10:35:26 +08:00
    @taxue67marx 好 写的比较水
    xyy003
        5
    xyy003  
    OP
       2024-01-11 10:35:58 +08:00
    @tool2d 之前有个外国的博主使用 4v 来分析视频 跟风尝试了一下
    xyy003
        6
    xyy003  
    OP
       2024-01-11 10:36:55 +08:00
    @simo 不知道后面变不变 抖音去水印那部分是我 copy 别人的
    unco020511
        7
    unco020511  
       2024-01-11 11:36:14 +08:00
    star 了.视频转文本是啥意思,是指总结视频内容吗,还是指视频中语音识别自动添加字幕
    xinyana
        8
    xinyana  
       2024-01-11 12:42:55 +08:00 via Android
    @unco020511 看了源码,根据视频截图分析内容,非常好的思路!
    xyy003
        9
    xyy003  
    OP
       2024-01-11 12:51:50 +08:00
    @unco020511 截取视频帧然后使用 gemini-pro-vision 进行识别分析内容,最后使用 gemini-pro 整理整个视频的内容
    mjchow
        10
    mjchow  
       2024-01-11 14:27:20 +08:00
    这个是截取了视频部分 jpeg 图片来进行分析,如果图片少的话是不是分析会不大准确? 不过确实是挺好的思路,厉害!
    xyy003
        11
    xyy003  
    OP
       2024-01-11 14:41:21 +08:00
    @mjchow 大致的效果还可以,可以把切片再细致一点 现在我是 5s 截取一次
    kylebing
        12
    kylebing  
       2024-01-11 15:14:37 +08:00
    你头像是个什么玩意,看着挺有意思的。
    xyy003
        13
    xyy003  
    OP
       2024-01-11 15:20:03 +08:00
    @kylebing v2 的吗 ai 生成的一个机器人骷髅头
    kylebing
        14
    kylebing  
       2024-01-11 15:24:39 +08:00
    @xyy003 啊,我以为是一个数码产品的外观图。
    xyy003
        15
    xyy003  
    OP
       2024-01-11 15:25:53 +08:00
    @kylebing 哈哈哈哈
    dada88xyxy
        16
    dada88xyxy  
       2024-01-12 11:34:47 +08:00
    我一直想搞一个,用 ai 来读短视频,然后做一个网页,把短视频里面的文字抽出来,放在网页上面,页面的底部就可以跳转到原视频。痛点是解决搜索问题,很多时候其实视频里面有谈到我想要的关键词,但是无奈视频搜不精确,如果把视频的文字都抽出来,应该可以
    xyy003
        17
    xyy003  
    OP
       2024-01-12 13:20:17 +08:00
    @dada88xyxy 把音频提取出来,然后转录。后面我写个对应的接口好了
    Hozoy
        18
    Hozoy  
       2024-01-12 15:05:33 +08:00
    如果抽帧识别的话,感觉会不太准确,同类的通义听悟是先把视频转文字,再从文字提取信息总结。。我感觉两个结合起来效果会更好
    xyy003
        19
    xyy003  
    OP
       2024-01-13 08:13:27 +08:00
    @Hozoy 可以 这个会加上
    xyy003
        20
    xyy003  
    OP
       2024-01-13 08:13:56 +08:00
    @Hozoy 一开始是针对那种只有画面的视频 哈哈哈哈哈
    fruitmonster
        21
    fruitmonster  
       2024-03-19 16:14:02 +08:00
    现在失效了是么?
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     4950 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 09:40 PVG 17:40 LAX 01:40 JFK 04:40
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86