用 GPT4o 半自动式辅助阅读非母语漫画,或辅助盲人阅读漫画的方案 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
Alicewish
V2EX    分享创造

用 GPT4o 半自动式辅助阅读非母语漫画,或辅助盲人阅读漫画的方案

  •  
  •   Alicewish 2024-05-19 15:29:02 +08:00 1863 次点击
    这是一个创建于 564 天前的主题,其中的信息可能已经有所发展或是发生改变。

    GPT4 有读图能力,但是速度太慢额度太低,不如仅用于翻译漫画文本。问题是纯文本情况下缺乏图像上下文,翻译上会出现一部分问题。

    GPT4o 读图能力更强,生成回答的速度更快,额度更高,但在知识的广博性上却不如 GPT4 。 测试效果参见: https://weibo.com/1788862154/Oejaha5TS

    如果一段对话不需要图像上下文就能很好地理解,那 GPT4 的翻译表现更优,反之 GPT4o 的翻译表现更优。

    我的目的是完成一个几乎自动化的流程让 GPT4o 读完一本漫画并生成描述性文本,包括画面内容、画面文本、画面文本的翻译。这份描述性文本可以辅助漫画翻译或者让视障者初步了解漫画内容。

    实践中遇到的问题主要是 GPT 会经常报错,或者网络原因未生成完答案或无法生成答案,或者传图错误,或者生成空答案需要用户手动点击重新生成。还有更多奇怪的错误无法很好地让 python 去处理。

    经过几天的不懈测试,放弃纯网页版操作的想法,并测得在 Mac M1 版 ChatGPT 官方应用上,生成空答案时会自动重新生成,且答案是否生成完毕会有比较明显的标志。

    所以目前的流程就是用 python 模拟键鼠配合 applescript 对 Mac M1 版 ChatGPT 官方应用上传图片并提问,同时通过 web 版获取当前对话的所有提问和回答,来保证不上传重复图片,并在出错或完成阅读漫画后用语音等方式提醒用户,在完成阅读漫画后生成漫画的描述性文本。

    相关代码将在晚些时候更新到 https://github.com/alicewish/MomoTranslator

    一些在测试中生成的描述性文本如下:

    Lotus Land 001 004

    第一格

    剧情 :一个壁画的特写,展示了一杯咖啡和一个咖啡壶,咖啡冒着热气。Character: None 角色:无

    第二格

    剧情 :男人站在房间里,身后有一个衣架,孩子正在衣架上取东西。Character: "You find the cream alright?" 角色:“你找到奶油了吗?”

    第三格

    剧情 :一个木质的小屋内部,桌子上有咖啡壶和杯子。男人站在桌旁,另一个人在柜子前找东西。孩子站在屋子中间。Character 1: "Oh, we found it as soon as we opened the door. Nearly called in forensics." 角色 1:“哦,我们一打开门就找到了。差点叫了法医来。”

    Character 2: "You oughta clean this place once in a while." 角色 2:“你应该偶尔打扫一下这个地方。”

    第四格

    剧情 :男人站在孩子身后,微笑着摸孩子的头。Character 1: "How ya doin', squirt?" 角色 1:“你怎么样,小家伙?”

    Character 2: "Not bad, Mr. Lundi." 角色 2:“还不错,伦迪先生。”

    第五格

    剧情 :男人站在门口,手里拿着一个衣架。Character: "Whaddya want, Russ?" 角色:“你想要什么,拉斯?”

    3 条回复    2024-05-20 09:47:56 +08:00
    xuanjiangsara
        1
    xuanjiangsara  
       2024-05-19 22:52:45 +08:00
    曾在另一个帖子里提到盲人欣赏电影的传统解决方式be my eyes 当志愿者(但没派上用场)。
    凡是能想到帮助视障群体的人精神生活建设的人,都是超级贴心的。

    可以加入电影脚本的术语,特写 close up ,tilted shot 等增加构图的设计。毕竟漫画的画框分割就是作者特意设计的,甚至还有打破画框的情况。
    milukun
        2
    milukun  
       2024-05-20 09:04:49 +08:00
    有没有办法翻译综艺呢,真的很需要哈哈
    B 站示例综艺:BV1FT421D7qW
    Alicewish
        3
    Alicewish  
    OP
       2024-05-20 09:47:56 +08:00
    @milukun 目前 GPT4o 对视频的理解据说是提取第一帧,估计在新版本出来前都没有办法
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     962 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 20:14 PVG 04:14 LAX 12:14 JFK 15:14
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86