V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
Alicewish
V2EX  ›  分享创造

用 GPT4o 半自动式辅助阅读非母语漫画,或辅助盲人阅读漫画的方案

  •  
  •   Alicewish · 14 天前 · 995 次点击

    GPT4 有读图能力,但是速度太慢额度太低,不如仅用于翻译漫画文本。问题是纯文本情况下缺乏图像上下文,翻译上会出现一部分问题。

    GPT4o 读图能力更强,生成回答的速度更快,额度更高,但在知识的广博性上却不如 GPT4 。 测试效果参见: https://weibo.com/1788862154/Oejaha5TS

    如果一段对话不需要图像上下文就能很好地理解,那 GPT4 的翻译表现更优,反之 GPT4o 的翻译表现更优。

    我的目的是完成一个几乎自动化的流程让 GPT4o 读完一本漫画并生成描述性文本,包括画面内容、画面文本、画面文本的翻译。这份描述性文本可以辅助漫画翻译或者让视障者初步了解漫画内容。

    实践中遇到的问题主要是 GPT 会经常报错,或者网络原因未生成完答案或无法生成答案,或者传图错误,或者生成空答案需要用户手动点击重新生成。还有更多奇怪的错误无法很好地让 python 去处理。

    经过几天的不懈测试,放弃纯网页版操作的想法,并测得在 Mac M1 版 ChatGPT 官方应用上,生成空答案时会自动重新生成,且答案是否生成完毕会有比较明显的标志。

    所以目前的流程就是用 python 模拟键鼠配合 applescript 对 Mac M1 版 ChatGPT 官方应用上传图片并提问,同时通过 web 版获取当前对话的所有提问和回答,来保证不上传重复图片,并在出错或完成阅读漫画后用语音等方式提醒用户,在完成阅读漫画后生成漫画的描述性文本。

    相关代码将在晚些时候更新到 https://github.com/alicewish/MomoTranslator

    一些在测试中生成的描述性文本如下:

    Lotus Land 001 004

    第一格

    剧情 :一个壁画的特写,展示了一杯咖啡和一个咖啡壶,咖啡冒着热气。Character: None 角色:无

    第二格

    剧情 :男人站在房间里,身后有一个衣架,孩子正在衣架上取东西。Character: "You find the cream alright?" 角色:“你找到奶油了吗?”

    第三格

    剧情 :一个木质的小屋内部,桌子上有咖啡壶和杯子。男人站在桌旁,另一个人在柜子前找东西。孩子站在屋子中间。Character 1: "Oh, we found it as soon as we opened the door. Nearly called in forensics." 角色 1:“哦,我们一打开门就找到了。差点叫了法医来。”

    Character 2: "You oughta clean this place once in a while." 角色 2:“你应该偶尔打扫一下这个地方。”

    第四格

    剧情 :男人站在孩子身后,微笑着摸孩子的头。Character 1: "How ya doin', squirt?" 角色 1:“你怎么样,小家伙?”

    Character 2: "Not bad, Mr. Lundi." 角色 2:“还不错,伦迪先生。”

    第五格

    剧情 :男人站在门口,手里拿着一个衣架。Character: "Whaddya want, Russ?" 角色:“你想要什么,拉斯?”

    3 条回复    2024-05-20 09:47:56 +08:00
    xuanjiangsara
        1
    xuanjiangsara  
       14 天前
    曾在另一个帖子里提到盲人欣赏电影的传统解决方式—be my eyes 当志愿者(但没派上用场)。
    凡是能想到帮助视障群体的人精神生活建设的人,都是超级贴心的。

    可以加入电影脚本的术语,特写 close up ,tilted shot 等增加构图的设计。毕竟漫画的画框分割就是作者特意设计的,甚至还有打破画框的情况。
    milukun
        2
    milukun  
       13 天前
    有没有办法翻译综艺呢,真的很需要哈哈
    B 站示例综艺:BV1FT421D7qW
    Alicewish
        3
    Alicewish  
    OP
       13 天前
    @milukun 目前 GPT4o 对视频的理解据说是提取第一帧,估计在新版本出来前都没有办法
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1262 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 23:42 · PVG 07:42 · LAX 16:42 · JFK 19:42
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.