V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
vevlins
V2EX  ›  机器学习

请教各位个问题,如何实现类似小猿搜题的功能?

  •  
  •   vevlins · 2020-06-29 13:45:04 +08:00 · 1797 次点击
    这是一个创建于 1606 天前的主题,其中的信息可能已经有所发展或是发生改变。

    前提:学习性质的个人项目,准确度不必太高,能在乐观情况下匹配就可以。对机器学习不熟悉。

    1. 对于带配图问题的工业级别的方案是不是还要识别图片区域,对这块区域进行以图搜图?还是整个图(包含配图和文字题干)进行以图搜图?

    2. 现在只准备做 ocr 文本后匹配文本,对于比较大的数据量(200-300w 题目),常用的方案都有哪些?比如 es/faiss(能做文本匹配吗,好像只看到图片)?

    3. ocr 预处理时发现二值化(sauvola)后文字边缘有一定腐蚀,针对文本的二值化有什么更好的算法吗?

    4. 对于题目的 document layout analysis,有什么好的方案吗?搜索一些资料基本都是对论文和新闻文档做的分析,跟题目的排版还是有较大区别,自己训练后是否能达到较好的成果或者有专门的方案和思路吗?

    问题较多,回答皆有金币感谢,thx

    目前尚无回复
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3052 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 13:54 · PVG 21:54 · LAX 05:54 · JFK 08:54
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.