V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  rocky55  ›  全部回复第 1 页 / 共 1 页
回复总数  6
141 天前
回复了 rocky55 创建的主题 分享创造 从 PDF 和图片提取表格的小工具
@geeekr 如果发票是 PDF 我觉得直接写代码取会更好,如果是图片我也觉得需要针对发票优化,确实没有发票这种数据去到模型里,严格来说发票很难定义成表格结构。
143 天前
回复了 rocky55 创建的主题 分享创造 从 PDF 和图片提取表格的小工具
我的做法是 PDF 到图片,然后训练模型得到表格的结果,[extract table from pdf]( https://tableninjia.com/post/how_extract_table_from_pdf ) 和 [extract table from image]( https://tableninjia.com/post/how_extract_table_from_image) 有写简单的 pipline
100 w 前缀树的方式存储应该也不会太占内存,如果词不是很长,如果是英文应该就更省了
100 w 好像不多直接放内存,AC 自动机,速度应该不会慢
2020-08-06 18:26:03 +08:00
回复了 Beeethoven 创建的主题 程序员 国内有什么好用的 PDF 文档 OCR 产品吗
或许我能做,现在的输出是 xml 能定位图片和文字表格,目前的输出是 xml, 主要是 C++ 和 python 写的,实在有需要可以 [email protected]
2019-02-17 09:02:12 +08:00
回复了 wvvW 创建的主题 算法 自然语言处理序列标注算法实现
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   965 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 19ms · UTC 21:22 · PVG 05:22 · LAX 13:22 · JFK 16:22
Developed with CodeLauncher
♥ Do have faith in what you're doing.