rocky55's recent timeline updates
rocky55

rocky55

V2EX member #384522, joined on 2019-02-16 21:45:46 +08:00
rocky55's recent replies
Jun 27, 2024
Replied to a topic by rocky55 分享创造 从 PDF 和图片提取表格的小工具
@geeekr 如果发票是 PDF 我觉得直接写代码取会更好,如果是图片我也觉得需要针对发票优化,确实没有发票这种数据去到模型里,严格来说发票很难定义成表格结构。
Jun 25, 2024
Replied to a topic by rocky55 分享创造 从 PDF 和图片提取表格的小工具
我的做法是 PDF 到图片,然后训练模型得到表格的结果,[extract table from pdf]( https://tableninjia.com/post/how_extract_table_from_pdf ) 和 [extract table from image]( https://tableninjia.com/post/how_extract_table_from_image) 有写简单的 pipline
100 w 前缀树的方式存储应该也不会太占内存,如果词不是很长,如果是英文应该就更省了
100 w 好像不多直接放内存,AC 自动机,速度应该不会慢
Aug 6, 2020
Replied to a topic by Beeethoven 程序员 国内有什么好用的 PDF 文档 OCR 产品吗
或许我能做,现在的输出是 xml 能定位图片和文字表格,目前的输出是 xml, 主要是 C++ 和 python 写的,实在有需要可以 [email protected]
Feb 17, 2019
Replied to a topic by wvvW 算法 自然语言处理序列标注算法实现
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1059 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 20ms · UTC 23:49 · PVG 07:49 · LAX 16:49 · JFK 19:49
♥ Do have faith in what you're doing.