最近在做文档结构化相关工作,各位大佬能分享下( Word/Excel/Pdf )文档结构化配置的经验或有什么类似的产品可以参考吗?
1
czfy 2022-09-23 15:13:07 +08:00
不如你解释一下什么是 文档结构化
|
2
SteadyHua OP @czfy
转自百科 结构化数据(Structured data)-可以组织成行列结构,可识别的数据。这类数据通常是一条记录,或者一个文件,或者是被正确标记过的数据中的某一个字段,并且可以被精确地定位到。 对于来源繁多的信息资料,专业人士根据信息的格式加以划分,将其分为结构化信息和非结构化信息两大类。 结构化信息,我们通常接触的数据库所管理的信息,包括生产、业务、交易、客户信息等方面的记录。 非结构化信息,专业术语为内容,所涵盖的信息更为广泛,可分为:营运内容( operationalcontent ):如合约、发票、书信与采购记录;部门内容( workgroupcontent ):如文书处理、电子表格、简报档案与电子邮件; Web 内容:如 HTML 与 XML 等格式的信息;多媒体内容( RichMediaContent ):如声音、影片、图形等。 通俗的解释就是将非结构化数据结构化后入库,例如将 Word 解析成 HTML 展示,保存其中所需要结构为后续同类型 Word 批量解析,解析成结构化数据入库。 |
3
czfy 2022-09-23 17:15:46 +08:00
如果是这样的话,excel 本来就是结构化数据居多吧
word/pdf 的场景我就不懂了,看其他人吧 |
4
LiubaiQ 2022-09-24 11:28:24 +08:00
如果是微软 office 系列,可以看下官方文档,之前我记得看到过有提供工具库,可以解析成结构化数据,貌似还有一个公司专门做文档解析为结构化数据的,提供网络 Api 和包(貌似是 java ),不过是收费的
|