就这个http://oeeee.cc/qSUavR
用什么东东做的?很想知道这是一种好方法还是一种折中办法?
1
learnshare 2015-08-11 15:47:58 +08:00
并不知道你在说什么
|
2
402645707 2015-08-11 15:49:17 +08:00 via Android
爬虫爬的垃圾站
|
3
402645707 2015-08-11 15:49:56 +08:00 via Android
好吧当我没说,
|
4
pango 2015-08-11 15:51:52 +08:00
难道是ocr自动识别的?
|
5
Agromania 2015-08-11 15:55:35 +08:00
这个大概是人工或自动去收集了很多说明书的pdf,转成图片,很不错的点子
以PHP为例,pdf转图片很简单: <?php $im = new imagick('file.pdf[0]'); $im->setImageFormat('jpg'); header('Content-Type: image/jpeg'); echo $im; ?> |
6
pimin 2015-08-11 16:10:20 +08:00
只是解析pdf吧
|
7
manualplus OP @Agromania 转成图片这个好理解,方法也很多,但它这个解析提取出文本内容(按页提取并自动加上超链接和做分行处理)思路很好。可能就是不知用什么方法和技术方案实现的?
|
8
paperpeper 2015-08-12 13:22:11 +08:00
@manualplus ocr
|
9
manualplus OP @Agromania 点子很好吧,我们也在做说明书服务,欢迎交流
|