请教一个 TesseractOCR 训练识别验证码问题

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 2904 天前的主题，其中的信息可能已经有所发展或是发生改变。

是使用 3.05 版本进行训练的，训练了大约有 500 张图片。疑问是：400 张训练出的 traineddata 文件是 300 多 KB，500 张还是 300 多 KB，而且还少了几 KB，为什么呢？然后识别率也不见提高？还有就是有大佬知道 TesseractOCR4.0 怎么训练吗？（我看了官方文档，看的很懵逼）

训练

识别

验证码

tesseractocr

2 条回复 • 2017-10-18 09:36:46 +08:00

2ME

2017-10-18 09:29:20 +08:00

500 张 traineddata 300KB 是没问题的如果是复杂的干扰比较多的验证码需要先预处理二值化文字分割等一些操作减少图片复杂度后再进行训练识别才会有效果

qwertty01

2017-10-18 09:36:46 +08:00

@2ME 我已经二值化了，然后比较复杂的验证码过滤掉了。文字分割是 Tesseract 做的（当然需要自己手工调），我还是继续训练吧，看看 1000 张怎么样