1
yu099 2017 年 11 月 29 日 via Android
你网页打开是怎么识别编码的?别人可是有搞 chrome 的。
|
3
fiht 2017 年 11 月 29 日
哪啥...试试 tika...
我觉得应该是都可以识别的... |
4
billion 2017 年 11 月 29 日 via iPhone
Google 的工程师来自全球各个国家。而你只是一个中国人。
|
5
imn1 2017 年 11 月 29 日
其实这个问题如果预设错误就显得很“无知”“幼稚”了
怎么能把 google 的爬虫预设跟一般人写的爬虫一样呢? 如果用中国大陆境内的服务器,爬境内的网站,简繁英以外的编码占比多少?需要所有编码逐个试一遍么? 除了 GeoIP 外,优化的方法还有很多 |
6
binux 2017 年 11 月 29 日 via Android 直接用 chrome 就好了,如果爬虫看到的是乱码,用户看到的也是。那还爬它做什么?
|
7
rogwan 2017 年 11 月 29 日 via Android
谷歌没有楼主想像的那么完美,Chrome 对没有设定 charset 的页面,一样会解出乱码。
|