
1 tension May 7, 2014 转码! |
2 catfan May 7, 2014 mb_convert_encoding($title, 'UTF-8') |
3 Actrace May 7, 2014 mb_convert_encoding实际上不是一个比较好的方案。 |
4 alex321 May 7, 2014 检测一下编码,然后尝试对应转换,不要直接用 mb_convert_encoding。 |
5 kamal May 7, 2014 检测网页内容编码,然后转码,不要只检测head声明的编码。 有可能head声明编码与内容实际编码不一致。 |
6 shiny PRO 应该尽量模拟浏览器的识别: 1、识别 header 中的 content_type 附带的 charset 设置 2、如果没有,识别 meta 中的编码声明 3、html 里的 head 后面增加一个编码的声明,方便 DOMDocument 识别。 通过这些操作后,title 乱码的情况基本消灭。 代码在这里 https://github.com/shiny/PandaOpenNode/blob/master/upload/title.php |
8 shiny PRO @gangsta 试了下是可以抓的,你可以在 http://baidu.pandaidea.com/ 测试标题有没有正常抓取到,代码就是 github 上的。 |
10 shiny PRO @gangsta 没被墙吧。 这样,我做了个最小化的例子 你说的店铺首页应该就是一个店的首页吧? http://monitor.shiguanglu.com/demo/?url=http%3A%2F%2Fhztyhy.taobao.com |