找回密码
 立即注册
查看: 2727|回复: 0

关于XML+RCurl包爬取北京链家网时节点定位为NULL的问题

[复制链接]
发表于 2017-4-10 08:53:59 | 显示全部楼层 |阅读模式
想用模仿网上用for循环的方式爬取北京链家网的二手房价情况,在用XPath定位“户型信息”时getNodeset时总返回NULL,纠结许久,求大神支援下。
如下几种xpath方式均用过:
(1).//*[@id='line1']/span[1273]/text()[2]   -----直接用firefox的firedebug工具搜索出的路径(定位为NULL,而且也不具备在for循环中使用的通用性)
(2)//div[@class='baseattribute clear']/div[text()='户型介绍']/following::*[1]/text()    ------具备for中使用的通用性,但也定位为NULL
是不是因为“户型介绍”与原网页编码方式问题导致的不匹配?
我用记事本保存“户型介绍”为“utf-8”格式后再粘贴过来也不行!
请问是什么原因?
有没有其他更好的方式?

无标题.png
无标题1.png
无标题3.png
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|R语言中文网

GMT+8, 2024-11-26 00:17 , Processed in 0.024574 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表