R语言，网页抓取结果不全

153376851 · 发表于 2016-12-6 15:20:50

求大神指点，在使用R语言对新浪财经上的年报（如：http://vip.stock.finance.sina.co ... 0425&id=1680294）进行网页抓取时存在如下问题：

在linux下，使用XML，RCurl包中的htmlParse（url，encoding=“gb2312”）时只能抓取到前四页的年报，后面的信息不知所踪（即按下F12时，点击年报，两个==$0内的内容）。

在linux下，使用getURL（url，encoding=“gb2312”），可以爬全，但是全是乱码，怎么都解决不了。

在windows，linux下，用rvest包，url %>% read_html() %>% html_text()，出现如下错误：

Error in UseMethod("xml_text") :
no applicable method for 'xml_text' applied to an object of class "session"

求大神告知该怎么完整的爬下来这种网页？

		自动登录	找回密码
密码			立即注册