在linux下,使用XML,RCurl包中的htmlParse(url,encoding=“gb2312”)时只能抓取到前四页的年报,后面的信息不知所踪(即按下F12时,点击年报,两个==$0内的内容)。 在linux下,使用getURL(url,encoding=“gb2312”),可以爬全,但是全是乱码,怎么都解决不了。 在windows,linux下,用rvest包,url %>% read_html() %>% html_text(),出现如下错误: Error in UseMethod("xml_text") :
no applicable method for 'xml_text' applied to an object of class "session" 求大神告知该怎么完整的爬下来这种网页?
|