找回密码
 立即注册
查看: 2647|回复: 0

R语言,网页抓取结果不全

[复制链接]
发表于 2016-12-6 15:20:50 | 显示全部楼层 |阅读模式
求大神指点,在使用R语言对新浪财经上的年报(如:http://vip.stock.finance.sina.co ... 0425&id=1680294)进行网页抓取时存在如下问题:
    在linux下,使用XML,RCurl包中的htmlParse(url,encoding=“gb2312”)时只能抓取到前四页的年报,后面的信息不知所踪(即按下F12时,点击年报,两个==$0内的内容)。
    在linux下,使用getURL(url,encoding=“gb2312”),可以爬全,但是全是乱码,怎么都解决不了。
    在windows,linux下,用rvest包,url %>% read_html() %>% html_text(),出现如下错误:
Error in UseMethod("xml_text") :
no applicable method for 'xml_text' applied to an object of class "session"
    求大神告知该怎么完整的爬下来这种网页?

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|R语言中文网

GMT+8, 2024-11-23 01:11 , Processed in 0.039605 second(s), 18 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表