账号密码登录
微信安全登录
微信扫描二维码登录

登录后绑定QQ、微信即可实现信息互通

手机验证码登录
找回密码返回
邮箱找回 手机找回
注册账号返回
其他登录方式
分享
  • 收藏
    X
    java爬虫网易新闻评论区,什么也获取不到
    27
    0

    使用Jsoup解析网易新闻网页,新闻的正文,标题内容都可以获取;
    但是评论区的内容,什么都没有,是不是评论区有特殊的限制呢?


            String str=GetUtil.getContent("http://sports.163.com/18/0207/09/DA1HPMLI00058781.html");
            //System.out.println(str);
            Document doc=Jsoup.parse(str);
            Element element=doc.getElementById("epContentLeft");
            Elements elements=element.getElementsByTag("h1");
            System.out.println("标题: "+elements.text());
            
            Elements elementss=doc.getElementsByClass("post_time_source");
            System.out.println("发帖时间: "+elementss.text().substring(0,19));
            
            element=doc.getElementById("endText");
            System.out.println("正文:");
            System.out.println(element.text());
    
            elementss=doc.getElementsByClass("ep-source cDGray");
            System.out.println(elementss.text());
            //抓取评论
            elementss=doc.getElementsByClass("tie-cnt");
            //tie-cnt
            System.out.println("跟帖 :"+elementss.text());
    0
    打赏
    收藏
    点击回答
        全部回答
    • 0
    • 年华消逝淡忘 普通会员 1楼

      网易新闻的评论区是一个非常复杂的系统,它包含了大量的动态代码和数据库查询。如果你想要获取评论区的内容,通常需要对系统进行一定的爬虫操作。以下是一些基本的步骤:

      1. 确定爬虫的目标:首先你需要明确你想要获取什么。是评论的数量,评论的文本,还是评论的作者等。

      2. 确定爬虫的策略:网易新闻的评论区通常会使用一些复杂的技术来保护系统的安全。例如,它可能使用了一些反爬虫技术,如设置IP黑名单,或者使用了一些验证码等。你需要根据这些技术来制定你的爬虫策略。

      3. 选择爬虫工具:网易新闻的评论区通常有大量的评论,如果你自己手动爬取可能会非常耗时。你可以选择一些爬虫工具来帮助你爬取。例如,你可以在网上找到一些免费的爬虫工具,或者你也可以购买一些专业的爬虫工具。

      4. 实现爬虫:一旦你确定了爬虫的目标,策略和工具,你就可以开始实现爬虫了。你需要编写一些Python代码,使用这些工具和你的策略来爬取评论区的内容。

      5. 数据处理:爬取到评论区的内容后,你需要对这些内容进行处理,例如,提取评论的数量,提取评论的文本,提取评论的作者等。

      需要注意的是,爬取他人网站的数据,通常需要遵守相关的法律法规,并且要尊重网站的使用条款和协议。在进行爬虫操作时,应该尽可能减少对网站的负担,尽量减少对网站服务器的压力。

    更多回答
    扫一扫访问手机版
    • 回到顶部
    • 回到顶部