账号密码登录
微信安全登录
微信扫描二维码登录

登录后绑定QQ、微信即可实现信息互通

手机验证码登录
找回密码返回
邮箱找回 手机找回
注册账号返回
其他登录方式
分享
  • 收藏
    X
    python网络爬虫实例教程4.1爬q房,最简单的一个爬虫未显示错误,但是没内容?
    22
    0

    1、书籍附带的文件,python网络爬虫实例教程4.1爬q房,最简单的一个爬虫未显示错误,练习很久了,视频也看了,书也一条一条对照,不管怎么调试,print什么内容,检查URL和Xpath都没有错误,但是没内容?
    2、
    from lxml import etree
    import requests
    import csv
    import time

    def data_writer(item):

    with open('qfang.csv', 'a',encoding='utf-8',newline='') as csvfile:
        writer = csv.writer(csvfile)
        writer.writerow(item)

    def spider():

    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.80 Safari/537.36'}
    pre_url = 'http://shenzhen.qfang.com/sale/f'
    for x in range(1,11):
        html = requests.get(pre_url + str(x), headers=headers)
        time.sleep(1)
        selector = etree.HTML(html.text)
        house_list = selector.xpath("//*[@id='cycleListings']/ul/li")
        for house in house_list:
            xiaoqu = house.xpath("div[1]/p[1]/a/text()")[0]
            huxing = house.xpath("div[1]/p[2]/span[2]/text()")[0]
            mianji = house.xpath("div[1]/p[2]/span[4]/text()")[0]
            quyu = house.xpath("div[1]/p[3]/span[2]/a[1]/text()")[0]
            zongjia = house.xpath("div[2]/span[1]/text()")[0]
            item = [xiaoqu, huxing, mianji, quyu, zongjia]
            data_writer(item)
            print('正在抓取', xiaoqu)
    

    if name == '__main__':

    spider()

    3、C:UserspcPycharmProjectsuntitledvenvScriptspython.exe "C:/Users/pc/Desktop/python学习/爬虫电子书/Python爬虫实例教程-代码/4.1 qfang.py"
    h

    进程完成,退出码 0
    4、notebooks、Geany、Visual Studio Code、JetBrains PyCharm 2019.1.1 x64都试了,不缺第三方库、也print不出内容,CSV也没生成。

    0
    打赏
    收藏
    点击回答
    您的回答被采纳后将获得:提问者悬赏的 11 元积分
        全部回答
    • 0
    • 唯情不换人心 普通会员 1楼

      要爬取q房(Q房,即房地产信息网站)的网页,我们需要一个支持Python的库,如BeautifulSoup。以下是一个基本的Python爬虫示例,但请注意,爬取网页可能会违反网站的使用条款和准则。

      首先,你需要安装BeautifulSoup库,可以使用以下命令进行安装:

      bash pip install beautifulsoup4

      接下来,我们需要一个Python文件(如q房爬虫.py)来编写爬虫代码。在这个文件中,我们将使用BeautifulSoup库来解析q房的HTML代码,并提取我们需要的数据。

      ```python import requests from bs4 import BeautifulSoup

      def get_q房_url(): return "http://www.q房网.com"

      def get_q房_content(url): response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') # 在这里提取我们需要的数据 # 例如,我们可以提取每个页面的标题 titles = soup.find_all('h2') return titles

      def main(): url = get_q房_url() content = get_q房_content(url) # 在这里打印内容 print(content)

      if name == "main": main() ```

      这个程序首先定义了一个函数get_q房_url()来获取q房的URL,然后定义了一个函数get_q房_content(url)来获取q房的HTML内容。最后,我们在main()函数中调用这两个函数,获取q房的URL和HTML内容。

      请注意,这个程序没有显示任何错误。在实际使用中,我们通常会在可能出错的地方添加异常处理代码,以确保程序的健壮性。例如,如果q房的URL不存在,我们可以添加一个try/except块来处理这种错误。

      此外,这个程序只是一个非常基础的示例,实际的q房爬虫可能需要处理更多的细节,例如处理反爬虫机制,处理网页的JavaScript动态内容等。

    更多回答
    扫一扫访问手机版
    • 回到顶部
    • 回到顶部