- 22
- 0
1、书籍附带的文件,python网络爬虫实例教程4.1爬q房,最简单的一个爬虫未显示错误,练习很久了,视频也看了,书也一条一条对照,不管怎么调试,print什么内容,检查URL和Xpath都没有错误,但是没内容?
2、
from lxml import etree
import requests
import csv
import time
def data_writer(item):
with open('qfang.csv', 'a',encoding='utf-8',newline='') as csvfile:
writer = csv.writer(csvfile)
writer.writerow(item)
def spider():
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.80 Safari/537.36'}
pre_url = 'http://shenzhen.qfang.com/sale/f'
for x in range(1,11):
html = requests.get(pre_url + str(x), headers=headers)
time.sleep(1)
selector = etree.HTML(html.text)
house_list = selector.xpath("//*[@id='cycleListings']/ul/li")
for house in house_list:
xiaoqu = house.xpath("div[1]/p[1]/a/text()")[0]
huxing = house.xpath("div[1]/p[2]/span[2]/text()")[0]
mianji = house.xpath("div[1]/p[2]/span[4]/text()")[0]
quyu = house.xpath("div[1]/p[3]/span[2]/a[1]/text()")[0]
zongjia = house.xpath("div[2]/span[1]/text()")[0]
item = [xiaoqu, huxing, mianji, quyu, zongjia]
data_writer(item)
print('正在抓取', xiaoqu)
if name == '__main__':
spider()
3、C:UserspcPycharmProjectsuntitledvenvScriptspython.exe "C:/Users/pc/Desktop/python学习/爬虫电子书/Python爬虫实例教程-代码/4.1 qfang.py"
h
进程完成,退出码 0
4、notebooks、Geany、Visual Studio Code、JetBrains PyCharm 2019.1.1 x64都试了,不缺第三方库、也print不出内容,CSV也没生成。
- 共 0 条
- 全部回答
-
唯情不换人心 普通会员 1楼
要爬取q房(Q房,即房地产信息网站)的网页,我们需要一个支持Python的库,如BeautifulSoup。以下是一个基本的Python爬虫示例,但请注意,爬取网页可能会违反网站的使用条款和准则。
首先,你需要安装BeautifulSoup库,可以使用以下命令进行安装:
bash pip install beautifulsoup4接下来,我们需要一个Python文件(如
q房爬虫.py)来编写爬虫代码。在这个文件中,我们将使用BeautifulSoup库来解析q房的HTML代码,并提取我们需要的数据。```python import requests from bs4 import BeautifulSoup
def get_q房_url(): return "http://www.q房网.com"
def get_q房_content(url): response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') # 在这里提取我们需要的数据 # 例如,我们可以提取每个页面的标题 titles = soup.find_all('h2') return titles
def main(): url = get_q房_url() content = get_q房_content(url) # 在这里打印内容 print(content)
if name == "main": main() ```
这个程序首先定义了一个函数
get_q房_url()来获取q房的URL,然后定义了一个函数get_q房_content(url)来获取q房的HTML内容。最后,我们在main()函数中调用这两个函数,获取q房的URL和HTML内容。请注意,这个程序没有显示任何错误。在实际使用中,我们通常会在可能出错的地方添加异常处理代码,以确保程序的健壮性。例如,如果q房的URL不存在,我们可以添加一个try/except块来处理这种错误。
此外,这个程序只是一个非常基础的示例,实际的q房爬虫可能需要处理更多的细节,例如处理反爬虫机制,处理网页的JavaScript动态内容等。
- 扫一扫访问手机版
回答动态

- 神奇的四哥:发布了悬赏问题阿里云幻兽帕鲁服务器更新之后。服务器里面有部分玩家要重新创建角色是怎么回事啊?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题函数计算不同地域的是不能用内网吧?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题ARMS可以创建多个应用嘛?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题在ARMS如何申请加入公测呀?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题前端小程序接入这个arms具体是如何接入监控的,这个init方法在哪里进行添加?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题阿里云幻兽帕鲁服务器刚到期,是不是就不能再导出存档了呢?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题阿里云幻兽帕鲁服务器的游戏版本不兼容 尝试更新怎么解决?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题阿里云幻兽帕鲁服务器服务器升级以后 就链接不上了,怎么办?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题阿里云幻兽帕鲁服务器转移以后服务器进不去了,怎么解决?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题阿里云幻兽帕鲁服务器修改参数后游戏进入不了,是什么情况?预计能赚取 0积分收益
- 回到顶部
- 回到顶部
