自己在刚学习python时写的,中途遇到很多问题,查了很多资料,下面就是我爬取租房信息的代码:
链家的房租网站
两个导入的包
1.requests 用来过去网页内容
2.BeautifulSoup
import time
import pymssql
import requests
from bs4 import BeautifulSoup
# https://wh.lianjia.com/zufang/
#获取url中下面的内容
def get_page(url):
responce = requests.get(url)
soup = BeautifulSoup(responce.text,'lxml')
return soup
#封装成函数,作用是获取列表下的所有租房页面的链接,返回一个链接列表
def get_links(url):
responce = requests.get(url)
soup = BeautifulSoup(responce.text,'lxml')
link_div = soup.find_all('div',class_ = 'pic-panel')
links = [div.a.get('href') for div in link_div]
return links
#收集一个房子的信息
def get_house_info(house_url):
soup = get_page(house_url)
price = soup.find('span',class_='total').text
unit = soup.find('span',class_= 'unit').text[1:-1]
area = soup.find('p', class_ = 'lf').text
house_info= soup.find_all('p',class_ = 'lf')
area = house_info[0].text[3:] #字符串切片工具
layout = house_info[1].text[5:]
info={
'价格':price,
'单位':unit,
'面积':area,
'户型':layout
}
return info
#链接数据库
server="192.168.xx.xx" #换成自己的服务器信息
user="liujiepeng"
password="xxxxx" #自己的数据库用户名和密码
conn=pymssql.connect(server,user,password,database="house")
def insert(conn,house):
#sql_values = values.format(house['价格'],house['单位'],house['面积'],
#house['户型'])
sql = "insert into [house].dbo.lianjia(price,unit,area,layout)values('%s','%s','%s','%s')"%(house["价格"],house["单位"],house["面积"],house["户型"])
print(sql)
cursor = conn.cursor() #游标,开拓新的窗口
#cursor1 = conn.cursor()
cursor.execute(sql) #执行sql语句
conn.commit() #提交 ,更新sql 语句
links = get_links('https://wh.lianjia.com/zufang/')
count = 1
for link in links:
#time.sleep(2)
print('获取一个数据成功')
house = get_house_info(link)
insert(conn,house)
print("第%s个数据,存入数据库成功!"%(count))
count = count+1
#print(house["价格"],end='\r')
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对的支持。如果你想了解更多相关内容请查看下面相关链接
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件!
如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
暂无“用python爬取租房网站信息的代码”评论...
RTX 5090要首发 性能要翻倍!三星展示GDDR7显存
三星在GTC上展示了专为下一代游戏GPU设计的GDDR7内存。
首次推出的GDDR7内存模块密度为16GB,每个模块容量为2GB。其速度预设为32 Gbps(PAM3),但也可以降至28 Gbps,以提高产量和初始阶段的整体性能和成本效益。
据三星表示,GDDR7内存的能效将提高20%,同时工作电压仅为1.1V,低于标准的1.2V。通过采用更新的封装材料和优化的电路设计,使得在高速运行时的发热量降低,GDDR7的热阻比GDDR6降低了70%。
更新动态
2025年11月08日
2025年11月08日
- 小骆驼-《草原狼2(蓝光CD)》[原抓WAV+CUE]
- 群星《欢迎来到我身边 电影原声专辑》[320K/MP3][105.02MB]
- 群星《欢迎来到我身边 电影原声专辑》[FLAC/分轨][480.9MB]
- 雷婷《梦里蓝天HQⅡ》 2023头版限量编号低速原抓[WAV+CUE][463M]
- 群星《2024好听新歌42》AI调整音效【WAV分轨】
- 王思雨-《思念陪着鸿雁飞》WAV
- 王思雨《喜马拉雅HQ》头版限量编号[WAV+CUE]
- 李健《无时无刻》[WAV+CUE][590M]
- 陈奕迅《酝酿》[WAV分轨][502M]
- 卓依婷《化蝶》2CD[WAV+CUE][1.1G]
- 群星《吉他王(黑胶CD)》[WAV+CUE]
- 齐秦《穿乐(穿越)》[WAV+CUE]
- 发烧珍品《数位CD音响测试-动向效果(九)》【WAV+CUE】
- 邝美云《邝美云精装歌集》[DSF][1.6G]
- 吕方《爱一回伤一回》[WAV+CUE][454M]