Python:房价爬虫设计

简介: Python:房价爬虫设计

1 需求分析

1.1 设计目的

本次实践使用Python来爬取链家网房价的数据,并对房价进行可视化分析。
客户可以通过精准定位客户找房的需求,可以帮助用户快速找到心仪房源并快速匹配经纪人,为客户提供从咨询、看房、交易及售后等整体流程服务。通过完成此次课程设计,逐渐培养我们的自主编程能力和用计算机解决实际问题的能力。加深了我们对VIP这门课程的理解,并以此来验证自身的学习效果,同时利用我们所学的基本知识和技能,进行简单爬虫应用程序设计提升我们自身学习所获得的成就感。

1.2 设计要求

1.2.1 问题描述

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
(1)用户可以自定义数据采集位置;
(2)方便;
(3)可以储存至本地csv文件。

1.2.2 主要研究功能

1、完成爬虫图形用户界面的设计。
2、完成pyqt界面内的功能模块。
3、完成以csv的形式存至本地。

2 功能分析

2.1网页介绍

链家网是集房源信息搜索、产品研发、大数据处理、服务标准建立为一体的国内领先且重度垂直的全产业链房产服务平台。链家网的前身为链家在线,成立于2010年并于2014年正式更名为链家网。
目前,链家网线上房源已覆盖北京、上海、广州、深圳、天津、成都、青岛、重庆、大连等42个城市。链家网旨在通过不断提高服务效率、提升服务体验,为用户提供更安全、更便捷、更舒心的综合房产服务。
url:https://luoyang.lianjia.com/ershoufang/rs%E5%8C%97%E4%BA%AC/

2.2 用户界面分析

用QApplication([])定义主要界面,用QPushButton添加重新来过按钮,用QProgressBar来添加进度条,用QPlainTextEdit来添加文本框,用QPushButton来获取案件信息,用setPlaceholderText来插入提示,用window.show()来显示图形界面。
定义主界面
app = QApplication([])
window = QMainWindow()
window.resize(500, 400)
window.move(300, 310)
window.setWindowTitle('链家房源获取器')
textEdit = QPlainTextEdit(window)
textEdit.setPlaceholderText("请输入你想要查找的地址:")
位置
textEdit.move(10, 25)
textEdit.resize(300, 350)

进度条

ProgressBar=QProgressBar(window)
ProgressBar.setRange(1, 10)

案件信息

button = QPushButton('获取信息', window)
button1 = QPushButton('复制数据', window)

位置

button.move(380, 80)
button1.move(380, 120)

点击事件

button.clicked.connect(main)
button1.clicked.connect(copy)
显示图形界面
window.show()
app.exec_()

3 系统设计与分析

3.1提取数据

3.1.0正则表达式

'infoclear">.*?data-sl="">(.*?)</a>.*?data-el="region">(.*?) </a>.*?target="_blank">(.*?)</a>.*?<span class="houseIcon"></span>(.*?) .*?<span class="">(.*?)</span><i>万'

如图3.1匹配开头与结尾之间的所有字符然后提取

在这里插入图片描述

图3.1

3.1.1 获取所有url

def get_url():
        progress = 0
        for page in range(1, 4):
       base_url = 'https://bj.lianjia.com/ershoufang/pg' + str(page) + 'rs' + str(local) + '/'
      # base_url = 'https://bj.lianjia.com/ershoufang/pg' + str(path+ '/'
        urls.append(base_url)
        progress += 1
        ProgressBar.setValue(progress)

3.1.2保存数据

def write_content(content):
    global q
    with open('y.csv', 'a', encoding='utf-8') as f:
        name = ['地段', '户型', '面积', '价格']
        writer = csv.DictWriter(f, fieldnames=name)
        if q == 0:
            writer.writeheader()
            q += 1
        writer.writerow(content)
        f.close()

3.1.3 整理数据

for item in items:
    # print(item)
    yield {
        '地段': item[0],
        '户型': item[1],
        '面积': item[2],
        '价格': item[3]
    }
# print(\n)

3.1.4 requests批量get超文本数据

def parser_url():
            for url in urls:
            r = requests.get(url, headers=headers)
            r.encoding = 'utf-8'
           # time.sleep(1)
           html = r.text

3.1.5 利用的模块框架

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from sklearn import linear_modelimport time
import re
import requests
import csv
import json
import sys
from PyQt5 import QtGui, QtCore, QtWidgets
from PyQt5.QtCore import QObject, pyqtSignal
import os, string
import math
from PyQt5.QtWidgets import QPlainTextEdit, QMainWindow, QApplication, QMessageBox, QProgressBar
from PyQt5.QtWidgets import QPushButton

3.3数据分析

3.3.1分析二手房的数量
分析津南各个社区二手房的数量,用柱状图表示如图3.3.2,可见双港二手房的数量最多。
在这里插入图片描述

图3.3.1

在这里插入图片描述

图3.3.2

在这里插入图片描述
3.3.2分析房价平米与价格
分析津南平米数与价格的对比,用散点图表示如图3.3.3,可见平米数与价格成正比。

在这里插入图片描述




                            图3.3.3 

3.4线性回归预测房价

我们把通过爬虫采集的观测数据作为训练集,主要有房屋价格与房屋面积,通过线性回归模型来预测房屋价格,通过拿到训练集的min and max,然后在这个范围随机生成数据集作为测试集,以达到泛化最优.

3.4.1 L2正则化

测试之后我们发现模型受异常值影响较为严重,这里通过L2正则进行权重衰减,代码如下:
from sklearn.linear_model import Ridge
def huigui(data_x,data_y):
    plt.figure()
    plt.scatter(data_x,data_y,alpha=0.8)
    plt.show
huigui(data_x,data_y)
model = Ridge(alpha=1000000)  
model.fit(data_x, data_y)   
print('系数矩阵:\n',model.coef_)
# print('线性回归模型:\n',model)
plt.plot(data_x, model.predict(data_x),color='green')
plt.show

总结

通过这次课程设计,我大大提高了自己的自主学习能力,俗话说“师傅领进门,修行在个人”,要完成如此复杂的课程设计,仅靠老师上课教授的知识是远远不够的,需要我们自己去多加学习。在学习中,还应学会提问的方法,遇到问题不要慌张,要仔细往根源去找问题,不要一有问题就寻求老师同学帮忙,要有自主解决问题的能力。通过对代码的不断调试与修改,我们对于语法的理解更为透彻,同时我们的学习态度也得到了锻炼,变得更加严谨求实。通过本项课程设计,我们对于老师在课堂上讲授内容做相应的自主练习,消化课堂所讲解的内容的同时也锻炼了我们的逻辑思维,培养了我们独立思考、综合运用所学有关相应知识的能力。通过完成课题设计,磨练了我们敲代码写编程的意志,同时为我们以后编写更为复杂的程序积累下宝贵的经验,提升自身专业水平和必备技能。

目录
相关文章
|
2天前
|
数据采集 存储 JSON
从零到一构建网络爬虫帝国:HTTP协议+Python requests库深度解析
在网络数据的海洋中,网络爬虫遵循HTTP协议,穿梭于互联网各处,收集宝贵信息。本文将从零开始,使用Python的requests库,深入解析HTTP协议,助你构建自己的网络爬虫帝国。首先介绍HTTP协议基础,包括请求与响应结构;然后详细介绍requests库的安装与使用,演示如何发送GET和POST请求并处理响应;最后概述爬虫构建流程及挑战,帮助你逐步掌握核心技术,畅游数据海洋。
17 3
|
2天前
|
数据采集 API 开发者
🚀告别网络爬虫小白!urllib与requests联手,Python网络请求实战全攻略
在网络的广阔世界里,Python凭借其简洁的语法和强大的库支持,成为开发网络爬虫的首选语言。本文将通过实战案例,带你探索urllib和requests两大神器的魅力。urllib作为Python内置库,虽API稍显繁琐,但有助于理解HTTP请求本质;requests则简化了请求流程,使开发者更专注于业务逻辑。从基本的网页内容抓取到处理Cookies与Session,我们将逐一剖析,助你从爬虫新手成长为高手。
16 1
|
11天前
|
数据采集 JavaScript 前端开发
构建你的首个Python网络爬虫
【9月更文挑战第8天】本文将引导你从零开始,一步步构建属于自己的Python网络爬虫。我们将通过实际的代码示例和详细的步骤解释,让你理解网络爬虫的工作原理,并学会如何使用Python编写简单的网络爬虫。无论你是编程新手还是有一定基础的开发者,这篇文章都将为你打开网络数据获取的新世界。
|
11天前
|
数据采集 机器学习/深度学习 搜索推荐
Python爬虫技术基础与应用场景详解
本文介绍了爬虫技术的基本概念、原理及应用场景,包括数据收集、价格监测、竞品分析和搜索引擎优化等。通过一个实战案例展示了如何使用Python爬取电商网站的商品信息。强调了在使用爬虫技术时需遵守法律法规和道德规范,确保数据抓取的合法性和合规性。
|
14天前
|
数据采集 JavaScript 前端开发
打造你的Python爬虫:从基础到进阶
【9月更文挑战第5天】在数字信息泛滥的时代,掌握一项技能能让我们更好地筛选和利用这些资源。本文将带你了解如何用Python构建一个基本的网页爬虫,进而拓展到更复杂的数据抓取任务。无论你是编程新手还是有一定经验的开发者,跟随这篇文章的步伐,你将能够实现自动化获取网络数据的目标。准备好了吗?让我们一起潜入代码的世界,解锁新的可能!
WK
|
18天前
|
数据采集 XML 安全
常用的Python网络爬虫库有哪些?
Python网络爬虫库种类丰富,各具特色。`requests` 和 `urllib` 简化了 HTTP 请求,`urllib3` 提供了线程安全的连接池,`httplib2` 则具备全面的客户端接口。异步库 `aiohttp` 可大幅提升数据抓取效率。
WK
36 1
|
19天前
|
数据采集 JavaScript 前端开发
构建简易Python爬虫:抓取网页数据入门指南
【8月更文挑战第31天】在数字信息的时代,数据抓取成为获取网络资源的重要手段。本文将引导你通过Python编写一个简单的网页爬虫,从零基础到实现数据抓取的全过程。我们将一起探索如何利用Python的requests库进行网络请求,使用BeautifulSoup库解析HTML文档,并最终提取出有价值的数据。无论你是编程新手还是有一定基础的开发者,这篇文章都将为你打开数据抓取的大门。
|
20天前
|
数据采集 存储 数据库
构建你的第一个Python爬虫:从入门到实践
【8月更文挑战第31天】在数字时代的浪潮中,数据如同新时代的石油,而网络爬虫则是开采这些数据的钻头。本文将引导初学者了解并实现一个基础的网络爬虫,使用Python语言,通过实际代码示例,展示如何收集和解析网页信息。我们将一起探索HTTP请求、HTML解析以及数据存储等核心概念,让你能够快速上手并运行你的首个爬虫项目。
|
19天前
|
数据采集 存储 JavaScript
Python 爬虫实战:从入门到精通
【8月更文挑战第31天】 本文将带你走进 Python 爬虫的世界,从基础的请求和解析开始,逐步深入到反爬策略的应对和数据存储。我们将通过实际案例,一步步构建一个功能完整的爬虫项目。无论你是编程新手还是有一定经验的开发者,都能在这篇文章中找到适合自己的学习路径。让我们一起探索数据的海洋,揭开网络信息的神秘面纱。
|
20天前
|
数据采集 存储 JavaScript
Python 爬虫实战:从入门到精通
【8月更文挑战第31天】 本文将带你走进 Python 爬虫的世界,从基础的请求和解析开始,逐步深入到反爬策略的应对和数据存储。我们将通过实际案例,一步步构建一个功能完整的爬虫项目。无论你是编程新手还是有一定经验的开发者,都能在这篇文章中找到适合自己的学习路径。让我们一起探索数据的海洋,揭开网络信息的神秘面纱。