大数据告诉你买车的正确姿势!

简介:

本文涉及的技术比较简单,抓取方面没有使用任何框架,因为只是临时性的任务,数据统计方面使用了Tableau,统计维度简单,比较容易上手。按数据抓取和数据分析两方面:

一、数据抓取
我抓取的数据源是某汽车门户网站口碑网页,内容广泛而详尽是这家网站的特点。通常描述或定位一款汽车的顺序为品牌->车系->车型,比如大众->迈腾->迈腾 2016款1.8TSI智享豪华型,该网站的口碑是具体到每一款车型的,并对每一款车系有一个整体口碑评分。我抓取的数据就是针对每一款车型的所有口碑数据,包括量化的评分和非量化的文字评论。如下面一条具体的口碑内容:


可以看到左侧有8项关于汽车的评分是量化的,右侧有各维度的文字评论是非量化的,需要后期自然语言分析。左侧的评分按照车型、车系归类后,可形成一份初级的口碑评分数据,来作为图形化分析的数据来源。

在2016年9月份抓取的该网站口碑数据中,包含所有的在售车和停售车,口碑总量约80万条。抓取分为两个部分,一部分为脚本抓取,目的是抓取所有口碑的详情链接url,另一部分是购买的百度bce云解析抓取,目的是根据详情链接抓取口碑页面。

第一部分脚本抓取是自己写的python脚本,没有使用任何框架,仅依靠requests、re和lxml完成页面的下载和解析。该网站对外部抓取几乎没有封禁策略,无需设置headers甚至访问的间隔时间。按照品牌->车系->车型的顺序找到200+个品牌和2200+个车系和23000+个车型,然后根据每个车型口碑页的链接规则构建出每个车型口碑的列表页,下载页面并解析出每个车型下口碑的数量和所有口碑详情页的url。由于没有使用抓取框架,提取链接主要用了re的一些特定规则,没有复杂的逻辑和代码。

第二部分是根据第一步下载并提取的80万个url下载口碑详情页并提取相应数据,上文提到了该网站几乎没有封禁策略,所以这80万个页面也可以用requests慢慢下载,不过项目组购买了百度云的服务,对于量大且无需太精准度的数据非常适合。每10000个url作为一个任务,每个任务间隔时间300s(非极限),百度抓取的优势在于速度快,并且目标网站不会封禁百度服务器的爬虫。

下载详情页后的内容提取就是一些简单的xpath解析,提取后的内容存入数据库或Excel:


二、数据分析
Tableau是一款功能非常强大的可视化数据分析软件,本文仅使用了简单的数据统计和分析并呈现在图表上。以下是一些简单的统计结果:

按品牌、车系、车型分别统计口碑数量,反映了车主对不同车型的关注热度:




分级别统计车辆的各项指标排名(参照口碑数量,平均分,同级别排名),下文分别列出了 不同统计类别的统计结果,反映了车主对各级别车的不同维度的评价。

A00级车-油耗评分 


A0级车-操控评分


A级车-动力评分


B级车-空间评分


SUV(10-20万)-性价比评分


以上是对汽车口碑数据的简单统计,仅涉及了可量化的评分数据,统计维度也比较简单,实际上针对不同车型的对比和排名还要参考更多其他的市场和维护保养数据,本文仅作参考。

原文发布时间为:2017-01-12
本文作者:hectorhua
本文来自云栖社区合作伙伴“ Python中文社区”,了解相关信息可以关注“ Python中文社区”微信公众号
相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
机器学习/深度学习 数据采集 人工智能
【技术揭秘】高性能粤语语音识别模型构建方案
随着人工智能技术的飞速发展,语音识别(Automatic SpeechRecognition)的应用越来越广泛,对于多语种多口音语音识别的需求也在日渐增加。虽然语音识别系统的基本原理和框架是不受限于语种的,在建立一个新语种的ASR模型时,还是需要结合到语言本身的特点,才能得到较好的效果。
【技术揭秘】高性能粤语语音识别模型构建方案
|
8月前
|
传感器 人工智能 JavaScript
Playwright实战:写UI自动化脚本,速度直接起飞
简介: 测试工程师老王因UI自动化问题深夜奋战,反映出传统测试工具的局限性。微软开源的Playwright凭借智能等待、跨域操作、移动端模拟与网络拦截等强大功能,正迅速取代Selenium,成为新一代自动化测试标准。其稳定高效的设计显著降低维护成本,助力企业构建高质量测试流程。
|
机器学习/深度学习 人工智能 搜索推荐
医疗领域的人工智能:诊断和治疗的革命
医疗领域的人工智能:诊断和治疗的革命
525 84
|
机器学习/深度学习 自然语言处理 达摩院
长文本口语语义理解技术系列①:段落分割实践
数智化浪潮下,越来越多的企业开始将现代信息网络作为数据资源的主要载体,并通过网络通信技术进行数据传输;网络作为主要的信息交流和分享的方式,海量不同源的网络信息,使得企业与个人消化信息的成本越来越高。音视频数据作为其中重要的信息来源之一,也随着远程视频会议、在线课堂、直播教学、电话销售等领域有了爆炸性的增长。
3960 0
长文本口语语义理解技术系列①:段落分割实践
线程池的核心参数有哪些 ?
corePoolSize 核心线程数量 maximumPoolSize 最大线程数量 keepAliveTime 线程保持时间,N个时间单位 unit 时间单位(比如秒,分) workQueue 阻塞队列 threadFactory 线程工厂 handler 线程池拒绝策略
|
敏捷开发 数据可视化 项目管理
2024年最强的5大需求管理工具有哪些?如何选择最适合的需求管理软件?
随着项目管理和产品开发复杂性的增加,需求管理成为团队成功的关键。本文推荐5款需求管理工具:板栗看板、ProdPad、Craft.io、Airfocus和Targetprocess,分别适用于任务分配、产品规划、需求捕捉、优先级管理和敏捷开发等场景,帮助团队提高协作效率和交付质量。
 2024年最强的5大需求管理工具有哪些?如何选择最适合的需求管理软件?
|
机器学习/深度学习 数据采集 传感器
基于深度学习的图像识别技术在自动驾驶中的应用研究####
本文旨在探讨深度学习技术,特别是卷积神经网络(CNN)在自动驾驶车辆图像识别领域的应用与进展。通过分析当前自动驾驶技术面临的挑战,详细介绍了深度学习模型如何提升环境感知能力,重点阐述了数据预处理、网络架构设计、训练策略及优化方法,并展望了未来发展趋势。 ####
529 6
|
机器学习/深度学习 数据采集 人工智能
动手实践:从零开始训练AI模型的全面指南
【7月更文第14天】随着人工智能技术的飞速发展,训练AI模型已成为科研、工程乃至创业领域的热门技能。本文旨在为初学者提供一个清晰、实用的指南,带领大家从零开始,了解并实践如何训练一个人工智能模型。我们将以一个简单的线性回归任务为例,逐步深入,探讨数据预处理、模型构建、训练过程及评估方法,最后展示如何使用Python和深度学习库PyTorch实现这一过程。
7513 0
|
传感器 自动驾驶 物联网
探秘 5G 核心网络之 5G RAN:开启高速通信新时代
探秘 5G 核心网络之 5G RAN:开启高速通信新时代
643 4
|
负载均衡 监控 网络协议

热门文章

最新文章