如何自己找数据分析项目来做?

简介: 想要分析的时候,没有数据,就是巧妇难为无米之炊。以前想找一个数据需要费尽心思在网上去搜,最终还找不到自己想要的数据。通过编程爬虫数据,学习成本又太高,毕竟你的目标不是想要成为爬虫工程师,只是想要拿到数据来分析。那有没有傻瓜式的获取数据方法呢?

想要分析的时候,没有数据,就是巧妇难为无米之炊。以前想找一个数据需要费尽心思在网上去搜,最终还找不到自己想要的数据。通过编程爬虫数据,学习成本又太高,毕竟你的目标不是想要成为爬虫工程师,只是想要拿到数据来分析。那有没有傻瓜式的获取数据方法呢?

下面介绍4种获取数据的方法,选择一种适合你自己的方法就可以。

方法一:直接获取10大行业免费数据
640.jpg
1)如何选择行业?

不知道如何选择行业的,可以在下面网站里看到各个行业的分析报告:

如何选择入职行业 :https://www.zhihu.com/question/24995484/answer/516813008

艾瑞研究-艾瑞网(行业报告):http://report.iresearch.cn

Talkingdata报告(行业报告):http://mi.talkingdata.com

199IT互联网数据中心(行业报告,内容多,支持搜索):http://www.199it.com

2)10大行业免费数据汇总

【优点】直接拿来使用

【缺点】数据有限

根据你确定的行业,选择一个自己感兴趣的数据。比如你确定了电商行业,然后就找一个电商行业的数据。

在《数据分析思维》中汇聚了10多个行业的数据以及分析案例
微信图片_20211008193338.jpg
v2-796e2d07fde7625214da05f97b54e9c7_720w.jpg

更多行业数据:

10大行业公开数据免费下载:电商零售行业

10大行业公开数据免费下载:金融行业

10大行业公开数据免费下载:游戏行业

10大行业公开数据免费下载:教育行业

10大行业公开数据免费下载:旅游行业

10大行业公开数据免费下载:文化娱乐行业(电影,音乐等)

10大行业公开数据免费下载:医疗行业

10大行业公开数据免费下载:汽车及出行

10大行业公开数据免费下载:房产行业

10大行业公开数据免费下载:自媒体等行业

方法二:从数据平台获取
1.国内中文平台:

1)阿里云天池,官网网址:https://tianchi.aliyun.com/dataset/

数据下载办法:

v2-cc15ec3a3ba65789bd231072d940a1e7_720w.png

微信图片_20211008193403.jpg
v2-cc15ec3a3ba65789bd231072d940a1e7_720w.png

2)DataFountain,官网地址:https://www.datafountain.cn/dataSets

有的文件下载后会显示后缀是.zip, .zip是个压缩包,下载后需要减压后才能看到压缩包里的excel文件

v2-58cd22d0c06e258937e18520857b6bdc_720w.png
2.国外英文平台

Kaggle,官网地址和如何下载数据:如何在Kaggle上查找数据

方法三:傻瓜式爬虫工具(不需要编程)
【优点】在网站上爬取你感兴趣领域网站的数据,可以获取到自己想要的领域数据

【缺点】需要看官网教程来学习,有一定门槛

1)工具: 后羿,同时有mac,windows版本

网址:http://www.houyicaiji.com/

打开官网后点击下图“教程”的地方有入门教程。
v2-86380db628e1694c0393c0fdb6f847ed_720w.jpg
2)工具:集搜客,只有windows版本

操作指南只需要看下面红框中的内容就可以,操作指南地址:

v2-28420e42e356a98f9c9ac2be8806311d_720w.png
爬取多少数据?

数据量少一般说明不了什么问题,起码的超过几万条数据。

多尝试、思维逻辑要清晰,一定要知道自己做什么,爬取什么样的数据,提前规划好了,整个过程就不会走太多的弯路。
微信图片_20211008193745.jpg

案例:https://zhuanlan.zhihu.com/p/39733403

欢迎留言补充更多行业数据。

上面提到3种获取数据的方法,选择一种适合你自己方法。获取数据后分析,可以使用这个里面的方法来分析:

https://www.zhihu.com/question/29265587/answer/155365747

相关文章
|
2月前
|
数据采集 机器学习/深度学习 数据可视化
关于Python数据分析项目的简要概述:从CSV加载数据,执行数据预处理,进行数据探索,选择线性回归模型进行训练,评估模型性能并优化,最后结果解释与可视化。
【7月更文挑战第5天】这是一个关于Python数据分析项目的简要概述:从CSV加载数据,执行数据预处理(填充缺失值,处理异常值),进行数据探索(可视化和统计分析),选择线性回归模型进行训练,评估模型性能并优化,最后结果解释与可视化。此案例展示了数据科学的典型流程。
55 2
|
12月前
|
数据采集 存储 数据可视化
Python实战项目——餐厅订单数据分析(一)
Python实战项目——餐厅订单数据分析(一)
919 0
|
12月前
|
数据采集 数据可视化 数据挖掘
学生成绩分析项目——数据分析与可视化
学生成绩分析项目——数据分析与可视化
685 0
|
10月前
|
数据采集 JSON JavaScript
网络爬虫的实战项目:使用JavaScript和Axios爬取Reddit视频并进行数据分析
网络爬虫是一种程序或脚本,用于自动从网页中提取数据。网络爬虫的应用场景非常广泛,例如搜索引擎、数据挖掘、舆情分析等。本文将介绍如何使用JavaScript和Axios这两个工具,实现一个网络爬虫的实战项目,即从Reddit这个社交媒体平台上爬取视频,并进行数据分析。本文的目的是帮助读者了解网络爬虫的基本原理和步骤,以及如何使用代理IP技术,避免被目标网站封禁。
211 0
网络爬虫的实战项目:使用JavaScript和Axios爬取Reddit视频并进行数据分析
|
12月前
|
SQL 数据挖掘 Python
Python实战项目——旅游数据分析(四)
Python实战项目——旅游数据分析(四)
275 0
|
12月前
|
数据采集 数据可视化 搜索推荐
Python实战项目——用户消费行为数据分析(三)
Python实战项目——用户消费行为数据分析(三)
976 0
|
12月前
|
数据采集 数据可视化 数据挖掘
Python实战项目——物流行业数据分析(二)
Python实战项目——物流行业数据分析(二)
328 0
|
SQL 前端开发 JavaScript
9-点击流数据分析项目-前后端展示
文章目录 9-点击流数据分析项目-前端展示 数据库配置 执行sql文件 创建maven项目 配置pom文件
9-点击流数据分析项目-前后端展示
|
数据采集 SQL 监控
5-网站日志分析案例项目回顾与点击流数据分析项目介绍
文章目录 5-网站日志分析案例项目回顾与点击流数据分析项目介绍 一、网站日志流量数据分析 1.背景: 2.日志种类 3.分析指标 4.日志流量数据分析系统
5-网站日志分析案例项目回顾与点击流数据分析项目介绍
|
SQL 分布式计算 Ubuntu
8-点击流数据分析项目-Hive分析
文章目录 8-点击流数据分析项目-Hive分析 一、环境准备与数据导入 1.开启hadoop 2.导入数据
8-点击流数据分析项目-Hive分析

热门文章

最新文章