手把手教学:使用Elastic search和Kibana进行数据探索(Python语言)

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介:

探索性数据分析(EDA)帮助我们认识底层的数据基结构及其动力学,以此来最大限度发掘出数据的可能性。EDA是提取重要变量和检测异常值的关键。尽管存在着很多种机器学习算法,但EDA仍被视为理解和推动业务的最关键算法之一。

其实有很多种方式都能够执行实现EDA,例如Python的matplotlib、seaborn库,R语言的ggplot2,而且网络上有很多很好的资源,例如John W. Tukey的“探索性数据分析”, Roger D. Peng 的“用R进行探索性数据分析”等,不胜枚举。

在本文中,我主要讲解下如何使用Elastic search和Kibana实现EDA。

目录:

1. Elastic search

2. Kibana

3. 创建数据表

  • 数据索引
  • 链接Kibana
  • 可视化

4. 搜索栏

1. Elastic Search (ES)

Elastic Search是一个开放源码,RESTful分布式和可扩展的搜索引擎。由于其简单的设计和分布式特性,Elastic Search从大量级数据(PB)中进行简单或复杂的查询、提取结果都非常迅速。另外相较于传统数据库被模式、表所约束,Elastic Search工作起来也更加容易。

Elastic Search提供了一个具有HTTP Web界面和无模式JSON文档的分布式、多租户的全文搜索引擎。

ES安装

安装和初始化是相对简单的,如下所示:

  • 下载并解压Elasticsearch包
  • 改变目录到Elasticsearch文件夹
  • 运行bin/ Elasticsearch(或在Windows上运行bin \elasticsearch.bat)

Elasticsearch实例在默认配置的浏览器中进行本地运行http://localhost:9200

2.Kibana

Kibana是一个基于Elasticsearch的开源数据挖掘和可视化工具,它可以帮助用户更好地理解数据。它在Elasticsearch集群索引的内容之上提供可视化功能。

安装

安装和初始化的过程与Elasticsearch类似:

  • 下载并解压Kibana包
  • 用编辑器打开config/ Kibana.yml,配置elasticsearch.url指向本地ElasticSearch实例所在位置
  • 更改目录到Kibana文件夹
  • 运行bin/ Kibana(或在Windows上运行bin \ kibana.bat)

Kibana实例在默认配置的浏览器中进行本地运行http://localhost:5601.

将运行Kibana的终端保持打开状态,可以保证实例不断的运行。你也可以使用nohup模式在后台运行实例。

3. 创建数据表

使用ES和Kibana创建仪表板主要有三个步骤。接下来我将会用贷款预测的实际问题的数据来示例如何创建一个仪表板。请注册该问题,以便能够下载数据。请检查数据字典以获得更多详细信息。

注:在本文中,我将使用python读取数据并将数据插入到Elasticsearch中,并通过Kibana进行可视化。

读取数据


  
  
  1. import pandas as pd 
  2. train_data_path = '../loan_prediction_data/train_u6lujuX_CVtuZ9i.csv' 
  3. test_data_path = '../loan_prediction_data/test_Y3wMUE5_7gLdaTN.csv' 
  4. train = pd.read_csv(train_data_path); print(train.shape) 
  5. test = pd.read_csv(test_data_path); print(test.shape) 

结果:


  
  
  1. (614, 13) 
  2. (367, 12) 

3.1 数据索引

Elasticsearch将数据索引到其内部数据格式,并将其存储在类似于JSON对象的基本数据结构中。请找到下面的Python代码,将数据插入到ES当中。

请如下所示安装pyelasticsearch库以便通过Python索引。


  
  
  1. pip install pyelasticsearch 

  
  
  1. from time import time 
  2. from pyelasticsearch import ElasticSearch 
  3.  
  4. CHUNKSIZE=100 
  5.  
  6. index_name_train = "loan_prediction_train" 
  7. doc_type_train = "av-lp_train" 
  8.  
  9. index_name_test = "loan_prediction_test" 
  10. doc_type_test = "av-lp_test" 

  
  
  1. def index_data(data_path, chunksize, index_name, doc_type): 
  2.     f = open(data_path) 
  3.     csvfile = pd.read_csv(f, iterator=True, chunksize=chunksize)  
  4.     es = ElasticSearch('http://localhost:9200/'
  5.     try : 
  6.         es.delete_index(index_name) 
  7.     except : 
  8.         pass 
  9.     es.create_index(index_name) 
  10.     for i,df in enumerate(csvfile):  
  11.         records=df.where(pd.notnull(df), None).T.to_dict() 
  12.         list_records=[records[it] for it in records] 
  13.         try : 
  14.             es.bulk_index(index_name, doc_type, list_records) 
  15.         except : 
  16.             print("error!, skiping chunk!"
  17.             pass 

  
  
  1. index_data(train_data_path, CHUNKSIZE, index_name_train, doc_type_train) # Indexing train data 

  
  
  1. index_data(test_data_path, CHUNKSIZE, index_name_test, doc_type_test) # Indexing test data 

  
  
  1. DELETE /loan_prediction_train [status:404 request:0.010s] 
  2. DELETE /loan_prediction_test [status:404 request:0.009s] 

3.2 链接Kibana

  • 在浏览器上访问 http://localhost:5601
  • 去管理模块中选取索引模式,点击添加。
  • 如果你的索引数据中包含时间戳,则选复选框。否则,取消选中该框。
  • 将之前用于数据索引到ElasticSearch中的索引输入。 (例如:loan_prediction_train)。
  • 点击新建。

对loan_prediction_test重复上述4个步骤。 现在kibana已经与训练数据链接,并测试数据是否已经存在于elastic search中。

3.3可视化

  • 单击 可视化>创建可视化>选择可视化类型>选择索引(训练或测试)>构建

例一

选择垂直条形图,并选择绘制Loan_status分布的训练索引。

将y轴作为计数,x轴代表贷款状态

  • 保存可视化
  • 添加仪表板>选择索引>添加只保存的可视化。

Voila!! Dashboard 生成啦!

例二

  • 单击可视化>创建可视化>选择可视化类型>选择索引(训练或测试)>构建
  • 选择垂直条形图,并选择训练索引绘制已婚分布。
  • 选择y轴为计数,x轴为已婚

  • 保存可视化。
  • 重复上述步骤进行索引测试。
  • 打开已创建的仪表板添加这些可视化

例三

类似的性别分布。这一次我们将使用饼图。

  • 单击可视化>创建可视化>选择可视化类型>选择索引(训练或测试)>构建
  • 选择饼图并选择列车索引绘制已婚分布。
  • 按“已分隔”列选择切片大小作为计数和分割片段

  • 保存可视化。
  • 重复上述步骤进行索引测试。
  • 打开已创建的仪表板添加这些可视化

最后,创建所有可视化的仪表板将如下所示!

是不是很漂亮!

剩下将由你来探索更多的elasticsearch和Kibana了,并创建多种多样的可视化效果。

4.搜索栏

搜索栏允许用户通过字符串来搜索来数据,这便有助于我们理解数据中的更改,并在一个特定属性中进行更改,这对于可视化来说是不容易的。

举例

  • 转到发现>添加Loan_Status和Credit_History
  • 使用搜索栏仅选择Credit_History为0.(Credit_History:0)
  • 现在可以查看Loan_Status列中的更改记录。

观点:大多数信用记录为0的客户没有收到贷款(贷款状态为N = 92.1%)              


本文作者:佚名

来源:51CTO

相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
1月前
|
数据采集 数据可视化 数据挖掘
利用Python自动化处理Excel数据:从基础到进阶####
本文旨在为读者提供一个全面的指南,通过Python编程语言实现Excel数据的自动化处理。无论你是初学者还是有经验的开发者,本文都将帮助你掌握Pandas和openpyxl这两个强大的库,从而提升数据处理的效率和准确性。我们将从环境设置开始,逐步深入到数据读取、清洗、分析和可视化等各个环节,最终实现一个实际的自动化项目案例。 ####
160 10
|
4天前
|
数据采集 Web App开发 数据可视化
Python用代理IP获取抖音电商达人主播数据
在当今数字化时代,电商直播成为重要的销售模式,抖音电商汇聚了众多达人主播。了解这些主播的数据对于品牌和商家至关重要。然而,直接从平台获取数据并非易事。本文介绍如何使用Python和代理IP高效抓取抖音电商达人主播的关键数据,包括主播昵称、ID、直播间链接、观看人数、点赞数和商品列表等。通过环境准备、代码实战及数据处理与可视化,最终实现定时任务自动化抓取,为企业决策提供有力支持。
|
5天前
|
人工智能 自然语言处理 搜索推荐
云端问道12期实操教学-构建基于Elasticsearch的企业级AI搜索应用
本文介绍了构建基于Elasticsearch的企业级AI搜索应用,涵盖了从传统关键词匹配到对话式问答的搜索形态演变。阿里云的AI搜索产品依托自研和开源(如Elasticsearch)引擎,提供高性能检索服务,支持千亿级数据毫秒响应。文章重点描述了AI搜索的三个核心关键点:精准结果、语义理解、高性能引擎,并展示了架构升级和典型应用场景,包括智能问答、电商导购、多模态图书及商品搜索等。通过实验部分,详细演示了如何使用阿里云ES搭建AI语义搜索Demo,涵盖模型创建、Pipeline配置、数据写入与检索测试等步骤,同时介绍了相关的计费模式。
|
24天前
|
数据采集 Web App开发 监控
Python爬虫:爱奇艺榜单数据的实时监控
Python爬虫:爱奇艺榜单数据的实时监控
|
1月前
|
Unix 编译器 C语言
[oeasy]python052_[系统开发语言为什么默认是c语言
本文介绍了C语言为何成为系统开发的首选语言,从其诞生背景、发展历史及特点进行阐述。C语言源于贝尔实验室,与Unix操作系统相互促进,因其简洁、高效、跨平台等特性,逐渐成为主流。文章还提及了C语言的学习资料及其对编程文化的影响。
28 5
|
19天前
|
数据采集 存储 XML
python实战——使用代理IP批量获取手机类电商数据
本文介绍了如何使用代理IP批量获取华为荣耀Magic7 Pro手机在电商网站的商品数据,包括名称、价格、销量和用户评价等。通过Python实现自动化采集,并存储到本地文件中。使用青果网络的代理IP服务,可以提高数据采集的安全性和效率,确保数据的多样性和准确性。文中详细描述了准备工作、API鉴权、代理授权及获取接口的过程,并提供了代码示例,帮助读者快速上手。手机数据来源为京东(item.jd.com),代理IP资源来自青果网络(qg.net)。
|
1月前
|
数据采集 分布式计算 大数据
构建高效的数据管道:使用Python进行ETL任务
在数据驱动的世界中,高效地处理和移动数据是至关重要的。本文将引导你通过一个实际的Python ETL(提取、转换、加载)项目,从概念到实现。我们将探索如何设计一个灵活且可扩展的数据管道,确保数据的准确性和完整性。无论你是数据工程师、分析师还是任何对数据处理感兴趣的人,这篇文章都将成为你工具箱中的宝贵资源。
|
2月前
|
传感器 物联网 开发者
使用Python读取串行设备的温度数据
本文介绍了如何使用Python通过串行接口(如UART、RS-232或RS-485)读取温度传感器的数据。详细步骤包括硬件连接、安装`pyserial`库、配置串行端口、发送请求及解析响应等。适合嵌入式系统和物联网应用开发者参考。
75 3
|
2月前
|
存储 JSON Java
ELK 圣经:Elasticsearch、Logstash、Kibana 从入门到精通
ELK是一套强大的日志管理和分析工具,广泛应用于日志监控、故障排查、业务分析等场景。本文档将详细介绍ELK的各个组件及其配置方法,帮助读者从零开始掌握ELK的使用。
|
3月前
|
数据采集 JSON 数据处理
抓取和分析JSON数据:使用Python构建数据处理管道
在大数据时代,电商网站如亚马逊、京东等成为数据采集的重要来源。本文介绍如何使用Python结合代理IP、多线程等技术,高效、隐秘地抓取并处理电商网站的JSON数据。通过爬虫代理服务,模拟真实用户行为,提升抓取效率和稳定性。示例代码展示了如何抓取亚马逊商品信息并进行解析。
抓取和分析JSON数据:使用Python构建数据处理管道