带你读《Elastic Stack 实战手册》之65:——3.5.19.1.Elasticsearch语言开发(Python)(下)

简介: 带你读《Elastic Stack 实战手册》之65:——3.5.19.1.Elasticsearch语言开发(Python)(下)

《Elastic Stack 实战手册》——三、产品能力——3.5 进阶篇——3.5.19.Elasticsearch语言开发(Python/Nodejs/Java)—— 3.5.19.1.Elasticsearch语言开发(Python)(上) https://developer.aliyun.com/article/1226664




、 常见的 API 使用

 

1. Index API

 

对 ES 单条写入只需要指定三部分信息:索引名,id, body。示例如下:

from datetime import datetime
from elasticsearch import Elasticsearch
#连接ES集群
es = Elasticsearch("192.168.2.2:27000")
#以JSON字符串的形式构建文档内容
doc = {
    'author': 'author_name',
    'text': 'Interesting content...',
    'timestamp': datetime.now(),
}
res = es.index(index="test-index", id=1, body=doc)
print(res['result'])

2. Get API

 

要获取一条文档需要指定其索引和 id

res = es.get(index="test-index", id=1)
#获取_source内的文档内容
print(res['_source'])

 3. Refresh API

 

ES接收数据请求时会先存入内存中,默认每隔一段时间会从内存 buffer 中将数据写入filesystem cache。如需手动 refresh ,可使用如下 API。


es.indices.refresh(index="test-index")

4. Search API


# 查询所有的数据
body = {
    "query":{
        "match_all":{}
    }
}
res = es.search(index="test-index",body=body)
print("Got %d Hits:" % res['hits']['total']['value'])
for hit in res['hits']['hits']:
    print("%(timestamp)s %(author)s: %(text)s" % hit["_source"])

5. Update API


doc = {
    'author': 'author_name',
    'text': 'Interesting modified content...',
    'timestamp': datetime.now(),
}
res = es.update(index="test-index", id=1, body=doc)
print(res['result'])

6. Delete API

es.delete(index="test-index", id=1)

7. Bulk API


elasticsearch 的 helpers 模块是对 bulk 的封装。Bulk API 接受索引、创建、删除和更新操作。使用 _op_type 字段指定操作(_op_type 默认为 index)

 

批量写入示例如下:


import random
from elasticsearch import Elasticsearch
from elasticsearch import helpers
es=Elasticsearch(hosts='192.168.2.2',port=27000)
meaningless_random_repeat=['python','elasticsearch','alibaba','bulk_helpers']
actions=[]
for i in range(10000):
    meaningless_random_repeat=meaningless_random_repeat[random.randrange(0,len(meaningless_random_repeat))]
    action={
            #操作 index update create delete  
            '_op_type':'index',
            #索引名
            '_index':'meaning_less_random_repeat',
            #索引type
            '_type':'_doc',  
            '_source':{'meaningless_random_repeat':meaningless_random_repeat}}
    actions.append(action)
helpers.bulk(client=es,actions=actions)
#这里使用streaming_bulk,如果设置线程数的需求可以使用parallel_bulk  
for ok,response in helpers.streaming_bulk(es,actions):
        if not ok:
            print(response)

8. Scan API

当我们需要使用大查询时可以使用 Scan API。Scan API 是对 scroll API 的简单封装。

from elasticsearch import Elasticsearch
from elasticsearch import helpers
es=Elasticsearch(hosts='192.168.2.2',port=27000)
query='{ "match": { "#Symbol": "FANCD2"}}}'
index = 'hgvs4variation'
source={'hgvs4variation':'hgvs4variation'}
datas = helpers.scan(es, index=index, query=body, size=1000, request_timeout=100, _source=source)
for data in datas:
    print(data)

、优化建议

 

1. 写入优化

 

针对日志类场景,对于写入速度要求很高而对数据的情况下:

 

l 不要单条导入,尽量使用 Bulk API。这样是为了提高写入效率。

l 可以先设置索引副本为0,写完恢复副本数。这样是为了降低索引副本分配产生的性能开销。

l 增加 Index Refresh 间隔,这样是为了减少 Segment Merge 的次数。

 

2. 查询优化

 

针对大查询的场景:

 

l 运维端可以根据当前的集群情况适当调整 max_result_window 参数。

l 开发端可以使用 ES 的 scroll API 或者 helpers 的 scan API,尽量控制每次拉取的条数以及避免深翻。

l 选择合适的路由,查询时可以根据 Routing 信息,直接定位到目标分片,避免查询所有的分片。


五、完整的代码示例

 

https://gitee.com/ld-sys/elasticsearch-python

 

参考

 

l https://www.elastic.co/guide/en/elasticsearch/client/python-api/current/index.html

 

创作人简介:

张刘毅,Elastic 认证工程师,存储研发工程师,曾经做过 AI 大数据平台研发,负责过80+ES集群。目前专注于生物医药和大数据。

博客:https://blog.csdn.net/dtzly

相关实践学习
以电商场景为例搭建AI语义搜索应用
本实验旨在通过阿里云Elasticsearch结合阿里云搜索开发工作台AI模型服务,构建一个高效、精准的语义搜索系统,模拟电商场景,深入理解AI搜索技术原理并掌握其实现过程。
ElasticSearch 最新快速入门教程
本课程由千锋教育提供。全文搜索的需求非常大。而开源的解决办法Elasricsearch(Elastic)就是一个非常好的工具。目前是全文搜索引擎的首选。本系列教程由浅入深讲解了在CentOS7系统下如何搭建ElasticSearch,如何使用Kibana实现各种方式的搜索并详细分析了搜索的原理,最后讲解了在Java应用中如何集成ElasticSearch并实现搜索。  
相关文章
|
6月前
|
存储 监控 算法
淘宝买家秀 API开发实录Python(2025)
本文讲述了作者在电商开发领域,尤其是对接淘宝买家秀 API 接口过程中所经历的挑战与收获。从申请接入、签名验证、频率限制到数据处理和实时监控,作者分享了多个实战经验与代码示例,帮助开发者更高效地获取和处理买家秀数据,提升开发效率。
|
9月前
|
API C++ 开发者
PySide vs PyQt:Python GUI开发史诗级对决,谁才是王者?
PySide 和 PyQt 是 Python GUI 开发领域的两大利器,各有特色。PySide 采用 LGPL 协议,更灵活;PyQt 默认 GPL,商业使用需授权。两者背后团队实力雄厚,PySide 得到 Qt 官方支持,PyQt 由 Riverbank Computing 打造。API 设计上,PySide 简洁直观,贴近原生 Qt;PyQt 增加 Pythonic 接口,操作更高效。性能方面,两者表现优异,适合不同需求的项目开发。选择时可根据项目特点与开源要求决定。
985 20
|
5月前
|
设计模式 人工智能 API
AI智能体开发实战:17种核心架构模式详解与Python代码实现
本文系统解析17种智能体架构设计模式,涵盖多智能体协作、思维树、反思优化与工具调用等核心范式,结合LangChain与LangGraph实现代码工作流,并通过真实案例验证效果,助力构建高效AI系统。
714 7
|
11月前
|
前端开发 JavaScript 关系型数据库
基于Python+Vue开发的商城管理系统源码+运行步骤
基于Python+Vue开发的商城管理系统(前后端分离),这是一项为大学生课程设计作业而开发的项目。该系统旨在帮助大学生学习并掌握Python编程技能,同时锻炼他们的项目设计与开发能力。通过学习基于Python的网上商城管理系统项目,大学生可以在实践中学习和提升自己的能力,为以后的职业发展打下坚实基础。
389 7
|
6月前
|
算法 程序员 API
电商程序猿开发实录:淘宝商品python(2)
本文分享了开发者在对接淘宝商品详情API过程中的真实经历,涵盖权限申请、签名验证、限流控制、数据解析及消息订阅等关键环节,提供了实用的Python代码示例,帮助开发者高效调用API,提升系统稳定性与数据处理能力。
|
7月前
|
数据采集 存储 数据库
Python爬虫开发:Cookie池与定期清除的代码实现
Python爬虫开发:Cookie池与定期清除的代码实现
|
8月前
|
人工智能 搜索推荐 数据可视化
用 Python 制作简单小游戏教程:手把手教你开发猜数字游戏
本教程详细讲解了用Python实现经典猜数字游戏的完整流程,涵盖从基础规则到高级功能的全方位开发。内容包括游戏逻辑设计、输入验证与错误处理、猜测次数统计、难度选择、彩色输出等核心功能,并提供完整代码示例。同时,介绍了开发环境搭建及调试方法,帮助初学者快速上手。最后还提出了图形界面、网络对战、成就系统等扩展方向,鼓励读者自主创新,打造个性化游戏版本。适合Python入门者实践与进阶学习。
1053 1
|
10月前
|
程序员 测试技术 开发工具
怎么开发Python第三方库?手把手教你参与开源项目!
大家好,我是程序员晚枫。本文将分享如何开发Python第三方库,并以我维护的开源项目 **popdf** 为例,指导参与开源贡献。Popdf是一个PDF操作库,支持PDF转Word、转图片、合并与加密等功能。文章涵盖从fork项目、本地开发、单元测试到提交PR的全流程,适合想了解开源贡献的开发者。欢迎访问[popdf](https://gitcode.com/python4office/popdf),一起交流学习!
334 21
怎么开发Python第三方库?手把手教你参与开源项目!
|
8月前
|
存储 算法 数据可视化
用Python开发猜数字游戏:从零开始的手把手教程
猜数字游戏是编程入门经典项目,涵盖变量、循环、条件判断等核心概念。玩家通过输入猜测电脑生成的随机数,程序给出提示直至猜中。项目从基础实现到功能扩展,逐步提升难度,适合各阶段Python学习者。
649 0
|
8月前
|
数据采集 存储 监控
抖音直播间采集提取工具,直播间匿名截流获客软件,Python开发【仅供学习】
这是一套基于Python开发的抖音直播间数据采集与分析系统,包含观众信息获取、弹幕监控及数据存储等功能。代码采用requests、websockets和sqlite3等...

热门文章

最新文章

相关产品

  • 检索分析服务 Elasticsearch版
  • 推荐镜像

    更多