存储

首页 标签 存储
# 存储 #
关注
192955内容
大规模检索系统
本讲介绍大规模检索系统如何通过分布式技术加速检索。通过索引拆分,将倒排索引分散到多台服务器内存中,减少单机数据规模和磁盘访问,从而提升单次查询效率。结合分发服务器与负载均衡,实现高吞吐、低延迟的分布式检索架构。
05 | 倒排索引:如何从海量数据中查询同时带有「极」和「客」的唐诗?
本文通过唐诗检索的类比,深入浅出地讲解了正排索引与倒排索引的核心原理。正排索引以文档ID为键,适合精确查找;而倒排索引以关键词为键,指向包含该词的文档列表,极大提升了多关键词联合查询的效率。文章详细介绍了倒排索引的构建步骤:文档编号、关键词解析、哈希表插入及链表归并查询,并解释了如何通过有序链表的归并实现高效交集运算。此外,还探讨了多字段索引(如作者)、敏感词检测、内存优化等实际应用问题,揭示了倒排索引在搜索引擎、推荐系统等大规模检索场景中的核心地位。
数组(顺序存储)基本原理
本章讲解数组的底层原理,区分静态数组与动态数组。静态数组是连续内存空间,支持O(1)随机访问,但增删效率低;动态数组基于静态数组封装,提供自动扩容和常用API,使用更便捷。我们将从零实现一个动态数组,掌握其增删查改机制,理解常见数据结构的底层逻辑,为后续学习栈、队列、哈希表打下基础。
|
5天前
|
07-Mysql容器环境搭建
本文介绍了MySQL的Docker环境搭建全过程,因CPU兼容性问题选用8.4.0-oraclelinux8镜像,详细说明了容器卷映射、配置文件设置、容器启动及数据库导入方法,并涵盖用户权限配置、数据备份与恢复、程序连接配置等关键操作,助力高效部署与管理MySQL数据库。
|
5天前
|
09-ELK环境搭建
基于ElasticSearch、Kibana、Filebeat构建日志系统,实现日志采集、解析、展示与过期删除。部署于192.168.xxx.xxx,使用ELK 8.15.0版本,通过Pipeline解析日志,CCE容器化部署filebeat,支持多级日志管理与中文界面展示。
大模型应用开发
大模型应用开发指通过API与大模型交互,构建智能化应用。不同于传统Java开发,其核心在于调用部署在云端或本地的大模型服务。企业可选择开放API、云平台或本地服务器部署,各具成本、安全与性能权衡。本章将详解部署方式与开发实践,助你快速入门。
|
5天前
|
认证源码分析与自定义后端认证逻辑
本文深入分析Spring Security认证源码,从UsernamePasswordAuthenticationFilter到AuthenticationManager、AbstractUserDetailsAuthenticationProvider,层层解析认证流程。重点讲解自定义UserDetailService实现与Security配置,结合过滤器链原理,实现数据库认证逻辑,并提供完整代码仓库。
|
5天前
|
16-CIG重量级监控
CIG(CAdvisor+InfluxDB+Grafana)是一套容器监控解决方案。CAdvisor采集资源数据,InfluxDB存储时序数据,Grafana可视化展示,实现对CPU、内存、网络等指标的持久化监控与分析,支持预警与多源图表展示,适用于Docker环境的全面监控需求。
Geohash 编码
Geohash编码将经纬度转换为字符串,通过不断二分地球经纬度区间,交叉组合生成区域编码,再转为Base32简化表示。它用于高效存储和查询地理位置,广泛应用于Redis、MySQL等系统,具有相同前缀的编码代表相近区域,便于空间索引与检索。
|
5天前
|
Jenkins环境搭建
本文介绍Jenkins环境搭建步骤,包括拉取Jenkins 2.464 Docker镜像,创建数据卷映射/var/jenkins_home,配置8080和50000端口映射,启动容器并设置持久化与自动重启。容器启动后,通过浏览器访问指定IP:9988,初始化管理员账号,并安装SVN提供的插件包,先装旧插件及依赖,再升级为新版本插件完成部署。
免费试用