行业搜索最佳实践(二)|学习笔记

简介: 快速学习行业搜索最佳实践(二)

开发者学堂课程【搜索与推荐技术实战训练营行业搜索最佳实践(二)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/919/detail/14484


行业搜索最佳实践(二)


三、行业搜索 case 和案例分析

类型1-分词类问题

1.搜索:'金红卡纸'无法召回义裆-4K 金红卡纸”,

但搜索 emark:'吉莲卡纸'就可以召回文档“4K青莲卡纸”.这是因为什么呢

2.比如 Backward,我搜索 Backward,是能查出来,,,但是我搜索 Back 就查不出来

3.在搜索的时候,user_name=`郑美华,用'郑'搜索的时候可以搜索出来,用'郑美'却搜不出来,是怎么回事啊

问题分析

例子:刘德华的英文名字是 AnayLau

语义粒度∶刘紬华的英文名字是 Ady Lau

检索粒度∵郊燕华的英文名字是 Andy Laus

解决途径

产品干预功能

算法专家,专项定制

类型2-相关性排序

1. query=defaul : "开放搜索”,怎么召回包含"开放"的文档呢,并且包含*开放搜索"的会优先排在前面

2.使用 opensearch 搜索,最匹配的不在第一位这个问题有好的解决方案吗

3.搜索椅子测评,但是出来的结果排序靠前的都是测评这个词,然后,不管我换*测评,排名靠前的都是同样的结果,这种问题怎么解决

解决方式

1.default :开放 AND RANK :搜索词权重&相关性特征

2.相关性优化

3.词权重优化&基于词权重的 BM25等

案例①-某垂直电商

行业:属于非常垂直的电商行业

搜索业务:搜索引导的成交占比全站成交的60%以上,是站内最重要的功能。核心场景包括两个方面,分别是社区和商城,商城业务是其商业收入的主要来源。

站内搜索的无结果接近60%,即每天海量搜索 PV 都是0转化,是非常巨大的流量浪费。

搜索服务本来是基于开源服务自建。

【业务痛点】用户输入和表达习惯多样

站内用户的热搜词往往会是商品的别名,缩写,音译词等等

阿里云开放搜索解决方案

电商分词+电商查询语义理解+自定义词典

【业务痛点】搜索结果排序不合理

单字段排序(比如只按价格),长期以往会导致新发布的商品由于无销量始终排序靠后;也打击了个人卖家发布商品的积极性

阿里云开放搜索解决方案

基础相关性排序+业务排序+人气模型

【业务痛点】难以快速改变现状

搜索优化周期需要在2个月完成,而技术人力只有1个。解法问题需要多个精通搜索和 NLP 的算法专家,还需要至少几十万量级有人工标注的数据物料做训练,现阶段既没人也没数据,市面上也没有现成的开源插件

阿里云开放搜索解决方案

淘宝同款搜索引擎,具备成熟的技术、数据、行业能力

使用阿里云开放搜索 vs 客户自建服务效果对比:

无结果率下降80%+,基本在10%左右

搜索引导的交易转化率对比原自建的开源提升9%

案例②-某内容-IT 行业

【业务痛点】基于开源自建搜索服务效果差

花一年时间投入然而上线后首位结果点击率比某D提供的服务低80%+

阿里云开放搜索解决方案

通用分词+通用查询语义理解+自定义词典

【业务痛点】业务复杂效果优化挑战大

站内用户搜索词专业垂直度也非常高;由于使用用户搜索往往是查找知识,所以口语化描述的长尾词出现频率相对更高这要求搜索引擎对用户查询词的智能意图理解有高要求

阿里云开放搜索解决方案

阿里 NLP 通用 Query 智能分析+人气模型

【业务痛点】效果预期要求高

新的搜索服务需要调优到至少与某 D 的效果持平才能有机会提供服务,其中效果的衡量指标为线上搜索结果的 CTR

阿里云开放搜索解决方案

阿里多年业务实战沉淀的技术算法能力,以及庞大的样本与数据

使用阿里云开放搜索 vs 客户自建服务效果对比

对比客户基于开源自建的服务 CTR 提升超过80%

相关文章
|
Web App开发 XML JSON
头条搜索精选 参数分析
头条搜索精选 参数分析
头条搜索精选 参数分析
|
存储 移动开发 自然语言处理
|
搜索推荐 UED 索引
闲鱼技术2022年度白皮书-服务端主题-电商搜索里都有啥?详解闲鱼搜索系统(下)
闲鱼技术2022年度白皮书-服务端主题-电商搜索里都有啥?详解闲鱼搜索系统
272 0
|
容灾 算法 数据可视化
闲鱼技术2022年度白皮书-服务端主题-电商搜索里都有啥?详解闲鱼搜索系统(中)
闲鱼技术2022年度白皮书-服务端主题-电商搜索里都有啥?详解闲鱼搜索系统
291 0
|
SQL 机器学习/深度学习 自然语言处理
行业搜索最佳实践(一)|学习笔记
快速学习行业搜索最佳实践(一)
229 1
行业搜索最佳实践(一)|学习笔记
|
机器学习/深度学习 算法 搜索推荐
多媒体搜索现状(上) | 学习笔记
快速学习多媒体搜索现状(上),介绍了多媒体搜索现状(上)系统机制, 以及在实际应用过程中如何使用。
多媒体搜索现状(上) | 学习笔记
|
机器学习/深度学习 人工智能 算法
多媒体搜索现状(下) | 学习笔记
快速学习多媒体搜索现状(下),介绍了多媒体搜索现状(下)系统机制, 以及在实际应用过程中如何使用。
多媒体搜索现状(下) | 学习笔记
|
7月前
|
算法 关系型数据库 分布式数据库
如何用 PolarDB 整合age算法插件, 实现图式搜索加速 - 刑侦、社交、风控、族谱、推荐等业务图谱类关系数据搜索
背景PolarDB 的云原生存算分离架构, 具备低廉的数据存储、高效扩展弹性、高速多机并行计算能力、高速数据搜索和处理; PolarDB与计算算法结合, 将实现双剑合璧, 推动业务数据的价值产出, 将数据变成生产力.本文将介绍PolarDB结合图式算法, 实现高效率的刑侦、社交、风控、族谱、推荐等业...
220 0
|
搜索推荐 SEO
怎样做好搜索下拉优化?百度搜索推荐词的推广方式
怎样做好搜索下拉优化?百度搜索推荐词的推广方式
320 0
|
存储 SQL 并行计算
如何用 PolarDB 整合age算法插件, 实现图式搜索加速 - 刑侦、社交、风控、族谱、推荐等业务图谱类关系数据搜索
PolarDB 的云原生存算分离架构, 具备低廉的数据存储、高效扩展弹性、高速多机并行计算能力、高速数据搜索和处理; PolarDB与计算算法结合, 将实现双剑合璧, 推动业务数据的价值产出, 将数据变成生产力. 本文将介绍PolarDB结合图式算法, 实现高效率的刑侦、社交、风控、族谱、推荐等业务图谱类关系数据搜索.
407 0