教育行业搜索业务背景
近几年在线教育行业飞速发展,根据2020中国移动互联网教育学习APP行业月活用户规模TOP10的统计,月活前十中针对K12教育的APP有6个,具备搜题场景的APP有5个;
(数据来源:QuestMobile<2020中国移动互联网年度大报告>)
在线教育行业中,题库、词典、拍照搜题作为产品掠取流量最重要的工具,抓住了家长、学生辅导和解题上需求,为其他的业务变现提供源源不断的流量。在市场竞争激烈,产品同质化严重的的情况下,面对不断激增的题库和高并发的用户搜索,如何保障在线教育行业搜索的性能和算法准确性尤为重要,这将直接影响品牌的口碑和培养高粘性忠实用户。
教育搜题业务特点
- 海量题库且持续增长,数据库压力大;
- 存在高峰时段集中,用户搜索并发量大,搜索延迟直接影响用户体验;
- 覆盖不同阶段学习、用户场景越来越丰富;
- 学科分类众多,数据越来越复杂,搜索存在跨学科错误;
- 需要强大的算法算力支撑,提升搜题准确性;
- 依赖多模态搜索能力来解决图文搜索需求
- 依赖多语言处理能力来处理英语等其他语言搜题需求
阿里云开放搜索教育行业最佳实践
OpenSearch
文档召回
干预功能
题库
引擎索引
查询分析理解
批量配置
输入交互
题目文本
API
词权重
文本索引
教育行业分词器
同义词
搜索框
题目图片
干预词典
类目预渊
拼写纠错
OCR识别
图片向量素引
同义词
词权重
Query改写
公式索引
学科
拼写纠错
难度
召回结果
排序定制
质量分
文本召回(粗排)
文本相关性(精排)
向量召回(祖排)
热度
类目相关性(精排)
图片相关性(精排)
语义相关性(精排)
业务运营报表
教育行业查询意图理解能力
1.query处理流程
2.查询语义理解
分词是影响搜索效果的最基础的模块。开放搜索集成了教育搜题行业专属的教育分词器,同时在此基础之上用户还可上传自己的分词词条定制个性化的分词器。
- 示例
Query |
下面三角形的面积是多少平方厘采? |
拼写纠错 |
下面三角形的面积是多少平方厘米? |
学科类目预测 |
数学 |
分词 |
下面 三角形 的 面积 是 多少 平方 厘米 ? |
词权重 |
1 7 1 7 1 4 7 7 1 |
同义词改写 |
平方 厘米 -> (cm ^ 2) |
3.类目预测
什么是类目预测?
简单来说,用户输入一个query,查询得到一批物品,通过计算每一个物品所属的类目与query之间的相关度,只要物品的排序公式中引用了这个相关度,那么对于这个物品来说,它所属的类目与query的相关度越高,它的排序公式的计算结果就获得了越高的排序得分,从而这个物品就会排在越前面。
类目预测在教育行业的应用:
- 结合输⼊的图⽚信息和OCR识别之后的结果预测输⼊题⽬的学科类别、题目类型;
- 预测各⽂本⽚段的字段类型(题干描述、选项等等);
输入图片
4.用8个/平方厘米的正方形,拼成下面的图
语文
形.它们的面积各是多少9它们的周长呢?
数学
英文
学科分类模型
OCR
题型分类模型
选择题
填空题
1.文本信息识别结果
2.图片信息识别结果
3.要素位置信息
4.词权重分析
功能介绍:该功能主要分析了查询中每一个词在文本中的重要程度,并将其量化成权重,权重较低的词可能不会参与召回。这样可以避免当用户输入的查询词中包含一些权重低的词时,仍然按用户输入的查询词限制召回,导致命中结果过少。
功能用途: Query丢词、改写、文本相关性分析;
(1)基于用户行为生成训练数据
Term重要度偏序
归一化
VPCG算法
训练数据
QD点击图
(2)词权重模型训练
- 序列标注模型 ;
- 预测标签(7,4,1), 分值越⾼表⽰term的重要性越⼤,召回结果更准确;
示例:
query: 35 的 因数 有 ( ) , 100 以内 24 的 倍数 有 ( )
对应权重分:4 1 7 1 1 1 1 1 1 4 1 7 1 1 1
此题目中“因数”和“倍数”的权重分最高7分,参与召回的权重也就最高,其次是“35”和“24”为4分,其他权重分为1分的,不参与召回;
5.query改写
为了满足业务的灵活需求,开放搜索支持批量干预:词典、拼写纠错,同义词,词权重等。
示例
1)OCR识别可能会把一些非题目要素识别进来干扰query分析的结果,这时候可以使用词权重干预的方式保证非题目要素字段被打标成低权重,保证召回和排序效果
2)用户可以自定义同义词来扩召回,例如"立方米" -> "吨"
排序定制
系统开放了两阶段排序过程:基础排序和业务排序,即粗排和精排;基础排序即是海选,从检索结果中快速找到质量高的文档,取出TOP N个结果再按照精排进行精细算分,最终返回最优的结果给用户。为了实现更细粒度的排序效果,结合排序表达式(Ranking Formula)可以为应用自定义搜索结果排序方式。
,
文本相关性分数
粗排排序机制
文本相关性分(bm25)
QueryTermMatchCount
质量分
TextRelevance
向量相似度分
FieldMatchRatio
FieldTermProximity
KeyWordsMatched
QueiyMnslideWindow
LongestCommonSubsequence
Bm25
精排排序机制
向量相似度
文本相关性
类目相关性
Cava定制开发
质量分
业务逻辑
属性相关性
个性化分
语义相关性
图片相关性
客户效果对比
某在线教育平台,主打K12教育,用户数千万级别,题库量8千万左右且持续增加,由自建题库和第三方题库两部分组成,之前通过OCR+自建ES搜索服务实现拍照搜索功能,面临的主要问题是搜索准确率待优化提升,降低搜索延迟等问题。
客户反馈
- 搜题准确率绝对值提升5%;
- 延时从100ms-300ms降到稳定50ms;
- 离线数据同步大于4000TPS;
搜题效果前后对比
- 搜题Query:"张慧研所指与小磁大概相近的是乐府之音"
旧版自建召回结果 |
开放搜索召回结果 |
|
top1 |
某歌舞团独唱演员张慧月工资5800元,2006年6月,张慧参加了该团在上海的3场演出,得到3800元报酬... |
张惠言所指与“小词”大概相近的是乐府之音。 |
top2 |
张慧研对音乐的喜好源于... |
张惠言所指与“小词”大概相近的是乐府之音。() |
top3 |
下列文献中,属于张慧老师在中国音乐期刊上发表文章的引证文献是 |
下列选项中属于张惠言所指与“小词”大概相近的是()。 |
- 搜题Query: “如图是由一些相同的小正方体搭成的几何体从三个不同方向看得到的形状图,则搭成这样的几何体需要__个小正方体. 0 A 3 从上面看看从正面看”
旧版自建召回结果 |
开放搜索召回结果 |
|
top1 |
三个不同方向看到的形状图,若在所搭几何体的基础上(不改变原 几何体中小正方体的位置),继续添加相同的小正方体,搭成一个大 个小正方体, 正方体,至少还需要 从上面看 从正面看 从左面看 |
|
top2 |
||
top3 |
以上就是开放搜索[在线教育搜题场景的最佳实践],如果您对搜索与推荐相关技术感兴趣,欢迎加入钉钉群内交流
【开放搜索】新用户活动:阿里云实名认证用户享1个月免费试用