在线教育搜题场景最佳实践

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
推荐全链路深度定制开发平台,高级版 1个月
OpenSearch LLM智能问答版免费试用套餐,存储1GB首月+计算资源100CU
简介: 在线教育行业中,题库、词典、拍照搜题作为产品掠取流量最重要的工具,抓住了家长、学生辅导和解题上需求,为其他的业务变现提供源源不断的流量。在市场竞争激烈,产品同质化严重的的情况下,面对不断激增的题库和高并发的用户搜索,如何保障在线教育行业搜索的性能和算法准确性尤为重要,这将直接影响品牌的口碑和培养高粘性忠实用户。

教育行业搜索业务背景

   近几年在线教育行业飞速发展,根据2020中国移动互联网教育学习APP行业月活用户规模TOP10的统计,月活前十中针对K12教育的APP有6个,具备搜题场景的APP有5个;

1612250218127-aeac2a4f-3a35-49d7-a20c-1b61ff3c11c0.png

(数据来源:QuestMobile<2020中国移动互联网年度大报告>)


     在线教育行业中,题库、词典、拍照搜题作为产品掠取流量最重要的工具,抓住了家长、学生辅导和解题上需求,为其他的业务变现提供源源不断的流量。在市场竞争激烈,产品同质化严重的的情况下,面对不断激增的题库和高并发的用户搜索,如何保障在线教育行业搜索的性能和算法准确性尤为重要,这将直接影响品牌的口碑和培养高粘性忠实用户。

教育搜题业务特点

  1. 海量题库且持续增长,数据库压力大
  2. 存在高峰时段集中,用户搜索并发量大搜索延迟直接影响用户体验;
  3. 覆盖不同阶段学习、用户场景越来越丰富
  4. 学科分类众多,数据越来越复杂,搜索存在跨学科错误;
  5. 需要强大的算法算力支撑,提升搜题准确性
  6. 依赖多模态搜索能力来解决图文搜索需求
  7. 依赖多语言处理能力来处理英语等其他语言搜题需求


阿里云开放搜索教育行业最佳实践

image.png

OpenSearch

文档召回

干预功能

题库

引擎索引

查询分析理解

批量配置

输入交互

题目文本

API

词权重

文本索引

教育行业分词器

同义词

搜索框

题目图片

干预词典

类目预渊

拼写纠错

OCR识别

图片向量素引

同义词

词权重

Query改写

公式索引

学科

拼写纠错

难度

召回结果

排序定制

质量分

文本召回(粗排)

文本相关性(精排)

向量召回(祖排)

热度

类目相关性(精排)

图片相关性(精排)

语义相关性(精排)

业务运营报表


教育行业查询意图理解能力

1.query处理流程

image.png

Term分析

Query改写

类目预测

OCR结果

查询Query

query处理

分词/去停用词

同义词改写

学科预测

类目改写

纠错/关键词识别

题型预测

意图改写

命名实体识别

2.查询语义理解

分词是影响搜索效果的最基础的模块。开放搜索集成了教育搜题行业专属的教育分词器,同时在此基础之上用户还可上传自己的分词词条定制个性化的分词器。

  • 示例

Query

下面三角形的面积是多少平方厘采?

拼写纠错

下面三角形的面积是多少平方厘米?

学科类目预测

数学

分词

下面 三角形 的 面积 是 多少 平方 厘米 ?

词权重

            1     7        1     7    1    4      7      7    1

同义词改写

平方 厘米 -> (cm ^ 2)


3.类目预测

什么是类目预测?

 简单来说,用户输入一个query,查询得到一批物品,通过计算每一个物品所属的类目与query之间的相关度,只要物品的排序公式中引用了这个相关度,那么对于这个物品来说,它所属的类目与query的相关度越高,它的排序公式的计算结果就获得了越高的排序得分,从而这个物品就会排在越前面。


类目预测在教育行业的应用:

  • 结合输⼊的图⽚信息和OCR识别之后的结果预测输⼊题⽬的学科类别、题目类型;
  • 预测各⽂本⽚段的字段类型(题干描述、选项等等);


image.png

输入图片

4.用8个/平方厘米的正方形,拼成下面的图

语文

形.它们的面积各是多少9它们的周长呢?

数学

英文

学科分类模型

OCR

题型分类模型

选择题

填空题

1.文本信息识别结果

2.图片信息识别结果

3.要素位置信息


4.词权重分析

功能介绍:该功能主要分析了查询中每一个词在文本中的重要程度,并将其量化成权重,权重较低的词可能不会参与召回。这样可以避免当用户输入的查询词中包含一些权重低的词时,仍然按用户输入的查询词限制召回,导致命中结果过少。

功能用途: Query丢词、改写、文本相关性分析;


(1)基于用户行为生成训练数据

image.png

Term重要度偏序

归一化

VPCG算法

训练数据

QD点击图

(2)词权重模型训练

  • 序列标注模型 ;
  • 预测标签(7,4,1), 分值越⾼表⽰term的重要性越⼤,召回结果更准确;


示例:

     query:         35 的 因数 有  (   )  ,   100  以内  24  的 倍数 有 (  )  

对应权重分:4    1    7    1   1  1  1    1     1      4    1    7     1  1  1  

此题目中“因数”和“倍数”的权重分最高7分,参与召回的权重也就最高,其次是“35”和“24”为4分,其他权重分为1分的,不参与召回;


5.query改写

为了满足业务的灵活需求,开放搜索支持批量干预:词典、拼写纠错,同义词,词权重等。


示例

1)OCR识别可能会把一些非题目要素识别进来干扰query分析的结果,这时候可以使用词权重干预的方式保证非题目要素字段被打标成低权重,保证召回和排序效果

2)用户可以自定义同义词来扩召回,例如"立方米" -> "吨"


排序定制

系统开放了两阶段排序过程:基础排序和业务排序,即粗排和精排;基础排序即是海选,从检索结果中快速找到质量高的文档,取出TOP N个结果再按照精排进行精细算分,最终返回最优的结果给用户。为了实现更细粒度的排序效果,结合排序表达式(Ranking Formula)可以为应用自定义搜索结果排序方式。

image.png

文本相关性分数

粗排排序机制

文本相关性分(bm25)

QueryTermMatchCount

质量分

TextRelevance

向量相似度分

FieldMatchRatio

FieldTermProximity

KeyWordsMatched

QueiyMnslideWindow

LongestCommonSubsequence

Bm25

精排排序机制

向量相似度

文本相关性

类目相关性

Cava定制开发

质量分

业务逻辑

属性相关性

个性化分

语义相关性

图片相关性

客户效果对比

      某在线教育平台,主打K12教育,用户数千万级别,题库量8千万左右且持续增加,由自建题库和第三方题库两部分组成,之前通过OCR+自建ES搜索服务实现拍照搜索功能,面临的主要问题是搜索准确率待优化提升,降低搜索延迟等问题。

客户反馈

  1. 搜题准确率绝对值提升5%
  2. 延时从100ms-300ms降到稳定50ms
  3. 离线数据同步大于4000TPS;

搜题效果前后对比

  • 搜题Query:"张慧研所指与小磁大概相近的是乐府之音"


旧版自建召回结果

开放搜索召回结果

top1

某歌舞团独唱演员张慧月工资5800元,2006年6月,张慧参加了该团在上海的3场演出,得到3800元报酬...

张惠言所指与“小词”大概相近的是乐府之音。

top2

张慧研对音乐的喜好源于...

张惠言所指与“小词”大概相近的是乐府之音。()

top3

下列文献中,属于张慧老师在中国音乐期刊上发表文章的引证文献是

下列选项中属于张惠言所指与“小词”大概相近的是()。

  • 搜题Query: “如图是由一些相同的小正方体搭成的几何体从三个不同方向看得到的形状图,则搭成这样的几何体需要__个小正方体. 0 A 3 从上面看看从正面看”

image.png



旧版自建召回结果

开放搜索召回结果

top1

image.png

image.png

三个不同方向看到的形状图,若在所搭几何体的基础上(不改变原

几何体中小正方体的位置),继续添加相同的小正方体,搭成一个大

个小正方体,

正方体,至少还需要

从上面看

从正面看

从左面看

top2

image.png

image.png

top3

image.png

image.png


以上就是开放搜索[在线教育搜题场景的最佳实践],如果您对搜索与推荐相关技术感兴趣,欢迎加入钉钉群内交流

11.PNG


【开放搜索】新用户活动:阿里云实名认证用户享1个月免费试用

https://free.aliyun.com/product/opensearch-free-trial

目录
相关文章
|
7月前
|
搜索推荐 云计算
在线教育平台
在线教育平台
292 3
|
SQL 数据采集 分布式计算
基于大数据技术的开源在线教育项目
基于大数据技术的开源在线教育项目
187 0
|
SQL 数据采集 分布式计算
基于大数据技术的开源在线教育项目 二1
基于大数据技术的开源在线教育项目 二
109 0
|
消息中间件 JSON 分布式计算
基于大数据技术的开源在线教育项目 三1
基于大数据技术的开源在线教育项目 三
104 0
|
SQL 分布式计算 关系型数据库
基于大数据技术的开源在线教育项目 二2
基于大数据技术的开源在线教育项目 二
104 0
|
消息中间件 大数据 Kafka
基于大数据技术的开源在线教育项目 三2
基于大数据技术的开源在线教育项目 三
|
人工智能 监控 Cloud Native
《2023云原生实战案例集》——04 互联网——伟东云教育云 拨测助力伟东云教育,全面提升全球用户体验
《2023云原生实战案例集》——04 互联网——伟东云教育云 拨测助力伟东云教育,全面提升全球用户体验
在线教育行业云上技术服务白皮书-在线教育概念-在线教育行业概况
在线教育行业云上技术服务白皮书-在线教育概念-在线教育行业概况
150 0
|
存储 缓存 Kubernetes
在线教育行业云上技术服务白皮书-在线教育行业云计算应用场景-阿里云离线与在线业务容器化
在线教育行业云上技术服务白皮书-在线教育行业云计算应用场景-阿里云离线与在线业务容器化
106 0
|
存储 编解码 安全
在线教育行业云上技术服务白皮书-在线教育行业云计算应用场景-在线教育通用业务场景及挑战
在线教育行业云上技术服务白皮书-在线教育行业云计算应用场景-在线教育通用业务场景及挑战
249 0