客户说|哔哩哔哩基于阿里云PolarDB与千问大模型构建全域内容洞察新框架

简介: 哔哩哔哩联合阿里云 PolarDB for AI,构建“大模型+小模型”协同的全域内容洞察体系,基于去标识化公开互动数据,实现视频、评论等内容的结构化分析,精准识别品牌、类目、用户反馈属性,助力营销效果量化与策略优化。

通过阿里云 PolarDB 数据库,我们首次实现了对平台全域公开互动数据的高效结构化处理。在严格遵循隐私保护原则、所有数据均经过去标识化、匿名化处理的前提下,系统可对群体层面的反馈趋势进行分析,辅助品牌更科学地评估内容传播效果,并为营销策略优化提供数据支撑,提升商业决策的确定性。

——强朔 哔哩哔哩资深数据科学家

一、客户背景

哔哩哔哩(B站是国内领先的文化社区和视频平台。平台内容生态高度多元化,涵盖视频、图文、直播、音频、互动内容、搜索、动态等多种体裁。作为以“内容种草”为核心心智的平台,B站已成为品牌营销的重要阵地,尤其在汽车、3C数码、美妆、快消、教育培训、游戏等行业具备显著影响力。

二、业务场景与核心痛点

与传统电商平台不同,B站用户的消费决策往往源于内容互动所形成的品牌认知与兴趣积累,而非站内直接转化。这一特点对营销效果评估提出了更高要求。为此,平台基于经过去标识化、匿名化处理的海量公开互动数据,开展群体层面的数据趋势分析,以支持内容生态优化与商业服务能力的持续提升。例如,通过分析洞察辅助评估品牌内容的传播广度与用户反馈方向,为广告主提供更科学的效果参考。

配图1.png

B站内容平台营销商业化路径

B站商业化团队在服务品牌客户过程中,面临三大核心挑战:

1. 营销效果难以量化:品牌在B站投放内容(如UP主种草视频)后,缺乏有效手段衡量用户群体是否被“种草”。例如,某汽车品牌发布新车测评视频后,需从去标识化的互动内容中识别用户群体对续航、外观、价格等属性的评价,以评估内容传播效果。

2. 内容资产难以结构化:B站内容体裁丰富、语义复杂,视频中包含大量视觉、语音、文本信息,互动区则充斥高信息密度的长文本。传统关键词匹配或规则引擎难以准确提取商业实体(如品牌、类目、SPU)及其关联语义。

3. 营销策略缺乏数据支撑:品牌希望基于B站真实讨论内容,反向指导新品定义、传播策略与创意方向。例如,某美妆品牌需了解用户群体在讨论粉底液时最关注“持妆度”“遮瑕力”还是“肤感”,但缺乏系统性内容洞察工具。

为解决上述问题,B站商业化数据科学团队联合阿里云,构建了一套面向全域内容的结构化洞察框架,实现从“内容感知”到“商业洞察”的数据闭环。


三、解决方案:“大模型+小模型”协同的全域内容洞察新框架

PolarDB for AI 是阿里云瑶池旗下云原生数据库PolarDB内部的分布式机器学习组件,支持在数据不出库的前提下,高效调用轻量化小模型进行实时推理,同时可联动千问等大模型处理复杂语义任务,实现大模型与小模型协同一体化架构。

PolarDB for AI一站式方案


  • PolarDB for AI 可以通过调用千问大模型,对经过去标识化、匿名化处理的用户互动内容进行批量分析,辅助洞察群体层面的兴趣趋势与反馈倾向,为产品优化与内容策略提供数据支持。
  • PolarDB for AI通过定制化的电商领域大模型,结合阿里电商领域的商品知识图谱,大大提升B站对类目、品牌、SPU等多个标签的识别能力,实现品牌高精准匹配,促进内容资产结构化。

B站全域内容洞察矩阵

B站采用“大模型+小模型”融合的技术路径,依托DeepSeek、阿里千问(Qwen)系列大模型、B站自研的Index模型与PolarDB for AI能力,构建覆盖M×N矩阵的全域内容洞察体系——M为商业化标签维度,N为内容体裁维度。


整体技术架构分为三层:

  • AI基建层:基于阿里云百炼平台、PAI、GPU资源及B站自研Agent平台,提供模型训练、推理与调度能力。
  • 数据与模型层:结合通用大模型(如Qwen、Qwen-VL、Qwen-Audio)与PolarDB for AI提供的领域小模型(经SFT、强化学习微调),实现高效、低成本的内容洞察。
  • 应用服务层:通过PolarDB for AI节点,提供模型算子能力,实现“数据不出库”的高效挂靠与推理,且提供稳定独享的模型实时在线服务能力。

该方案兼顾效果与成本:通用大模型用于标签体系挖掘与复杂语义分析,领域小模型则在特定任务(如实体抽取)上实现更高精度与更低延迟。

四、关键技术实现与难点突破

1. 视频稿件内容提取:从非结构化到结构化

视频内容提取过程

视频是B站核心内容载体,但其信息分散于画面、语音与字幕中。B站采用多模态融合策略:

  • 中间层构建:通过ASR(语音转文本)与关键帧OCR(图像文字识别)提取原始文本,再利用Qwen-VL、Qwen-Audio等多模态大模型生成语义中间表示。
  • CPV体系构建:基于大模型挖掘与行业维护,建立“类目-属性-属性值”体系。例如,识别出视频中“相机”类目下的“防抖技术”属性及其值“IBIS”。
  • 实体三元组抽取与挂靠:通过大模型抽取<类目, 品牌, SPU>三元组,但原始抽取结果存在与标准产品库里的命名不一致的问题(如“尼康Z5” vs “尼康Z5微单相机”)。


技术难点:如何将非标准化抽取结果精准挂靠至标准产品库?

解决方案:B站与阿里云PolarDB团队合作,在PolarDB for AI节点中部署定制化挂靠模型。通过SQL,在数据库内直接调用精调后的大模型进行实体对齐。例如,我们来预测一个稿件的类目。执行如下SQL:

/*polar4ai*/ 
SELECT * FROM PREDICT(
  MODEL _polar4ai_cpv_agent,   
  SELECT '{"商品名称":"尼康Z5","品牌名称":"尼康","类目属性模板":{"类目":""},"类目属性限定":{"类目":["数码-摄影摄像-传统相机-相机","数码-数码配件",...]}}'
) WITH ();

得到{"类目":"数码-摄影摄像-传统相机-相机"}

该方案实现“数据不出库”的高并发挂靠,解决抽取结果与标准产品命名的一致性问题,既保障数据安全,又显著降低工程复杂度。同时,结合BGE+RoBERTa等NLP模型进行匹配,进一步提升挂靠准确率。

2. 互动内容分析:从海量数据中挖掘高价值线索

互动内容分析过程

B站评论区信息密度很高,但90%以上为非商业化内容。直接使用大模型全量处理成本高昂。


技术难点:如何在成本可控的前提下,利用匿名化互动数据实现多实体群体反馈的细粒度分析,支撑内容与商业服务的持续优化?

解决方案:采用“过滤-分析-挖掘”三级流水线:

  • 第一级:商业化过滤:使用轻量级NLP模型,如BGE+BiLSTM模型快速筛除无关内容,仅保留可能涉及品牌、产品讨论的内容。
  • 第二级:实体与予以关联分析:对过滤后文本,利用PolarDB for AI提供的商品大模型识别类目、品牌、SPU,并建立不同实体间的语义关联关系。
  • 第三级:意图与属性挖掘:进一步识别“种草”“购买意愿”等高阶语义,并提取用户群体关注的具体属性(如“续航达成率高”“价格贵”),形成结构化洞察。

五、总结

通过与阿里千问大模型及PolarDB for AI的深度协同,B站成功构建了一套高效、可扩展的全域内容洞察体系。该体系不仅解决了品牌营销效果度量难、内容资产结构化难等核心痛点,更将B站独特的社区公开互动数据转化为可行动的商业洞察,显著提升了广告主的投放确定性与ROI。目前,该全域内容洞察体系已应用于B站的哔哩指数、花火平台AI选UP主、哔哩必达洞察报告、引力计划爆文投放、经营号线索挖掘及品牌广告搜索词包等商业化场景,实现从内容洞察到营销转化的全链路提效。未来,B站将持续优化模型能力,拓展至更多内容体裁与商业场景,进一步释放内容平台的营销价值。


了解原生数据库PolarDB:https://www.aliyun.com/product/polardb

相关文章
|
人工智能 关系型数据库 分布式数据库
PolarDB支撑悠悠有品多地域业务,实现库存毫秒级智能检索
悠悠有品作为国内最大CS:GO饰品交易平台,面临亿级数据毫秒检索、多地域强一致、智能排序等挑战。依托 PolarDB MySQL 版,集成PolarSearch(一体化搜索)、GDN(全球数据库网络)和 PolarDB for AI,实现存储-检索-推荐全链路升级,大幅提升转化率与系统弹性。
|
2月前
|
人工智能 API 机器人
OpenClaw 用户部署和使用指南汇总
本文档为OpenClaw(原MoltBot)官方使用指南,涵盖一键部署(阿里云轻量服务器年仅68元)、钉钉/飞书/企微等多平台AI员工搭建、典型场景实践及高频问题FAQ。同步更新产品化修复进展,助力用户高效落地7×24小时主动执行AI助手。
25052 164
|
10天前
|
人工智能 关系型数据库 分布式数据库
阿里云瑶池 Data+AI 客户实践案例合集
阿里云瑶池数据库凭借云原生架构、多模融合能力与全栈技术优势,已为金融、游戏、电商、物流、内容科技等千行百业提供“量体裁衣”的 Data+AI 解决方案。本文精选多个行业标杆案例,揭秘哔哩哔哩、申通快递、鹰角网络、知乎等企业如何通过阿里云数据库实现业务突破,为更多企业提供“数据库+AI”转型的实践参考。
|
28天前
|
SQL 人工智能 自然语言处理
我用DataClaw打造了一个7X24小时的数据助理
阿里云DMS DataClaw是7×24小时AI数据助理,支持自然语言提工单、智能巡检、多任务编排、SQL风险预审等9项硬功能,原生集成DMS安全体系,覆盖MySQL/Oracle等60+数据源。现在可免费试用,快来体验吧。
649 10
|
5月前
|
存储 人工智能 关系型数据库
钉钉ONE选用阿里云PolarDB数据库,实现百亿级数据的高效向量检索
阿里云瑶池PolarDB PostgreSQL版作为钉钉ONE的底层数据库,凭借分布式架构与向量检索能力,支撑百亿级数据、高并发与AI智能推荐,助力钉钉实现“事找人”的办公新范式。
|
30天前
|
SQL 运维 NoSQL
智能数据库运维大脑 DAS Agent 邀您开启 AI 驱动的数据库自治之旅!
DAS Agent 是阿里云基于大模型与10万+工单经验打造的智能数据库运维大脑,支持 MySQL、PostgreSQL、Redis 等主流引擎,提供异常诊断、SQL 优化、运维日报等 AI-Native 能力,助力企业实现 7×24 小时自治运维。
|
存储 机器学习/深度学习 缓存
Hybrid Model Support:阿里云 Tair 联合 SGLang对 Mamba-Transformer 等混合架构模型的支持方案
阿里云 Tair KVCache 联合 SGLang,创新支持 Mamba-Transformer 等混合架构模型。通过双池内存、状态快照等技术,解决异构状态管理难题,实现前缀缓存与推测解码,显著提升 Qwen3-Next 等模型的推理效率,推动大模型迈向高效智能体时代。
|
4月前
|
存储 人工智能 Cloud Native
云原生数据仓库 AnalyticDB Supabase 使用全攻略
云原生数据仓库 AnalyticDB PostgreSQL 版 Supabase 是基于开源 Supabase 深度增强的全托管平台,兼容 Supabase 生态,提供数据库、用户认证、边缘函数等核心能力,并集成通义千问等 AI 模型,支持 Vibe Coding 与智能应用快速开发。原生支持微信、支付宝 OAuth,具备企业级安全与全链路可观测性,助力开发者高效构建 AI 原生应用。
|
4月前
|
人工智能 关系型数据库 分布式数据库