客户说|哔哩哔哩基于阿里云PolarDB与千问大模型构建全域内容洞察新框架
通过阿里云 PolarDB 数据库,我们首次实现了对平台全域公开互动数据的高效结构化处理。在严格遵循隐私保护原则、所有数据均经过去标识化、匿名化处理的前提下,系统可对群体层面的反馈趋势进行分析,辅助品牌更科学地评估内容传播效果,并为营销策略优化提供数据支撑,提升商业决策的确定性。 <p align=right>——强朔 哔哩哔哩资深数据科学家</p> 哔哩哔哩(B站) 是国内领先的文化社区和视频平台。平台内容生态高度多元化,涵盖视频、图文、直播、音频、互动内容、搜索、动态等多种体裁。作为以“内容种草”为核心心智的平台,B站已成为品牌营销的重要阵地,尤其在汽车、3C数码、美妆、快消、教育培训、游戏等行业具备显著影响力。 与传统电商平台不同,B站用户的消费决策往往源于内容互动所形成的品牌认知与兴趣积累,而非站内直接转化。这一特点对营销效果评估提出了更高要求。为此,平台基于经过去标识化、匿名化处理的海量公开互动数据,开展群体层面的数据趋势分析,以支持内容生态优化与商业服务能力的持续提升。例如,通过分析洞察辅助评估品牌内容的传播广度与用户反馈方向,为广告主提供更科学的效果参考。 B站商业化团队在服务品牌客户过程中,面临三大核心挑战: 1. 营销效果难以量化:品牌在B站投放内容(如UP主种草视频)后,缺乏有效手段衡量用户群体是否被“种草”。例如,某汽车品牌发布新车测评视频后,需从去标识化的互动内容中识别用户群体对续航、外观、价格等属性的评价,以评估内容传播效果。 2. 内容资产难以结构化:B站内容体裁丰富、语义复杂,视频中包含大量视觉、语音、文本信息,互动区则充斥高信息密度的长文本。传统关键词匹配或规则引擎难以准确提取商业实体(如品牌、类目、SPU)及其关联语义。 3. 营销策略缺乏数据支撑:品牌希望基于B站真实讨论内容,反向指导新品定义、传播策略与创意方向。例如,某美妆品牌需了解用户群体在讨论粉底液时最关注“持妆度”“遮瑕力”还是“肤感”,但缺乏系统性内容洞察工具。 为解决上述问题,B站商业化数据科学团队联合阿里云,构建了一套面向全域内容的结构化洞察框架,实现从“内容感知”到“商业洞察”的数据闭环。 PolarDB for AI 是阿里云瑶池旗下云原生数据库PolarDB内部的分布式机器学习组件,支持在数据不出库的前提下,高效调用轻量化小模型进行实时推理,同时可联动千问等大模型处理复杂语义任务,实现大模型与小模型协同一体化架构。 PolarDB for AI一站式方案 B站采用“大模型+小模型”融合的技术路径,依托DeepSeek、阿里千问(Qwen)系列大模型、B站自研的Index模型与PolarDB for AI能力,构建覆盖M×N矩阵的全域内容洞察体系——M为商业化标签维度,N为内容体裁维度。 整体技术架构分为三层: 该方案兼顾效果与成本:通用大模型用于标签体系挖掘与复杂语义分析,领域小模型则在特定任务(如实体抽取)上实现更高精度与更低延迟。 视频内容提取过程 视频是B站核心内容载体,但其信息分散于画面、语音与字幕中。B站采用多模态融合策略: 技术难点:如何将非标准化抽取结果精准挂靠至标准产品库? 解决方案:B站与阿里云PolarDB团队合作,在PolarDB for AI节点中部署定制化挂靠模型。通过SQL,在数据库内直接调用精调后的大模型进行实体对齐。例如,我们来预测一个稿件的类目。执行如下SQL: 得到{"类目":"数码-摄影摄像-传统相机-相机"} 该方案实现“数据不出库”的高并发挂靠,解决抽取结果与标准产品命名的一致性问题,既保障数据安全,又显著降低工程复杂度。同时,结合BGE+RoBERTa等NLP模型进行匹配,进一步提升挂靠准确率。 B站评论区信息密度很高,但90%以上为非商业化内容。直接使用大模型全量处理成本高昂。 技术难点:如何在成本可控的前提下,利用匿名化互动数据实现多实体群体反馈的细粒度分析,支撑内容与商业服务的持续优化? 解决方案:采用“过滤-分析-挖掘”三级流水线: 通过与阿里千问大模型及PolarDB for AI的深度协同,B站成功构建了一套高效、可扩展的全域内容洞察体系。该体系不仅解决了品牌营销效果度量难、内容资产结构化难等核心痛点,更将B站独特的社区公开互动数据转化为可行动的商业洞察,显著提升了广告主的投放确定性与ROI。目前,该全域内容洞察体系已应用于B站的哔哩指数、花火平台AI选UP主、哔哩必达洞察报告、引力计划爆文投放、经营号线索挖掘及品牌广告搜索词包等商业化场景,实现从内容洞察到营销转化的全链路提效。未来,B站将持续优化模型能力,拓展至更多内容体裁与商业场景,进一步释放内容平台的营销价值。 了解原生数据库PolarDB:https://www.aliyun.com/product/polardb一、客户背景
二、业务场景与核心痛点

B站内容平台营销商业化路径三、解决方案:“大模型+小模型”协同的全域内容洞察新框架


B站全域内容洞察矩阵四、关键技术实现与难点突破
1. 视频稿件内容提取:从非结构化到结构化

/*polar4ai*/
SELECT * FROM PREDICT(
MODEL _polar4ai_cpv_agent,
SELECT '{"商品名称":"尼康Z5","品牌名称":"尼康","类目属性模板":{"类目":""},"类目属性限定":{"类目":["数码-摄影摄像-传统相机-相机","数码-数码配件",...]}}'
) WITH ();
2. 互动内容分析:从海量数据中挖掘高价值线索

互动内容分析过程五、总结