Command Palette

Search for a command to run...

4 个月前

基于用户画像感知的LLM-as-a-Judge的播客推荐评估

基于用户画像感知的LLM-as-a-Judge的播客推荐评估

摘要

个性化推荐的评估仍是当前一个核心挑战,尤其在播客等长时音频领域,传统离线评估指标易受曝光偏差影响,而在线方法如A/B测试则成本高昂且受运营条件限制。本文提出一种新颖的评估框架,利用大语言模型(LLM)作为离线评判者,以可扩展且可解释的方式评估播客推荐的质量。我们提出的两阶段、用户画像感知方法,首先基于用户90天的收听历史构建自然语言形式的用户画像。这些画像综合概括了用户的主题兴趣与行为模式,作为用户偏好的紧凑且可解释的表征。与直接使用原始数据进行提示不同,我们采用这些画像为LLM提供高层次、语义丰富的上下文,使其能够更有效地推理用户兴趣与推荐内容之间的匹配程度,从而降低输入复杂度并提升结果的可解释性。随后,LLM基于画像与节目内容的匹配情况,输出细粒度的点对点及成对判断。在一项包含47名参与者的受控实验中,该画像感知的评判方法与人工判断高度一致,且在性能上优于或至少持平于采用原始收听历史的变体方法。该框架为推荐系统中的迭代测试与模型选择提供了高效、基于用户画像的评估能力。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于用户画像感知的LLM-as-a-Judge的播客推荐评估 | 论文 | HyperAI超神经