HyperAI

摘要

个性化推荐的评估仍是当前一个核心挑战，尤其在播客等长时音频领域，传统离线评估指标易受曝光偏差影响，而在线方法如A/B测试则成本高昂且受运营条件限制。本文提出一种新颖的评估框架，利用大语言模型（LLM）作为离线评判者，以可扩展且可解释的方式评估播客推荐的质量。我们提出的两阶段、用户画像感知方法，首先基于用户90天的收听历史构建自然语言形式的用户画像。这些画像综合概括了用户的主题兴趣与行为模式，作为用户偏好的紧凑且可解释的表征。与直接使用原始数据进行提示不同，我们采用这些画像为LLM提供高层次、语义丰富的上下文，使其能够更有效地推理用户兴趣与推荐内容之间的匹配程度，从而降低输入复杂度并提升结果的可解释性。随后，LLM基于画像与节目内容的匹配情况，输出细粒度的点对点及成对判断。在一项包含47名参与者的受控实验中，该画像感知的评判方法与人工判断高度一致，且在性能上优于或至少持平于采用原始收听历史的变体方法。该框架为推荐系统中的迭代测试与模型选择提供了高效、基于用户画像的评估能力。

摘要

基于用户画像感知的LLM-as-a-Judge的播客推荐评估

Francesco Fabbri Gustavo Penha Edoardo D&#39 Amico Alice Wang Marco De Nadai Jackie Doremus Paul Gigioli Andreas Damianou Oskar Stal

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

基于用户画像感知的LLM-as-a-Judge的播客推荐评估

Francesco Fabbri Gustavo Penha Edoardo D&#39 Amico Alice Wang Marco De Nadai Jackie Doremus Paul Gigioli Andreas Damianou Oskar Stal

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

Command Palette

基于用户画像感知的LLM-as-a-Judge的播客推荐评估

Francesco Fabbri Gustavo Penha Edoardo D&#39 Amico Alice Wang Marco De Nadai Jackie Doremus Paul Gigioli Andreas Damianou Oskar Stal1 more

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

Command Palette

基于用户画像感知的LLM-as-a-Judge的播客推荐评估

Francesco Fabbri Gustavo Penha Edoardo D&#39 Amico Alice Wang Marco De Nadai Jackie Doremus Paul Gigioli Andreas Damianou Oskar Stal1 more

摘要

代码仓库

用 AI 构建 AI

Hyper Newsletters

Francesco Fabbri Gustavo Penha Edoardo D&#39 Amico Alice Wang Marco De Nadai Jackie Doremus Paul Gigioli Andreas Damianou Oskar Stal

Francesco Fabbri Gustavo Penha Edoardo D&#39 Amico Alice Wang Marco De Nadai Jackie Doremus Paul Gigioli Andreas Damianou Oskar Stal