LLM价值对齐论文阅读(一)——如何在用户级别进行价值对齐
Aligning Language Models to User Opinions
摘要
开发与人类互动的 LLM 的一个重要方面是使模型的行为与其用户保持一致。有可能促使 LLM 表现为某种角色,特别是模型在设计阶段捕捉到的用户群体或意识形态角色。但是,如何最好地让 LLM 与特定用户而非人口或意识形态群体保持一致,仍然是一个未决问题。通过对民意调查(由 PEW 研究)的挖掘,我们发现用户的意见与他们的人口统计和意识形态并不能相互预测。我们利用这一洞察力,通过对用户意见以及用户人口统计学和意识形态进行建模来调整 LLM,从而在预测来自广泛主题的调查问题的公众意见时提高了高达 7 个百分点的准确率。除了用人口统计和意识形态提示 LLM 的典型方法外,我们还发现,利用单个用户过去最相关的观点能让模型更准确地预测用户观点。
研究背景与意义
Motivation
尽管目前让LLM在对话中扮演角色是可行的,但由于即便在某一特定群体角色限定下,在与用户交流的过程中,个体的差异仍是需要关注的。因而本文着重强调如何使LLM表现得更符合单个的用户以更好地模拟用户的行为或思考方式来提升服务质量。
很类似于个性化服务的理念,或者换句话说LLM就像需要猜测领导意图的下属,只有更好的猜对了才知道如何工作,在实际应用中,你可以让LLM扮演物理学家,但你很难让LLM扮演爱因斯坦
作者的最初动机,应该是来源于两方面,一方面是来自推荐领域对用户做预测的方法,另一方面是来自于广泛讨论的对话上下文理解和记忆
大问题
我们需要什么来使 LLM 与用户相匹配:人口特征、细粒度观点,还是两者兼而有之?(什么是人口特征,什么是细粒度观点)
小问题
研究现状
现有方法
目前已有的方法注重用户组级的观点对齐,由于该文章是一篇方法迁移,其主要工作借鉴检索和推荐领域方法,也就是社会化推荐、基于用户历史的推荐以及上下文检索。在LLM时代,其主要参考工作来源于其数据集参考文章OpinionQA,Santurkar等人《[2303.17548] Whose Opinions Do Language Models Reflect? (arxiv.org)》这篇文章讲的就是用户组级的对齐
局限性
他少比较了一点,LLM with opinions,如何确定不是由于看了指向性更明确的用户历史行为而导致的呢?
研究内容
本文方法概括及其创新点
【数据集组成】
用户统计学特征:数据集记录了用户的八项人口信息:地区、性别、年龄、教育程度、种族、公民、婚姻状况和收入。这些都是用户最有可能经历的社会经历的标志。例如,用户的社会经验可以由其所属地区决定,或者其年龄决定其经常与谁社交。然而,这样做有可能造成刻板印象(即老年人不太可能与年轻人交往,或者他们思想保守)。稍后我们将证明,人口统计信息不足以建立一个人的模型。
用户意识形态:意识形态是由个人对政治和经济的理解形成的。在我们的数据集中,我们有每个受试者的政治派别和对众所周知的政治意识形态(如保守派、自由派)的倾向。我们将这些信息作为个人的意识形态。
用户观点:OpinionQA 采用一种成熟的方法,从民意调查中获取人的意见。在这些调查中,受试者被要求回答主观问题,这些问题反映了他们的独特观点以及他们与其他人的不同之处。图 1 显示了一个用户在调查中提供的意见示例。
通过OpinionQA获取统计学变量
具有相似人口统计学特征的用户的观点一致性:我们首先选取人口统计学特征相同的所有用户对,比较他们的意见。为了计算用户间的一致得分,我们使用了科恩卡帕系数(Cohen's kappa coefficient,1960 年),其范围在-1 到 1 之间。即使两个用户具有相同的人口统计学特征,他们在隐含意见上的一致得分也都在 0.5 左右(图 2)。这表明,仅仅依靠人口统计学信息不足以实现模型的个性化,用户的内隐观点在个性化过程中起着至关重要的作用。
不同主题间用户观点一致性:在图 2 中,我们还显示了各主题的同意度得分。在某些话题上,包括 "家庭与关系 "和 "枪支",用户表现出了相对较高的同意度。另一方面,在种族和 2050 年的美国等一些主题上,用户的同意度得分较低,这表明某些主题在用户意见方面可能存在较大的变异。稍后我们将分析当模型用于预测不同话题的用户观点时,这种变异性是否会出现在模型的预测性能中。
相同社会意识形态的观点一致性:我们提取了至少回答了 10 个以上共同问题的两个用户配对,并比较了他们的观点和政治意识形态。
表 2 显示了具有相似观点的用户对的百分比(其中 70% 的观点在两个用户之间是匹配的),以及这些用户对中相同意识形态和不同意识形态的百分比。我们发现,尽管用户观点相似,但仍有约 80% 的用户对具有不同的意识形态。相比之下,我们观察到,在附录 6 中,具有相似意识形态的用户中,具有相似意识形态的用户所占的百分比相对高于具有相似意识形态的用户中具有相似意识形态的用户所占的百分比。这意味着,虽然观点相似并不一定意味着用户之间意识形态相同,但意识形态相似可能表明用户更有可能拥有相似的观点。我们在 "枪支 "和 "家庭 "这两个话题上尤其注意到了这一现象,如表 2 所示。虽然观点相同的用户配对比例高于其他话题,但这些配对中意识形态不同的用户配对比例明显高于意识形态相似的用户配对比例。
基于上述见解,我们将其纳入建模方法,并分析这些见解在用于预测从调查中收集到的用户观点时是否会转化为模型的预测性能。
数据集总结:对OpinionQA中社会意识,用户观点,人口统计学两两分析,发现了,人口统计学和用户观点之间,社会意识和用户观点之间,主题和观点之间
方法具体内容
任务描述
使用调查问卷的原有问题让LLM预测用户的选择,并选择text-davinci利用zero-shot方法进行任务
建模方法
我们对每个主题抽取 100 个用户。属于特定用户的 20% 的隐含问题被用作用户的隐含角色,其余问题则用于测试模型的个性化能力。我们的模型有以下几种变体,在这些变体中,模型会逐渐接触到不同层次的用户信息:人口统计学信息、意识形态信息和用户过去的观点。(什么是隐含问题,举例?)
有以下几种模式:
不包含个性化:用LLM的默认设置反映用户的观点
包含意识形态:观察包含意识形态倾向是否更好帮助LLM模拟用户观点
意识形态+人口统计:在这里,我们观察用户的人口统计信息和意识形态倾向是否有助于模型更好地与他们保持一致
意识形态+观点:我们将意识形态倾向和观点结合起来,并衡量它们是否有助于模型更好地与个人保持一致。
人口统计+意识形态+意见:在这里,我们观察当我们结合所有可能的个人信息,即人口统计,意识形态和意见,并衡量这些是否有助于模型更好地与个人保持一致。
评估指标
为了进行评估,我们使用了两种准确度测量方法,即整体准确度和折叠准确度。对于总体准确率,我们只需计算被引用的答案选择相对于数据集中黄金答案选择的准确率。我们还提出了折叠准确率,因为在意见质量保证数据集中,大多数答案选择大约有 3 到 4 个类别。在有 4 个以上类别的情况下,我们可以将这些类别进一步归类为超类,而不会丢失大量更精细的信息。例如,以下答案选项: [很有可能,有点可能,不太可能,完全不可能],可以归为[有可能,不太可能]。我们将此类答案选项合并为两个类别,称为折叠准确度,并相应地呈现结果。
实验与结论
实验
我们的主要目标是利用用户角色的不同组成部分(人口统计学、意识形态、观点)使 LLM 与个人相匹配。具体来说,我们通过两个实验,一个是过去的观点+意识形态,另一个是过去的观点+意识形态+人口统计学,来分析人口统计学在预测用户反应时的作用。
表 3 和表 4 中的精确匹配准确率和折叠匹配准确率显示了模型变体性能的相似趋势。特别是表 4 中的主题折叠准确率,结合了人口统计学信息和用户过去意见的模型变体在大多数主题中的表现都优于只结合了人口统计学信息的变体,而且差距更大。这表明,利用内隐意见可以使模型与正确的答案选择范围保持一致,尽管它并不能准确预测与用户选择完全相同的答案。
表 3 显示了答案选项精确匹配和折叠匹配的总体 QA 准确率。添加人口统计学信息和意识形态信息的结果优于不添加任何角色的模型,这表明有些问题可能与用户的人口统计学信息高度相关,而 LLM 能够利用人口统计学信息进行猜测。将用户以前的观点(总共多达 16 条)与人口统计学信息结合在一起,大大提高了整体准确率和折叠准确率。这意味着用户以往的观点对于做出正确预测确实非常重要。这个结论是很显然的,相当于给了用户历史行为信息,然后根据检索结果做判断.但是有一个问题,既然是zero-shot,LLM根据什么来判断选项偏好的? 或许要看OpinionQA那篇
有趣的是,利用前 k 个最相关的先前意见并不能显著提高折叠准确率。然而,当同时使用人口统计学和意识形态以及用户以前的观点时,精确匹配的准确率确实提高了 3 个百分点。这意味着,拥有前 k 个最相关的过往观点可以帮助模型找出更准确的答案,而提供用户的过往观点已经在推动模型进入正确的答案选择范围。我们注意到,使用排名前 3 位的意见与使用排名前 8 位的意见所产生的性能相似,这表明少数最相关的意见对模型性能的提升最大。此外,单纯使用前 3 个最相关的观点与使用用户人口统计、意识形态和用户过去 16 个随机观点的模型性能相当。这再次证明,利用最相关的意见作为反馈对于从 LLM 获取个性化答案至关重要。最后,提供额外的人口统计学信息和意识形态会略微提高模型的性能,这意味着人口统计学信息在一定程度上可以为模型提供有价值的见解。实验在一定程度上解释了开篇提出的问题,即到底如何才能让LLM匹配不同的用户观点.但是如果是这样的结果,首先说明了用户的最相关的观点参考意义较大,那是否可以认为是其实就是给了一个参考答案呢?如果社会意识形态以及人口统计学特征提升不明显,那这个变量是否有引入的意义,类似于社会化推荐的功能有必要实现吗?如果没必要事实上也是保护了隐私. 在与社会生活相关的特定主题上,包含社会意识形态和人口统计学特征的提示所取得的效果提升比较明显.而这
表 4 显示了该模型在不同主题和不同输入源下的准确性,其衡量标准是答案选项的精确匹配和折叠匹配。在 Biomedicalfood 和 Guns 这两个主题上,包含人口统计学和隐含观点的模型得分尤其高,这意味着这两个主题可能会导致用户对彼此有相似的观点。与此相反,当在 "自动化 "主题中加入内隐意见时,模型的表现略有下降。这表明,基于用户的人口统计学和意识形态信息,LLM 可以在一定程度上做出准确的预测。但是,在预测过程中加入隐含观点(可能包括与用户人口统计或意识形态不一致的观点)可能会使模型产生混淆。
图 4 是添加隐含观点使模型混乱时最常见的错误之一。虽然模型根据问题中的个人人口信息做出了正确的猜测,但在看到问题的答案选项中也包含 "不能很好地描述我 "这样的隐含观点后,模型就会感到困惑并做出错误的预测。换个角度来思考,仅仅使用用户的社会背景进行提示是否是纵容了LLM的刻板印象?不妨换一个提示词,民主党的白人和共和党的黑人,或者黄种人对共产主义的态度。这样的问题应该可以揭示LLM是否是根据刻板印象进行判断进而导致其实添加了社会背景的提示并不能很好的提高对用户opinion的对齐
但是由于opinion的不同就使得答案变化,有是否说明了
结论
【概括性结论】通过数据集分析,我们发现用户的观点和人口统计学并不一定相互关联。我们的实验结果表明,将用户意见、人口统计学和意识形态结合起来,可显著提高某些主题的质量保证准确率,最高可达 7 个百分点,而且利用最相关的过往意见可帮助模型为用户找出更准确的答案。
【实验性结论】
与用户价值观和文化信仰相一致的 LLM 有助于提供个性化的观点。然而,在某些情况下,LLM 可能会成为不道德和有偏见观点的放大器。就比如上面图4的实验
关于种族等伦理问题时,个性化的观点是有可能会放大用户片面的简介和偏见,一种可行的方法是将具有相似社会特征的相同社会意识形态的大多数观点也呈现给用户,给用户对比思考的机会但是这个就涉及到推荐领域一个老生常谈的话题,什么是公平的推荐,貌似目前还没有普遍的共识。不过作为一个检索或者聊天机器人,其更好的了解用户本身带有的bias并不一定是坏事(注意这不是说LLM的bias而是用户自己的bias)根据用户的bias往更全面的思考观点引导或许比RLHF中直接给出全面的观点更容易让人接受
我们的工作为强大的 LLM 对齐方法奠定了基础。通过使用基于内存的个性化和记录保存在不断增长的内存中的互动,该模型可以将过去最相关的意见告知未来的实例。
即最好通过对用户人口统计学、意识形态和最相关的过往观点进行建模,使 LLM 与用户保持一致。在 OpinionQA 数据集中的 PEW 调查中进行的大规模实验表明,与基于人口统计学的强大基线相比,质量保证的绝对准确率提高了约 7%。我们主动提出建议,以避免个性化 LLM 成为回音室。一个令人兴奋的未来方向是持续存储用户意见并增加意见记忆。既然用户历史观点有用,再添加社会背景做判断是否科学?真要典型人物典型性格了,用户隐私如何保证?
总结与思考
Q1 论文试图解决什么问题?
如果要让LLM对齐用户个性,需要添加人口统计特征、社会意识形态、历史观点中的哪些条件?
Q2 这是否是一个新的问题?
根据OpinionQA做的延伸话题,因为前者并没有做用户级的对齐,而是用户组级的对齐。
Q3 这篇文章要验证一个什么科学假设?
人格是人类的一个决定性特征,由人口特征、道德原则和社会经历的复杂相互作用而形成。然而,社会科学研究表明,所有用户都是独一无二的,即使他们属于同一个更广泛的用户群,规范化用户群并不能真正代表用户的意见。
Q4用于定量评估的数据集是什么?代码有没有开源?
OpinionQA数据集(Santurkar等人,2023)