开发人员建立了测试,以了解AI聊天机器人如何回应有争议的主题
一个化名开发人员创建了他们所谓的“言语评估”,语音示意图,为AI模型为Openai的Chatgpt和X的Grok提供了供电的聊天机器人。开发人员告诉TechCrunch,目标是比较不同模型如何处理敏感和有争议的主题,包括政治批评和有关公民权利和抗议的问题。
AI公司一直专注于微调如何处理某些主题,因为一些白宫盟友指责流行的聊天机器人过于“唤醒”。唐纳德·特朗普(Donald Trump)总统的许多亲密知己,例如埃隆·马斯克(Elon Musk),加密货币(Ai Czar)大卫·萨克斯(David Sacks),都声称聊天机器人审查保守派观点。
尽管这些AI公司都没有直接回应这些指控,但其中一些人承诺调整其模型,以便他们拒绝少于回答有争议的问题。例如,对于最新的LLA作物MA模型,Meta说,它调整了模型不要认可“对其他观点”,并回答更多“辩论”的政治提示。
SpeechMap的开发人员在X上使用用户名“ XLR8HARDER”的开发人员说,他们有动力帮助辩论有关模型应该,不应该,不应该这样做的辩论。
“我认为这些是在公开场合应该进行的讨论,而不仅仅是公司总部内,” XLR8HARDER通过电子邮件告诉TechCrunch。 “这就是为什么我建立了该网站以让任何人自己探索数据。”
SpeechMap使用AI模型来判断其他模型是否符合给定的一组测试提示。提示涉及从政治到历史叙事和民族象征的一系列主题。 SpeechMap记录模型是否“完全”满足请求(即无需套期保值的情况),给出“回避”答案或完全拒绝d。
XLR8HARDER承认该测试存在缺陷,例如由于模型提供商错误而引起的“噪声”。 “法官”模型也可能包含可能影响结果的偏见。
但是,假设该项目是真诚创建并且数据准确的,那么SpeechMap揭示了一些有趣的趋势。
例如,随着时间的流逝,Openai的模型越来越拒绝回答与政治有关的提示。该公司的最新车型GPT-4.1家族稍微宽松,但与去年Openai的发行版之一相比。。Openai表示,2月份将不采取社论立场,并就有争议的主题提供多种观点,这一切都是为了使其模型看起来更加“中性”。 OpenAI模型在语音示意图上超过时间图学分:OpenAI
到目前为止最宽容的M根据SpeechMap的基准测试,这束Odel是由Elon Musk的AI初创公司Xai开发的Grok 3。 Grok 3为X上的许多功能提供了功能,包括聊天机器人Grok。
Grok 3响应了SpeechMap的96.2%的测试提示,而全球平均“合规率”为71.3%。
。“虽然Openai最近的模型随着时间的流逝变得越来越少,尤其是在政治敏感的提示上,Xai朝相反的方向移动。”
马斯克大约两年前宣布Grok时,他将AI模型宣传为前卫,未经过滤和反“唤醒” - 总的来说,愿意回答其他AI系统的有争议的问题。他兑现了一些诺言。被告知要粗俗,例如,Grok和Grok 2会很高兴地义务,吐出您可能不会听到Chatgpt的多彩语言。
但在po上Grok 3对冲之前Grok模型政治主题,不会越过某些界限。实际上,一项研究发现,格罗克(Grok)倾向于跨性别权利,多样性计划和不平等等主题的政治左派。
马斯克将这种行为归咎于Grok的培训数据(公共网页),并承诺“将Grok转移到政治上是中立的。”缺少备受瞩目的错误,例如简短地审查唐纳德·特朗普总统和马斯克总统的提及,他似乎已经实现了这一目标。
发布评论