人工智能生成的内容正在污染众包数据¶
许多在线调查的答案呈现出由AI聊天机器人生成的明显特征,这让人们开始质疑通过此类方式收集的行为数据是否还有效。当在线问卷被AI生成的答案淹没时,科学家们所依赖的重要数据来源可能已经被污染了。
像 Prolific 这样的在线平台通过向参与者支付少量费用来让他们回答研究人员的问题。这种方式能够便捷地招募到大量行为研究的参与者,因此在学术界广受欢迎。
德国马克斯·普朗克人类发展研究所的学者安妮-玛丽·努斯伯格与她的同事们,在研究中注意到有受访者借助人工智能来完成回答,于是决定调查这种现象的普遍程度。“调查结果着实让我们大吃一惊,”她说道。
他们发现,在 Prolific 平台的一项开放式问卷调查中,高达45%的参与者有从别处复制内容再粘贴到回答框的行为。研究团队认为,这表明许多人为了节省时间,直接将问题抛给AI聊天机器人,然后将答案粘贴回来。
对问卷回复内容的进一步分析,也揭示了更多AI代答的痕迹,例如一些回答“行文冗长”或语言风格“明显不像出自人类之手”。努斯伯格说:“从我们今年年初收集的数据来看,恐怕有相当一部分研究已经被污染了。”
为了验证猜想,研究人员在后续的研究中设计了几个专门“陷阱”来甄别AI用户:
- 基础验证码 (reCAPTCHA): 两个用于区分人机的常规图形测试,识别出了0.2%的参与者。
- 高级验证码: 一个更复杂的验证码,它会分析用户的历史活动和当前行为,额外识别出了2.7%的参与者。
- “蜜罐”问题: 设置了一个仅机器人可见的问题,要求在回答中包含“榛子”一词,这个方法“捕获”了1.6%的参与者。
- 禁用复制粘贴: 通过技术手段阻止任何复制粘贴操作,结果又发现了4.7%的疑似AI用户。
“我们不能因此就全盘否定在线研究,但必须立刻采取行动,”努斯伯格表示,“研究人员需要更审慎地对待收集到的数据,并采取措施来防范AI代答。但我认为,平台方也负有重大责任,他们必须正视并严肃处理这个问题。”
一位匿名的研究伦理顾问评论道:“在线行为研究的数据真实性早已受到挑战,一些参与者为了现金或代金券而敷衍了事,甚至使用脚本机器人自动作答。更何况,单凭远程问卷来理解复杂的人类心理和行为,其有效性本身就存有疑问。现在,研究人员要么必须联手开发出能有效验证真人参与的远程技术,要么就只能回归传统的面对面研究方式了。”