生成型AI模型——即能够分析和输出文本、图像、音乐、视频等内容的模型——因其容易出错和行为不可预测而受到越来越多的审查。现在,从公共部门机构到大型科技公司,都在提出新的基准来测试这些模型的安全性。

尽管对人工智能安全性和问责制的需求日益增加,但根据一份新报告,现有的测试和基准可能不足以满足需求。生成型AI模型——即能够分析和输出文本、图像、音乐、视频等内容的模型——因其容易出错和行为不可预测而受到越来越多的审查。现在,从公共部门机构到大型科技公司,都在提出新的基准来测试这些模型的安全性。

去年年底,创业公司Scale AI成立了一个专门实验室,评估模型在安全指南方面的符合情况。本月,美国国家标准与技术研究院(NIST)和英国人工智能安全研究所发布了用于评估模型风险的工具。

但这些探测模型的方法可能并不充分。英国非营利性AI研究机构阿达·洛芙莱斯研究所(Ada Lovelace Institute,ALI)进行了一项研究,采访了来自学术实验室、民间社会以及模型生产供应商的专家,并审查了最近的AI安全评估研究。联合作者发现,尽管当前的评估方法可能有用,但它们并不全面,容易被操纵,也不一定能反映模型在现实世界中的行为。

“无论是智能手机、处方药还是汽车,我们都期望所使用的产品安全可靠;在这些领域,产品在部署前都会经过严格测试以确保其安全性。” 阿达·洛芙莱斯研究所的高级研究员兼报告的联合作者艾略特·琼斯(Elliot Jones)在接受TechCrunch采访时表示,“我们的研究旨在检查当前AI安全评估方法的局限性,评估当前评估方法的使用情况,并探讨它们作为政策制定者和监管者工具的应用。”

基准和红队测试。该研究的联合作者首先调查了学术文献,以概述当前模型的危害和风险,以及现有AI模型评估的现状。然后他们采访了16位专家,包括四位在开发生成型AI系统的未具名科技公司员工。

研究发现,AI行业内部对最佳方法和评估模型分类法存在严重分歧。有些评估仅测试模型在实验室中与基准的对齐情况,而不是模型对现实世界用户的影响。其他评估则借用了为研究目的开发的测试,而不是评估生产模型——尽管供应商坚持在生产中使用这些测试。

我们之前已经讨论过AI基准测试的问题,这项研究突出了所有这些问题和更多问题。研究中引用的专家指出,很难从基准测试结果推断出模型的性能,也不清楚基准测试是否能真正展示模型具备某一特定能力。例如,尽管一个模型可能在州律师资格考试中表现出色,但这并不意味着它能够解决更开放的法律挑战。

专家们还指出数据污染问题,如果模型在测试时使用了相同的数据集,基准测试结果可能会高估模型的性能。专家表示,很多情况下,组织选择基准测试工具不是因为它们是最好的评估工具,而是因为它们方便易用。

“基准测试有被开发者操纵的风险,他们可能会使用相同的数据集来训练模型和评估模型,就像在考试前看到了试卷,或者通过战略性地选择使用哪些评估方法,” 阿达·洛芙莱斯研究所的研究员兼研究联合作者马希·哈达卢帕斯(Mahi Hardalupas)在接受TechCrunch采访时表示,“评估哪个版本的模型也很重要。小的变化可能会导致行为的不可预测变化,并可能覆盖内置的安全功能。”

阿达·洛芙莱斯研究所的研究还发现,“红队测试”存在问题,即指派个人或团队“攻击”模型以识别漏洞和缺陷。包括OpenAI和Anthropic在内的一些AI初创公司都使用红队测试来评估模型,但对于红队测试缺乏公认的标准,这使得评估其效果变得困难。

专家告诉研究的联合作者,很难找到具备必要技能和专业知识来进行红队测试的人才,并且红队测试的手工性质使其成本高昂、费力——这对于没有必要资源的小型组织来说是一个障碍。

可能的解决方案

发布模型的压力和不愿进行可能在发布前引发问题的测试是AI评估没有改进的主要原因。“一位在开发基础模型的公司工作的受访者表示,公司内部更倾向于快速发布模型,这使得推迟和认真进行评估变得更加困难,”琼斯说,“主要的AI实验室发布模型的速度超过了他们或社会确保模型安全可靠的能力。”

阿达·洛芙莱斯研究所研究中的一位受访者称评估模型的安全性是一个“难以解决”的问题。那么这个行业——以及监管它的人——对解决方案有什么希望呢?阿达·洛芙莱斯研究所的研究员马希·哈达卢帕斯认为,未来是有前景的,但这需要公共部门的更多参与。“监管者和政策制定者必须清楚地表达他们对评估的期望,”他说,“同时,评估界必须对当前的局限性和评估的潜力保持透明。”

哈达卢帕斯建议政府要求更多的公众参与评估开发,并实施措施支持第三方测试的“生态系统”,包括确保定期访问任何所需模型和数据集的项目。琼斯认为可能有必要开发“特定情境”的评估,不仅仅测试模型如何响应提示,而是研究模型可能影响的用户类型(例如特定背景、性别或种族的人)以及对模型攻击可能如何突破防护措施。“这将需要在评估基础科学上的投资,以开发更稳健和可重复的评估,这些评估基于对AI模型如何运作的理解,”他补充道。但可能永远无法保证模型是安全的。

“正如其他人所指出的,‘安全’不是模型的属性,”哈达卢帕斯说,“确定模型是否‘安全’需要理解其使用的情境、出售或提供给谁,以及现有的安全措施是否足够和稳健,以降低这些风险。对基础模型的评估可以起到探索性作用,识别潜在风险,但它们不能保证模型是安全的,更不用说‘完全安全’了。我们许多受访者都认为评估不能证明模型是安全的,只能表明模型是不安全的。”

© 版权声明

相关文章

返回顶部