近期OpenAI发布了Model Spec模型规范的初步草案

AI资讯 2024-05-10

来源：www.aifind.com.cn

Model Spec的第一部分侧重于核心目标。这些是指导模型行为的广泛原则，包括帮助用户实现他们的目标、造福人类以及对OpenAI产生积极影响。这些基本原则还要求模型行为遵守“社会规范和适用法律”。

为了提高人工智能开发中的问责制和透明度，OpenAI发布了“Model Spec（模型规范）”的初步草案。这是首个其类的文件，概述了在其API和ChatGPT中指导模型行为的原则。

公司在博文中表示：“我们这样做是因为我们认为人们能够理解和讨论塑造模型行为所涉及的实际选择非常重要。Model Spec反映了我们在OpenAI使用的现有文档，我们在设计模型行为方面的研究和经验，以及正在进行的工作，以指导未来模型的发展。这是我们不断致力于使用人类输入改善模型行为的持续工作的延续，并补充了我们的集体对齐工作和更广泛的系统方法来确保模型安全的工作。”

模型行为——即人工智能模型对用户输入的响应，涵盖了诸如语调、个性和响应长度等各种方面——在人工智能与人类的互动中起着至关重要的作用。塑造这种行为是一项复杂的任务，因为模型从多样化的数据集中学习，并且在实践中可能会遇到冲突的目标。

OpenAI表示，塑造这种行为仍然是一门新生科学，因为模型并没有被明确编程，而是从广泛的数据中学习。“Model Spec”草案概述了塑造人工智能行为的三重方法。这份文件详细说明了OpenAI的“期望模型行为”，以及公司在“出现冲突时如何评估权衡”。

除了这些广泛的目标外，该文件还提供了明确的指导，博客称之为“规则”。这些规则旨在应对复杂的情况，并“帮助确保人工智能行动的安全性和合法性”。其中一些规则包括遵循用户的指示、遵守法律、避免创建信息危害、尊重用户权利和隐私，以及避免生成不适当或不适合工作场所的内容。

最后，Model Spec承认，在这些目标和规则“冲突”的情况下可能会出现。“为了应对这些复杂性，文件建议AI模型遵循默认行为。这些默认行为包括假设用户的最佳意图，帮助而不“越界”，以及鼓励尊重的互动。

全球研究和咨询公司Counterpoint Research的副总裁兼合作伙伴Neil Shah表示,“这是模型理想应该走的方向，看到OpenAI为用户的行为制定了更多的上下文和个性化，但更重要的是‘负责任’，这是很好的。”。

OpenAI另一份详细说明Model Spec的文件表示：“我们的目的是将Model Spec用作研究人员和数据标记者创建数据的指南，作为一种称为从人类反馈中进行强化学习的技术的一部分。”“与我们的模型一样，该规范将根据我们通过共享和听取利益相关者的反馈所学到的知识而持续更新。”

RLHF将推动模型如何更加符合实际人类行为，但也使其目标、原则和规则更加透明。这使得OpenAI模型更加负责任和有用，Shah说道。“尽管这将是一个不断变化的目标，以微调规格，因为在构造查询和最终目标方面存在许多灰色区域，模型必须足够智能和负责任，以侦测到查询和响应是否不负责任。”

Model Spec代表了实现道德人工智能的重要一步。该公司强调了与用户和公众建立信任的重要性，后者在日常生活中与人工智能系统的交互日益增加。