OpenAI 介绍 Superalignment

原文：www.kdnuggets.com/2023/08/introducing-superalignment-openai.html

图片由作者提供

OpenAI 频繁出现在媒体上，不仅因为发布了 ChatGPT、GPT-3 和 GPT-4，还因为围绕 ChatGPT 等 AI 系统的伦理问题以及当今世界的社会经济问题。

我们的前三个课程推荐

1. 谷歌网络安全证书 - 快速进入网络安全职业的快车道。

2. 谷歌数据分析专业证书 - 提升你的数据分析技能

3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT

首席执行官 Sam Altman 在 AI 安全性方面已多次发表讲话，例如在美国参议院委员会上，他表示：

“我认为如果这项技术出现问题，它可能会变得非常严重……我们希望对此保持警觉。我们希望与政府合作，防止这种情况发生。”

话虽如此，OpenAI 团队已经开始采取行动。许多人担心超智能，即一个智能超越人类思维的 AI 系统。有些人相信技术能够解决世界上许多当前的问题，然而，由于对其知之甚少或理解有限，很难权衡其利弊。

也许谈论超智能还为时尚早，但这无疑是一个需要进行的对话。最佳的做法是尽早管理这些潜在的风险，以免它们变成无法处理的大问题。

OpenAI 的做法

OpenAI 表示他们目前没有针对超智能 AI 的解决方案，不过他们正在与新团队 Superalignment 合作进行研究。他们目前使用的技术包括来自人类反馈的强化学习，这在很大程度上依赖于人类对 AI 进行监督。然而，关于未来人类无法可靠监督 AI 的问题以及处理这一问题所需的新科学突破存在担忧。

话虽如此，OpenAI 正在考虑建立一个能够从人类反馈中学习并协助人类评估 AI 的人类级别自动对齐研究人员，同时能够解决其他对齐问题。OpenAI 已将其迄今为止获得的 20% 的计算资源用于这一努力，以迭代对齐超级智能。

为了让超级对齐团队在这方面取得成功，他们需要：

1. 开发可扩展的训练方法

他们的目标是利用其他 AI 系统来帮助评估其他 AI 系统，同时更好地理解模型如何推广监督，这是人类无法监督的。

2. 验证结果模型

为了验证系统对齐的结果，OpenAI 计划自动搜索问题行为，以改进模型的稳健性，以及自动解释性。

3. 压力测试整个对齐流程

测试，测试，再测试！OpenAI 计划通过故意训练不对齐的模型来测试其整个对齐过程。这将确保所使用的技术能够检测任何形式的不对齐，特别是最恶劣的对抗测试。

OpenAI 已经进行了初步实验，结果显示良好。他们旨在利用有用的指标和持续的模型研究来推进这些工作。

总结

OpenAI 的目标是创造一个 AI 系统和人类能够和谐共处的未来，让任何一方都不会感到受到威胁。超级对齐团队的开发是一个雄心勃勃的目标，但它将向更广泛的社区提供有关机器学习使用的证据，并能够创建一个安全的环境。

Nisha Arya 是一名数据科学家、自由技术写作人以及 KDnuggets 的社区经理。她特别关注于提供数据科学职业建议或教程，以及围绕数据科学的理论知识。她还希望探索人工智能如何能够促进人类寿命的不同方式。作为一名热衷的学习者，她寻求拓宽她的技术知识和写作技能，同时帮助指导他人。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

introducing-superalignment-openai.md

introducing-superalignment-openai.md

OpenAI 介绍 Superalignment

我们的前三个课程推荐

OpenAI 的做法

1. 开发可扩展的训练方法

2. 验证结果模型

3. 压力测试整个对齐流程

总结

更多信息

Files

introducing-superalignment-openai.md

Latest commit

History

introducing-superalignment-openai.md

File metadata and controls

OpenAI 介绍 Superalignment

我们的前三个课程推荐

OpenAI 的做法

1. 开发可扩展的训练方法

2. 验证结果模型

3. 压力测试整个对齐流程

总结

更多信息