致力打造国内好用的AI产品导航平台
谷歌首席执行官桑达尔·皮查伊宣布推出 Gemini 2.0,这一模型代表了谷歌在革新人工智能方面的下一步举措。在推出 Gemini 1.0 模型一年后,这次重大升级融合了增强的多模态能力、智能代理功能以及创新的用户工具,旨在突破人工智能驱动技术的界限。
迈向变革性人工智能
皮查伊在反思谷歌 26 年来组织并使全球信息可访问的使命时表示:“如果说 Gemini 1.0 是关于组织和理解信息,那么 Gemini 2.0 则是让信息变得更加有用。”
2022 年 12 月发布的 Gemini 1.0 以成为谷歌首个原生多模态人工智能模型而引人注目。首次迭代在理解和处理文本、视频、图像、音频和代码方面表现出色。其增强的 1.5 版本因对长上下文的理解而被开发者广泛接受,使得诸如以提高生产力为重点的 NotebookLM 等应用成为可能。
现在,借助 Gemini 2.0,谷歌旨在加速人工智能作为通用助手的作用,能够生成原生图像和音频、进行更好的推理和规划以及具备现实世界的决策能力。用皮查伊的话说,这一发展代表着“智能代理时代”的黎明。
“我们一直在投资开发更多的智能代理模型,这意味着它们可以更多地了解你周围的世界,提前多步思考,并在你的监督下代表你采取行动。”皮查伊解释道。
Gemini 2.0:核心功能和可用性
今天公告的核心是实验性地发布 Gemini 2.0 Flash,这是 Gemini 第二代的旗舰模型。它建立在其前身奠定的基础之上,同时提供更快的响应时间和先进的性能。
Gemini 2.0 Flash 支持多模态输入和输出,包括结合文本生成原生图像以及生成可引导的文本到语音多语言音频的能力。此外,用户可以从原生工具集成(如谷歌搜索)甚至第三方用户定义的功能中受益。
开发者和企业将通过谷歌人工智能工作室和 Vertex AI 中的 Gemini API 访问 Gemini 2.0 Flash,而更大的模型尺寸计划在 2024 年 1 月更广泛地发布。
为了实现全球可访问性,Gemini 应用程序现在具有 2.0 Flash 实验模型的聊天优化版本。早期采用者可以在桌面和移动设备上体验这个更新后的助手,移动应用程序即将推出。
诸如谷歌搜索等产品也正在通过 Gemini 2.0 进行增强,解锁了处理复杂查询(如高级数学问题、编码查询和多模态问题)的能力。
全面的人工智能创新套件
Gemini 2.0 的推出带来了引人注目的新工具,展示了其能力。其中一个功能,深度研究,作为人工智能研究助手,通过将信息编译成综合报告来简化调查复杂主题的过程。另一个升级是通过启用 Gemini 的人工智能概述增强搜索,以处理复杂的多步骤用户查询。
该模型是使用谷歌第六代张量处理单元(TPU),即延龄草进行训练的,皮查伊指出“延龄草为 Gemini 2.0 的训练和推理提供了 100%的动力”。延龄草现在可供外部开发者使用,使他们能够受益于支持谷歌自身进步的相同基础设施。
开创性的智能代理体验
与 Gemini 2.0 一起的是为探索人机协作的未来而构建的实验性“智能代理”原型,包括:
项目阿斯特拉:通用人工智能助手
今年早些时候在 I/O 大会上首次推出,项目阿斯特拉利用 Gemini 2.0 的多模态理解来改善现实世界的人工智能交互。可信的测试人员在 Android 上试用了该助手,提供的反馈有助于改进其多语言对话、记忆保留以及与谷歌工具(如搜索、镜头和地图)的集成。阿斯特拉还展示了接近人类的对话延迟,并且正在进行进一步的研究,以将其应用于可穿戴技术,如原型人工智能眼镜。
项目水手:重新定义网络自动化
项目水手是一个实验性的网络浏览助手,它利用 Gemini 2.0 在浏览器中的文本、图像和像表单这样的交互元素中进行推理的能力。在初步测试中,它在 WebVoyager 基准测试中完成端到端网络任务的成功率达到了 83.5%。使用 Chrome 扩展程序的早期测试人员正在帮助完善水手的能力,而谷歌正在评估安全措施,以确保该技术保持用户友好和安全。
朱尔斯:面向开发者的编码代理
朱尔斯是为开发者构建的人工智能驱动的助手,直接集成到 GitHub 工作流程中以解决编码挑战。它可以在人类监督下自主提出解决方案、生成计划并执行基于代码的任务。这个实验性的努力是谷歌在各个领域创建多功能人工智能代理的长期目标的一部分。
游戏应用及其他
将 Gemini 2.0 的影响力扩展到虚拟环境中,谷歌 DeepMind 正在与像 Supercell 这样的游戏合作伙伴合作开发智能游戏代理。这些实验性的人工智能伙伴可以实时解释游戏动作、提出策略,甚至通过搜索访问更广泛的知识。也正在研究 Gemini 2.0 的空间推理如何支持机器人技术,为未来在物理世界的应用打开大门。
在人工智能开发中解决责任问题
随着人工智能能力的扩展,谷歌强调优先考虑安全和伦理考虑的重要性。谷歌声称 Gemini 2.0 经过了广泛的风险评估,并在责任与安全委员会的监督下得到加强,以减轻潜在风险。此外,其嵌入式推理能力允许进行高级的“红队测试”,使开发者能够评估安全场景并大规模优化安全措施。
谷歌也在探索保障措施以解决用户隐私问题、防止滥用并确保人工智能代理保持可靠。例如,项目水手旨在优先考虑用户指令,同时抵抗恶意提示注入,防止像网络钓鱼或欺诈交易这样的威胁。同时,项目阿斯特拉中的隐私控制使用户能够轻松管理会话数据和删除偏好。
皮查伊重申了公司对负责任开发的承诺,他说:“我们坚信,构建人工智能的唯一方法是从一开始就负责任。”随着 Gemini 2.0 Flash 的发布,谷歌正在更接近其构建能够改变跨领域交互的通用助手的愿景。