在山景城海岸圆形剧场举行的谷歌年度开发者大会I/O结束时,谷歌首席执行官桑达尔·皮查伊透露,该公司已经说了121次“AI”。
从本质上讲,这就是今天(5月14日)谷歌两小时主题演讲的关键所在——将人工智能植入全球20多亿人使用的每一款谷歌应用和服务。以下是谷歌在发布会上宣布的所有主要更新。
以下是谷歌在此次活动中宣布的所有主要更新。
Gemini 1.5 Flash 和 Gemini 1.5 Pro 的更新
谷歌宣布推出名为 Gemini 1.5 Flash 的全新人工智能模型,据称该模型针对速度和效率进行了优化。 Flash 介于 Gemini 1.5 Pro 和 Gemini 1.5 Nano 之间,后者是该公司在设备上本地运行的最小型号。谷歌表示,它创建 Flash 是因为开发人员想要一种比 Gemini Pro 更轻、更便宜的模型来构建人工智能驱动的应用程序和服务,同时保留一些东西,比如一百万个令牌的长上下文窗口,这些东西使 Gemini Pro 与竞争模型区分开来。
今年晚些时候,谷歌将把 Gemini 的上下文窗口增加一倍,达到 200 万个代币,这意味着它将能够同时处理 2 小时的视频、22 小时的音频、超过 60,000 行代码或超过 140 万个单词。
阿斯特拉( Astra)计划
谷歌展示了Project Astra,这是由人工智能驱动的通用助手的早期版本,谷歌 DeepMind 首席执行官 Demis Hassabis 表示,这是谷歌版本的人工智能代理,“可以在日常生活中提供帮助”。
在谷歌称是一次拍摄的视频中,一名 Astra 用户在谷歌伦敦办公室周围走动,举起手机,将摄像头对准各种物体——扬声器、白板上的一些代码、窗外——然后与应用程序就其外观进行自然对话。在视频中最令人印象深刻的时刻之一,它正确地告诉用户她之前把眼镜放在哪里,而用户甚至没有拿起眼镜。
视频结尾有一个转折——当用户找到并戴上丢失的眼镜时,我们了解到他们有一个机载摄像系统,并且能够使用 Project Astra 与用户无缝地进行对话,这或许表明谷歌可能正在努力Meta 的雷朋智能眼镜的竞争对手。
询问 Google 照片
在搜索特定图像或视频时,谷歌照片已经很智能,但通过人工智能,谷歌正在将事情提升到一个新的水平。如果您是美国的 Google One 订阅者,当该功能在未来几个月推出时,您将能够向 Google Photos 提出一个复杂的问题,例如“向我展示我访问过的每个国家公园的最佳照片”。谷歌照片将使用GPS信息以及它自己的“最佳”判断来为您提供选项。您还可以要求谷歌照片生成标题以将照片发布到社交媒体。
Veo 和 Imagen 3
谷歌新的人工智能媒体创建引擎被称为 Veo 和 Imagen 3。Veo 是谷歌对 OpenAI 的 Sora 的回应。谷歌表示,它可以制作持续时间“超过一分钟”的“高质量”1080p 视频,并且可以理解延时拍摄等电影概念。
与此同时,Imagen 3 是一个文本到图像生成器,谷歌声称它比之前的版本 Imagen 2 能更好地处理文本。其结果是该公司最高质量的“文本到图像”模型,具有“令人难以置信的细节水平”。逼真、逼真的图像”和更少的伪影——本质上是与 OpenAI 的 DALLE-3 进行竞争。
Google 搜索的重大更新
谷歌正在对搜索的基本运作方式做出重大改变。今天宣布的大多数更新都包括能够提出非常复杂的问题(“找到波士顿最好的瑜伽或普拉提工作室,并显示他们的介绍优惠和从灯塔山步行时间的详细信息。”)以及使用搜索来计划膳食和假期除非您选择加入搜索实验室,否则该功能不可用。搜索实验室是该公司的平台,可让人们尝试实验性功能。
但谷歌称之为“人工智能概览”的一项重要新功能,该公司已经测试了一年,终于向数百万人推出。谷歌搜索现在将默认在结果之上显示人工智能生成的答案,该公司表示,到今年年底,它将为全球超过 10 亿用户提供该功能。
Android 上的双子座
谷歌正在将 Gemini直接集成到 Android 中。当 Android 15 今年晚些时候发布时,Gemini 将意识到您正在运行的应用程序、图像或视频,您将能够将其作为覆盖层拉出并询问特定于上下文的问题。已经做到这一点的 Google Assistant 会怎样呢?谁知道!谷歌在今天的主题演讲中根本没有提及这个问题。
还有很多其他的更新。谷歌表示,它将为人工智能生成的视频和文本添加数字水印,在Gmail和Docs的侧边面板中启用Gemini,为工作区中的虚拟人工智能队友提供动力,监听电话并实时检测你是否被骗,等等。