北京时间5月15日凌晨1点,备受瞩目的谷歌I/O开发者大会在加利福利亚州山景城的海岸线圆形剧场盛大开幕。本次大会由Alphabet首席执行官桑达尔·皮查伊 (Sundar Pichai) 领衔的主题演讲拉开序幕,聚焦了人工智能领域的最新进展。其中,备受期待的Android 15系统也在此次大会上有所提及。
由于大会的举办时间较早,许多朋友可能因时差而未能实时观看。不过,接下来,CNMO将为大家详细梳理并介绍本次谷歌I/O大会的亮点内容,让你不错过任何重要信息。
Gemini 1.5 Pro大模型
此前,谷歌推出的Gemini 1.5 Pro作为一款中型多模态模型,凭借其强大的处理能力和多模态交互功能,已经在全球范围内引起了广泛的关注。这一模型不仅在文本处理方面表现出色,还能够处理图像和视频等多种数据格式,为用户提供了丰富多样的交互体验。
而在此次开发者大会上,皮查伊宣布了关于Gemini 1.5 Pro的重大更新。首先,谷歌将Gemini 1.5 Pro的上下文长度从原有的100万tokens提升到了200万tokens,这一升级将极大地增强其数据处理能力,使得模型在处理更加复杂和庞大的数据时更加游刃有余。同时,谷歌还宣布Gemini 1.5 Pro将全面支持Workspace。
此外,谷歌宣布将Gemini 1.5 Pro面向全球开发者开放。这意味着,无论是专业的开发人员还是业余的爱好者,都可以更加深入地了解和使用这一强大的模型。
升级后的Gemini 1.5 Pro在多项公共基准测试中取得了显著改进,特别是在图像和视频理解方面,它展现出了最先进的性能。这一模型不仅能够理解文本内容,还能够准确地解读图像和视频中的信息。
Gemini 1.5 Flash模型
为了满足市场对低延迟和低成本的迫切需求,谷歌也推出了Gemini 1.5 Flash模型。这款模型在成本上取得了显著的突破,定位于Gemini 1.5 Pro和Gemini 1.5 Nano之间,主要面向广大开发者群体。
在定价策略上,Gemini 1.5 Flash的定价极为亲民,每处理100万个token仅需35美分,相较于GPT-4o的每百万token 5美元的价格,这一价格优势不言而喻。而针对追求高质量内容的用户,Gemini 1.5 Pro则提供了更为精细的服务,其定价为每百万tokens 7美元。
谷歌DeepMind首席执行官德米斯·哈萨比斯在博客文章中详细阐述了Gemini 1.5 Flash的特性和应用场景。他表示,Flash模型在摘要生成、聊天应用、图像和视频字幕、以及从长文档和表格中提取数据等方面表现出色,为开发者提供了强大的支持。
哈萨比斯进一步解释道,谷歌推出Gemini 1.5 Flash的初衷在于满足开发者对于更轻便、更经济模型的迫切需求。
下一代开源模型Gemma 2
谷歌表示,全新Gemma 2模型是一款轻量级、前沿的开放式模型,继承了Gemini模型的研究和技术精髓。
Gemma 2模型采用了全新的架构,其27B(270亿)参数大小的尺寸在保持卓越性能的同时,仅为Llama 3 70B模型的一半大小,展现了突破性的性能和效率。这一设计不仅提高了模型的灵活性和适应性,也为其在各种应用场景中的部署提供了更多可能性。
为了降低部署成本,Gemma 2模型的高效设计使其所需的计算量少于同类模型的一半。经过优化的27B模型能够在英伟达的GPU上流畅运行,同时也在Vertex AI中的单个TPU主机上展现出高效的性能,使更广泛的用户能够轻松部署并享受成本效益。
此外,Gemma 2模型还为开发人员提供了强大的调优功能,支持跨越不同平台和工具生态系统的应用。从基于云的解决方案(如Google Cloud)到流行的社区工具(如Axolotl),微调Gemma 2模型将变得更加简单和高效。
谷歌表示,全新Gemma 2模型将在未来几周内正式公开上线和发布。
Google搜索
过去一年,Google搜索以其卓越的搜索生成体验回答了数十亿次查询。如今,搜索体验再次升级,用户能够以更为自然、直观的方式探索网络,提出新颖、长而复杂的查询,甚至借助照片找到所需信息。
谷歌即将推出的Ask Photos功能,将照片搜索带入了一个全新的维度。自从Google Photos九年前问世以来,用户每日上传的照片和视频数量已突破60亿张。这一巨大数字表明,人们热衷于通过照片来回顾和搜索自己的生活点滴。而Gemini技术的引入,无疑让这一切变得更加轻松高效。
设想一下,当你在停车场准备付款,却突然忘记了自己的车牌号码。以往,你可能需要在海量照片中搜索关键词,并花费大量时间浏览过去几年的照片来寻找答案。但现在,有了Ask Photos功能,你只需要简单地询问照片,它就能迅速为你找到答案。
今年夏天,谷歌将正式推出Ask Photos功能,并计划在未来推出更多创新功能。
通用AI——Project Astra
在此次大会上,最受关注的无疑是AI助手——Project Astra。Project Astra被描绘为一个实时、多模式的人工智能助手,能够接收信息、记忆内容、处理信息并理解上下文细节,从而与周围环境进行交互。在演示视频中,Project Astra展现了其出色的语音交互能力,无需任何唤醒词即可即时回答用户的问题,并帮助用户完成各种任务。特别值得一提的是,Project Astra在视觉处理方面的能力,不仅能够识别静态图像,还能处理视频内容,甚至能够记住并准确识别一闪而过的物品,如眼镜。
谷歌表示,Project Astra通过连续编码视频帧并将视频和语音组合成事件时间线来实现这些功能,从而能够迅速处理接收到的信息。这一创新方法使得Project Astra在实时视频问答等场景中表现出色,为用户提供了更加自然、无延迟的交互体验。
此外,谷歌还透露了一些关于Project Astra的未来计划。谷歌称DeepMind团队正在研究如何将多模态模型更好地整合在一起,并寻求在超大型通用模型与更小、更集中的模型之间找到平衡。
全新生成式视频模型Veo
Veo的推出无疑是对OpenAI三个月前发布的Sora的一次直接挑战。
根据谷歌官方新闻稿,Veo不仅具备生成时长超过1分钟、分辨率高达1080P的精致视频能力,更引人注目的是其对自然语言的深度理解。Veo能够精准捕捉并转化“延时摄影”、“航拍风景”等专业的电影术语,将它们化为屏幕上栩栩如生的视觉盛宴。
为了让用户能够更灵活地指导Veo进行视频创作,谷歌提供了文本、图像甚至视频提示的多种输入方式。谷歌强调,Veo生成的视频将展现出极高的连贯性和一致性,无论是人物、动物还是物体的动作,都将呈现出令人惊叹的逼真效果。
为了直观地展示Veo的强大实力,谷歌还特别发布了演示视频。在视频中,我们可以看到Veo根据用户提供的文本提示生成的精美画面,如“在美丽的日落、柔和的光线、温暖的色彩下,一个孤独的牛仔骑着马穿过开阔的平原”“许多斑点水母在水下搏动。它们的身体透明,在深海中闪闪发光”,这些画面令人震撼。
图像生成模型Imagen 3
Imagen 3相较于前代产品Imagen 2有了显著的改进。Imagen 3不仅能够更准确地理解文字提示,将其转化为图像,而且生成的图像在“创造性和细节”方面有了极大的提升,同时减少了模型产生的干扰元素和错误。
为了缓解公众对Deepfake技术的担忧,谷歌宣布Imagen 3将采用DeepMind开发的SynthID方法,在生成的媒体上应用隐形加密水印,确保内容的可追溯性和安全性。
谷歌现已在ImageFX工具中开放Imagen 3的私人预览版注册,并计划很快将其提供给使用谷歌企业生成式人工智能开发平台Vertex AI的开发人员和企业客户。
Imagen 3的升级主要体现在以下几个方面:
首先,Imagen 3在细节处理上达到了新的高度。生成的图像不仅光影丰富,而且减少了干扰伪影,使得整体效果更加自然和真实。
其次,新模型对文字提示的理解能力得到了显著提升。无论是较长的描述还是微小的细节要求,Imagen 3都能准确地捕捉并体现在生成的图像中。例如,对狼的特征、背景颜色、画质质量等要求的描述,Imagen 3都能一致地呈现出来。
此外,Imagen 3在视觉丰富度和图像质量方面也有了显著的提升。它能够准确地渲染小细节,如人手上的细微皱纹和复杂的纹理。
Android 15全面融入Gemini
在每年的I/O大会上,Android操作系统始终是讨论的焦点。自2007年Google携手84家合作伙伴成立开放手持设备联盟,共同研发Android以来,基于Android的智能手机已经遍布全球消费市场。2023年10月,谷歌发布了Android 14,并在此前已推出了Android 15的首个测试版,内部代号“香草冰淇淋(Vanilla Ice Cream)”,预示着正式版本的即将来临。
在今年的I/O大会上,谷歌重点介绍了即将面世的Android 15。在搜索方面,Android 15上的Google搜索将全面融入Gemini的能力。其中,全新的Circle to Search功能将帮助学生解决数学和物理问题,用户只需长按主页按钮或导航栏,圈出困惑的问题,即可获得详细的分步解答。
同时,Gemini AI聊天机器人也迎来了全面升级,正逐步成为Android用户的新人工智能助手。通过更紧密的底层系统集成,Gemini具备了更强的上下文感知能力,可以覆盖在任何正在使用的应用程序之上,无需用户频繁切换。此外,用户还能轻松地将图像从Gemini拖放到其他应用程序中。
谷歌表示,他们正在深入研究设备上的人工智能如何进一步改变手机功能,未来有望与Uber、Doordash等应用程序实现深度集成。
在大会上,谷歌还展示了Pixel 8a手机上通过Google Messages应用程序使用Gemini的多种场景,包括分析PDF或视频并向Gemini提问,获得清晰且引用的回答。谷歌预计,这些功能将在未来几个月内逐步扩展到更多设备上。
第六代TPU——Trillium
在推动上述技术进步的背后,谷歌的TPU功不可没。具体而言,相较于先前的TPU v5e,全新推出的第六代Trillium TPU在性能方面实现了惊人的4.7倍提升,同时在能效上也取得了超过67%的显著提升。
为了达成这一显著的飞跃,谷歌对Trillium TPU进行了多方面的优化。首先,通过增大矩阵乘法单元(MXUs)的规模并提升时钟速度,极大地提升了其计算能力。其次,谷歌为Trillium配备了第三代SparseCore,这是一种专门设计用于处理高级排序和推荐工作负载中常见的大嵌入的加速器。SparseCores通过从TensorCores卸载随机和细粒度访问,有效加速了重嵌入型工作负载。
除了上述优化外,谷歌还进一步增强了Trillium的存储和连接能力。通过将高带宽存储器(HBM)的容量和带宽翻倍,以及提升芯片间互连(ICI)的带宽,Trillium可以支持更为复杂的模型,容纳更多的权重和更大的键值缓存,从而大幅减少大模型的训练时间和响应延迟。
在扩展性方面,Trillium同样表现出色。在一个高带宽、低延迟的Pod中,Trillium可以扩展至256个TPU。此外,通过多切片技术和Titanium智能处理单元(IPU),Trillium还能够进一步扩展,连接数百个Pod,组成数以万计的芯片,并在一个多千兆位每秒的数据中心网络支持下,形成一个超大规模的超级计算机。