在备受瞩目的谷歌I/O大会上,谷歌揭幕了一款名为Project Astra的通用人工智能系统,旨在与OpenAI的GPT-4o展开竞争。Project Astra不仅支持实时对话,还能通过视频聊天的方式与用户进行交互。大会上,谷歌官方演示了这款系统与AR眼镜的结合使用,预示着它在日常生活场景中的广泛应用潜力。尽管目前仍处于原型阶段,但谷歌表示计划在今年晚些时候正式推出。
谷歌DeepMind的首席执行官兼联合创始人Demis Hassabis亲自展示了Astra模型。这款模型通过智能手机的摄像头捕捉并分析周围环境,同时与用户进行流畅的对话。Hassabis强调,他的团队一直致力于开发能够融入日常生活的通用人工智能助手,而Project Astra正是这一努力的成果。
Project Astra的操作界面类似于一款取景器应用程序。在演示中,用户手持手机,将摄像头对准办公室的不同角落,并通过语言与系统进行交互。例如,当用户发出指令:“当你看到有东西发出声音时,请告诉我。”Astra能够迅速识别各种物体、甚至代码,并与用户进行实时的语音交流。
Astra之所以能够实现如此快速的反应,是因为其背后的“Agent”技术。这些Agent能够连续编码视频帧,将视频和语音输入整合到事件时间线中,并通过缓存这些信息以实现高效回忆,从而加速信息处理过程。
此外,Demis Hassabis还宣布了另一项创新——AI媒体创作模型Veo。据他介绍,Veo能够生成高质量的1080p视频,并且依托于Imagen 3这一最新的文本到图像框架。尽管这些技术在目前看来或许并非革命性突破,但它们无疑是谷歌在应对OpenAI的Sora视频模型和Dall-E 3图像生成器方面的重要策略。
谷歌声称,Veo具备对自然语言和视觉语义的深刻理解能力,能够按照用户的意愿创建任何所需的视频内容。这些AI生成的视频可以持续超过一分钟,并且Veo还能够理解电影制作和视觉技术的专业概念,如延时拍摄等。随着Project Astra和Veo等创新技术的推出,谷歌无疑在人工智能领域迈出了重要的一步。