谷歌Gemini Live上线实时AI视频对话新功能,革新用户体验
近日,谷歌宣布在其AI助手Gemini Live中新增多项人工智能功能,其中包含可以实时识别手机屏幕内容和通过摄像头进行实时互动。这些功能的推出展示了谷歌在人工智能技术上的最新突破,并再次巩固其在该领域的领先地位。这些新功能包括屏幕共享和实时视频解读,背后的技术来源于谷歌的项目“Project Astra”。
凭借屏幕共享功能,Gemini Live现在可以实时分析用户手机上的屏幕内容,并提供相关的回答和建议。例如,用户可以向Gemini询问当前屏幕上的日期或温度,而AI则会根据屏幕共享的信息即时作答。在某些使用场景中,如选择陶瓷釉色,用户只需打开摄像头拍摄所需的画面,Gemini便能在几乎毫无延迟的情况下提供详细的建议。

这些功能已于2023年开始向部分Google One AI Premium用户进行推送,并在逐步向全球范围内推广。Gemini的实时视频解读能力不仅允许用户通过摄像头拍摄实时画面,还能让AI即时理解画面内容并给予反馈。这一能力在演示视频中展现得淋漓尽致,例如用户询问哪种颜料适合刚烧制的陶器,AI能够准确识别并推荐合适的选项。

谷歌此次推出的新功能也展示了其在多模态AI技术上的最新进展,这些进展不仅使得AI应用更为多样化,还极大地提升了用户体验的便利性。这与亚马逊、苹果等科技巨头的AI助手所提供的功能形成了显著对比。尽管亚马逊的Alexa Plus正在进行升级早期试用,苹果则推迟了其升级版Siri的发布,谷歌在这一阶段表现出的技术落地速度和功能实用性无疑占据了上风。例如,三星虽仍保留其Bixby助手,但很多其用户已将Gemini作为默认AI选项的趋势表明了这一点。
值得一提的是,谷歌的多模态AI模型Gemini 2.0版本具备处理文本、图像、音频和视频等多种信息的能力,进一步提高了AI对复杂信息的分析和处理水平。此外,谷歌为了鼓励开发者进行更多的创新应用,将相关API开放给AI Studio和Vertex AI平台,以支持广泛的开发和应用。

在中国市场,虽然谷歌的服务受限,但其技术进展在引发本地企业效仿的同时也激励了竞争对手的创新。例如,百度和华为也在各自的AI升级上同步发力,努力缩小与国际领先技术的差距。这些技术进步不仅有助于解决用户生活中的实际问题,还为人工智能技术在教育、家居、娱乐等领域的应用提供了新的视角,推动了AI助手从辅助工具向全能助手的跨越。
未来,谷歌计划继续优化这些功能在不同设备上的兼容性,并扩展更多语言支持,显示出其在全球AI应用生态布局上的前瞻性。对于用户而言,这意味着将能够享受到更加智能和无缝的交互体验。而对于行业来说,谷歌由此也进一步拉开了与竞争对手的技术和应用差距,巩固了其在AI领域的霸主地位。
