超级智能助手登场!谷歌Gemini免费开放了

AI快讯 2024-04-10

谷歌最强大模型Gemini 1.5 Pro今天起,“全面”对外开放。

开发者可通过API调用,普通用户也能在谷歌AI Studio中直接体验,且目前完全免费。令人瞩目的是,该模型首次增加了音频理解功能,无论是财报电话会、电视节目还是大神演讲,不需要我们再提供字幕文档它就可以直接解读了。

image.png

如下图所示:

image.png

上传Jeff Dean长约117000+token的演讲录音,Gemini 1.5 Pro在30.8s内就完成了解析。可解析长达11小时的音频或1小时的视频,对于各类音频和视频内容均能迅速解析出关键信息。

Gemini 1.5 Pro被定义为公开预览版,虽然音频理解功能尚未加入API,但用户已能在Google AI Studio中直接体验其强大功能。实测中,无论是对于比尔盖茨的访谈还是Andrej Karpathy的大模型科普教程,Gemini 1.5 Pro都能在短时间内精准整理出对话或演讲的精华部分,令人印象深刻。

我们也赶紧实测了一把,结果是真香。

Gemini 1.5 Pro开放API了

谷歌官方给这次免费开放的Gemini 1.5 Pro版本定义为“公开预览版”。

它主要面向开发者,可在谷歌AI Studio中获得API密钥:

image.png

目前最引人注目的音频理解功能还没添加到API中,但据说很快就会补上。

问题不大,我们可以先在Google AI Studio中直接体验:

在实测中,我们上传了比尔盖茨1995年做客Late Show节目的一段音频,时长1分钟。

我们没有提示这段音频的任何背景信息,Gemini 1.5 Pro直接就听出来了是谁。

并在10s左右精准整理出了全对话的精华部分,一点“正确的废话”都没有:

image.png

表现令人折服。

接下来,来个更具挑战的,Andrej Karpathy1小时长的大模型科普教程。

我们提取音频文件,足足10万多个token(这种在UI里直接显示当前消耗token数量的方法也广受好评)。

Gemini 1.5 Pro最终在53s内按要求给出了10个亮点分析:

image.png

可以说一分钟就让我们对1小时的演讲内容有了整体认知,再也不用费劲扒字幕文件了。

除了音频理解,Gemini 1.5 Pro还提供了系统指令、JSON模式以及函数调用上的改进等三项新功能/改进,帮助开发者更好地控制模型输出。此外,开发者还能通过该API调用谷歌的下一代文本嵌入模型Gecko,实现更强大的检索性能。

Gemini 1.5 Pro于两个月前发布,以其多模态多语言的特点和高达100万的上下文窗口长度成为谷歌最强大的模型之一。此前已有网友分享了一些内测结果,包括鉴别视频是否AI生成、分析篮球比赛得分等,均表现出色。

随着Gemini 1.5 Pro API的全面开放,相信更多开发者将能体验到其强大的功能,进一步推动AI技术的发展和应用。虽然目前速率限制较高,但随着技术的不断优化和完善,相信未来会有更多的可能性等待我们去探索。

@版权声明:部分内容从网络收集整理,如有侵权,请联系删除!

相关文章