超级智能助手登场！谷歌Gemini免费开放了

AI快讯 2024-04-10

谷歌最强大模型Gemini 1.5 Pro今天起，“全面”对外开放。

开发者可通过API调用，普通用户也能在谷歌AI Studio中直接体验，且目前完全免费。令人瞩目的是，该模型首次增加了音频理解功能，无论是财报电话会、电视节目还是大神演讲，不需要我们再提供字幕文档它就可以直接解读了。

如下图所示：

上传Jeff Dean长约117000+token的演讲录音，Gemini 1.5 Pro在30.8s内就完成了解析。可解析长达11小时的音频或1小时的视频，对于各类音频和视频内容均能迅速解析出关键信息。

Gemini 1.5 Pro被定义为公开预览版，虽然音频理解功能尚未加入API，但用户已能在Google AI Studio中直接体验其强大功能。实测中，无论是对于比尔盖茨的访谈还是Andrej Karpathy的大模型科普教程，Gemini 1.5 Pro都能在短时间内精准整理出对话或演讲的精华部分，令人印象深刻。

我们也赶紧实测了一把，结果是真香。

Gemini 1.5 Pro开放API了

谷歌官方给这次免费开放的Gemini 1.5 Pro版本定义为“公开预览版”。

它主要面向开发者，可在谷歌AI Studio中获得API密钥：

目前最引人注目的音频理解功能还没添加到API中，但据说很快就会补上。

问题不大，我们可以先在Google AI Studio中直接体验：

在实测中，我们上传了比尔盖茨1995年做客Late Show节目的一段音频，时长1分钟。

我们没有提示这段音频的任何背景信息，Gemini 1.5 Pro直接就听出来了是谁。

并在10s左右精准整理出了全对话的精华部分，一点“正确的废话”都没有：

表现令人折服。

接下来，来个更具挑战的，Andrej Karpathy1小时长的大模型科普教程。

我们提取音频文件，足足10万多个token（这种在UI里直接显示当前消耗token数量的方法也广受好评）。

Gemini 1.5 Pro最终在53s内按要求给出了10个亮点分析：

可以说一分钟就让我们对1小时的演讲内容有了整体认知，再也不用费劲扒字幕文件了。

除了音频理解，Gemini 1.5 Pro还提供了系统指令、JSON模式以及函数调用上的改进等三项新功能/改进，帮助开发者更好地控制模型输出。此外，开发者还能通过该API调用谷歌的下一代文本嵌入模型Gecko，实现更强大的检索性能。

Gemini 1.5 Pro于两个月前发布，以其多模态多语言的特点和高达100万的上下文窗口长度成为谷歌最强大的模型之一。此前已有网友分享了一些内测结果，包括鉴别视频是否AI生成、分析篮球比赛得分等，均表现出色。

随着Gemini 1.5 Pro API的全面开放，相信更多开发者将能体验到其强大的功能，进一步推动AI技术的发展和应用。虽然目前速率限制较高，但随着技术的不断优化和完善，相信未来会有更多的可能性等待我们去探索。

谷歌 Gemini

@版权声明:部分内容从网络收集整理，如有侵权，请联系删除!

相关文章

难逃「卖身」宿命？Character.AI组团投身谷歌，AI独角兽公司被大厂“收编”

2024-08-14

2

阿里国际推出首个专业版AI Search，为什么它会是下一个B2B谷歌？

2024-08-07

5

上线一周就下架，蹭奥运会热度，谷歌的AI广告翻车了

2024-08-05

5

SearchGPT炸场！OpenAI开卷AI搜索，网友灵魂拷问：谷歌你慌了吗

2024-07-26

4

科技巨头集结号！谷歌领衔14巨头成立CoSAI，AI安全‘卷’出新高度

2024-07-19

4

不愧是AI猛兽！谷歌放大招，将发布 Imagen3、定制GPT等五大功能

2024-07-17

1

AI569工具箱收录了国内外当下流行的数百款 ai工具，定期检查更新最新的好用工具，工具包含了ai文本模型、ai绘画模型、ai 视频模型、ai声音模型等各种类型!Ctrl + D 或 ⌘ + D 收藏本站到浏览器书签栏。

AI工具箱导航关于我们免责声明

Copyright © AI569工具导航站-ai工具大全京ICP备16027678号-17