谷歌宣布 Gemini 1.5 Pro 型号现已可供公众预览。
该公司补充说,升级后的AI模型支持音频处理。
谷歌表示,这项技术可用于高质量转录、财报电话分析等。
谷歌的Gemini生成式AI模型分为Nano、Pro和Ultra。该公司早在 2 月份就发布了Gemini 1.5,现在确认 Gemini 1.5 Pro 可供公开预览,并获得了一项显着的功能。
谷歌确认Gemini 1.5 Pro现在支持音频处理。这家搜索巨头表示,这种支持包括视频文件中的音频和语音。
“这为用户提供了无缝的跨模式分析,提供跨文本、图像、视频和音频的见解。它还提供高质量的转录,可用于搜索音频和视频内容,例如使用它在财报电话会议或投资者会议上搜索、分析和回答问题,”谷歌解释道。
谷歌AI工作的重大升级
该公司此前声称,Gemini 1.5 Pro 在 87% 的基准测试中击败了 Gemini 1.0 Pro,几乎与 Gemini 1.0 Ultra 持平。该公司此前还表示,客户可以在单个流中处理一小时的视频、11 小时的音频、超过 30,000 行代码的代码库或超过 700,000 个单词。