谷歌推出全新多模态AI模型Gemini,挑战GPT头号位置


近日发布的一段视频显示,谷歌公司的最新AI模型Gemini在多模态领域实现了对GPT的超越。所谓的多模态,并不是我们所猜想的文本生产图片那么简单。过去与GPT的交流需要借助键盘输入,而多模态模型却能接收语音、视频乃至音乐等多种输入方式。谷歌公布的Gemini演示视频尽管经过剪辑,但展现了一系列场景:用户可以向Gemini展示视频片段、照片、手绘草图,或者直接用语音与之对话,甚至将这些输入方式融合使用。这样的交流模式更加符合人类的沟通习惯。

谷歌的Gemini在正式推出之际,我们看到该公司在人工智能领域拥有明显的优势。首先,谷歌拥有强大的人才库,据悉,大约有近1000人的专业团队投入此次项目的研发。其次,谷歌在场景与流量方面也具有得天独厚的条件,作为全球最大的互联网入口,谷歌旗下的Gmail、搜索引擎、Chrome浏览器、安卓操作系统等将为Gemini带来巨大的用户基础。这不仅意味着Gemini能够即刻获取用户的使用反馈,也大大有利于该模型的后续改进和优化。

此外,谷歌源于搜索引擎的起家,对于数据和知识处理颇具经验,在数据训练方面丝毫不逊色于OpenAI。而作为一家老牌的搜索公司,谷歌可以有效解决目前AI大模型存在的幻觉问题,Hinton所谓的“杜撰能力”。当前的大模型存在知识更新不及时的问题,但如果结合谷歌的搜索技术,可以使大模型更加智能、时效性和知识覆盖面更全面。通过互补,搜索引擎的智能性和大模型的即时性、准确性都将得到显著提高。

值得关注的是,谷歌在优质语料方面也有很大优势。目前大模型可能很快就会耗尽所有的书籍和网页知识库,未来的学习将面临瓶颈。然而,谷歌拥有YouTube这样的巨大资源库,其视频内容和知识标签为人工智能的训练提供了宝贵的源泉。一旦多模态方法得以广泛应用,将如何革新人类知识的积累和利用,这是一个值得深思的问题。

另外不容忽视的是,谷歌拥有自己的人工智能芯片TPU,Gemini正是基于这种TPU而非传统的英伟达GPU来进行训练的。虽然TPU的具体技术细节尚未完全公开,但其在大模型训练速度和成本上无疑将对谷歌形成有力支撑。随着谷歌与OpenAI的竞争愈发激烈,未来可能围绕开发者社区的构建进行激战。

对于创业者而言,这一切意味着未来人工智能的巨大机遇可能不仅仅在于创造超级APP,而是要在现有产品与业务中找到各自垂直领域的细分场景。只有在认识到大模型带来的行业革命同时,将AI技术深入到业务流程和产品功能中,才能在每一个细节上实现革命性的改造和创新。