国内重点

谷歌推出全新多模态AI模型Gemini，挑战GPT头号位置

近日发布的一段视频显示，谷歌公司的最新AI模型Gemini在多模态领域实现了对GPT的超越。所谓的多模态，并不是我们所猜想的文本生产图片那么简单。过去与GPT的交流需要借助键盘输入，而多模态模型却能接收语音、视频乃至音乐等多种输入方式。谷歌公布的Gemini演示视频尽管经过剪辑，但展现了一系列场景：用户可以向Gemini展示视频片段、照片、手绘草图，或者直接用语音与之对话，甚至将这些输入方式融合使用。这样的交流模式更加符合人类的沟通习惯。

谷歌的Gemini在正式推出之际，我们看到该公司在人工智能领域拥有明显的优势。首先，谷歌拥有强大的人才库，据悉，大约有近1000人的专业团队投入此次项目的研发。其次，谷歌在场景与流量方面也具有得天独厚的条件，作为全球最大的互联网入口，谷歌旗下的Gmail、搜索引擎、Chrome浏览器、安卓操作系统等将为Gemini带来巨大的用户基础。这不仅意味着Gemini能够即刻获取用户的使用反馈，也大大有利于该模型的后续改进和优化。

此外，谷歌源于搜索引擎的起家，对于数据和知识处理颇具经验，在数据训练方面丝毫不逊色于OpenAI。而作为一家老牌的搜索公司，谷歌可以有效解决目前AI大模型存在的幻觉问题，Hinton所谓的“杜撰能力”。当前的大模型存在知识更新不及时的问题，但如果结合谷歌的搜索技术，可以使大模型更加智能、时效性和知识覆盖面更全面。通过互补，搜索引擎的智能性和大模型的即时性、准确性都将得到显著提高。

值得关注的是，谷歌在优质语料方面也有很大优势。目前大模型可能很快就会耗尽所有的书籍和网页知识库，未来的学习将面临瓶颈。然而，谷歌拥有YouTube这样的巨大资源库，其视频内容和知识标签为人工智能的训练提供了宝贵的源泉。一旦多模态方法得以广泛应用，将如何革新人类知识的积累和利用，这是一个值得深思的问题。

另外不容忽视的是，谷歌拥有自己的人工智能芯片TPU，Gemini正是基于这种TPU而非传统的英伟达GPU来进行训练的。虽然TPU的具体技术细节尚未完全公开，但其在大模型训练速度和成本上无疑将对谷歌形成有力支撑。随着谷歌与OpenAI的竞争愈发激烈，未来可能围绕开发者社区的构建进行激战。

对于创业者而言，这一切意味着未来人工智能的巨大机遇可能不仅仅在于创造超级APP，而是要在现有产品与业务中找到各自垂直领域的细分场景。只有在认识到大模型带来的行业革命同时，将AI技术深入到业务流程和产品功能中，才能在每一个细节上实现革命性的改造和创新。