在人工智能技术日益进步的今天,各大科技公司纷纷推出自己的语言模型,试图在智能对话和自然语言处理领域取得领先。然而近期,谷歌发布的Gemini-Pro在中文语料处理上的一系列反常行为引起了业内外的广泛关注和热烈讨论。
有读者向媒体爆料,在谷歌Vertex AI平台上使用Gemini-Pro进行中文对话时,该模型自称为百度的语言大模型。微博大V @阑夕夜进一步测试了这一现象,发现不管是在Poe平台上还是其他渠道,Gemini-Pro在被问及自我介绍时均称自己是百度文心大模型,甚至在没有任何前置对话的情况下,明确表示自己的创始人为李彦宏,并声称底层技术是百度飞桨。这种情况使人们不禁怀疑,谷歌是否在构建自家的AI模型时,误用或借鉴了百度的训练数据。
对此,许多网友和技术爱好者表示震惊,并纷纷提出疑问:在此前还有传闻称字节跳动使用GPT模型训练AI,难道科技巨头间正在进行某种形式上的技术洗牌吗?大公司是否真正在彼此”借羊毛”?
为了进一步了解情况,有机构也开展了实测。在Poe网站上选择Gemini-Pro聊天机器人,询问同样的问题,得到的回答与网友们的反馈一致。更让人疑惑的是,当试图纠正Gemini-Pro的身份时,机器人还坚持称自己是清华大学的研究成果,并且还提到使用了清华Gemini-Pro的训练数据。将语言转换为英文后,Gemini-Pro则改口称自己是谷歌训练的模型,似乎中英文背后的逻辑模型有所不同。
在谷歌的Bard平台上也进行了测试。同样是提出关于身份的询问,Bard却完全不提及文心一言,只是简单地称自己是Bard。同样针对底层技术和训练数据源的问题,Bard给出了含糊且未涉及文心一言的回答。
最终,通过直接从谷歌AI Studio入口进行的测试揭示了更多信息。在这一平台上,Gemini-Pro直接承认在中文训练数据上使用了百度文心一言的成分。随即,该机构也联系了百度方面,希望能够获得更加明确的回复。
这一连串的身份混淆事件,不仅令人们对AI的身份认知产生了混乱,更是对AI技术文档的真实性和透明度提出了挑战。如何在大数据时代维持技术来源的清晰和合理利用已有资源,成为AI领域亟需解决的问题之一。