近期,知识界两大巨头展开了一场对大模型的"自卫反击"。
首当其冲的是知网。正是那个引发学术圈地震、开启"天临元年"的知网,向秘塔AI搜索发出了停止搜索和链接其内容的强烈要求。
紧随其后的是知乎。细心的网友发现,在微软必应和谷歌的搜索结果中,知乎的内容标题和正文都出现了乱码,这很可能是为了避免其内容被用于AI模型的训练。
这两大平台之所以能从众多互联网社区中脱颖而出,关键在于其知识内容的丰富性和高质量。
对于大模型而言,"知识密度"是一个至关重要的指标。这就像半导体领域的"先进制程",高制程的芯片能在相同面积内集成更多的晶体管,而"知识密度高"的大模型则能在相同的参数空间内学习并存储更多的知识,从而更出色地完成特定领域的任务。
在半导体领域,"先进制程"的封锁一直是制约中国芯片发展的关键手段。
那么,头部知识平台对大模型的"闭关锁国",是否会对大模型及AI产品的先进性造成影响呢?
我们的观点与标题一致,大模型绝不会被"知识围城"所困。
比起结论本身,更值得我们深入探讨的是,既然大模型训练对平台内容的依赖并不强,那么模厂和平台之间的矛盾又是如何产生的呢?
众所周知,AI的三大要素是数据、算力和算法。那么知识在其中扮演了什么角色?为何大模型的知识密度会像半导体的"先进制程"一样重要?
清华大学张钹院士曾指出,当前大模型存在难以突破的天花板。"要推动AI的创新应用和产业化,知识、数据、算法、算力这四个要素缺一不可,但我们最看重的还是知识的作用,因此我们把知识放在首位。"
有人可能会问,院士的话就一定正确吗?当然不一定。我们还可以听听一线从业者的看法。
我曾听说,某AI创业公司在交付产品时发现,即便是基于性能领先的GPT4-Turbo模型,AI对很多问题也束手无策。因为有些场景需要用到一些隐性知识,这些知识对于下一步的推理至关重要,但模型却常常无法get到。
比如在生成一道菜谱时,提到了"加辣椒",但辣椒的辣味(隐性知识)就需要询问用户"是否喜欢吃辣"。人类厨师早已了解这一基础知识,但要让AI主动意识到并提出这样的问题却非常困难。
这是因为模型缺少"通识知识"。
某金融券商试图用大模型取代人类理财师,却发现大模型给出的理财观点和建议过于泛泛,缺乏人类专家那种犀利的洞见。
一位金融从业者表示,在某些场景下,大模型的fine tuning效果甚至不如传统的小模型。尝试了各种方法将业务知识注入大模型,但效果都不尽如人意。只能将出现问题的数据收集起来,提供给大型语言模型(LLM),希望它下次不要再犯同样的错误。
而另一家创业公司发现,如果从细节入手,将LLM与行业知识相结合,可以获得97%以上的准确率,基本能满足行业客户的验收标准。实际上,许多AI创业公司的大模型ToB项目,都是帮助企业构建定制化的知识库(KB系统)。
领域知识,是大模型处理复杂专项任务、实现商业成功的第二道壁垒。
因此,许多模厂都希望模型能通过持续学习,不断吸收新知识。但这又带来了新的问题——修改核心参数可能会影响模型的原有性能,甚至可能导致模型直接崩溃,这是业务的大敌。
怎么办呢?还是得依靠知识。
一方面,原本知识密度就高的大模型,就像人类具备了强大的通识基础,提前了解了很多背景知识,因此泛化能力很强。在面对新领域、陌生任务时,可以快速学习、举一反三。因此,知识密度可以让大模型具备跨领域、自学习的能力,通过"知识回路"就能学会新知识,减少了人工干预,从而降低了故障率。
另一方面,高效、精准的知识编辑,可以对大模型中的知识进行新增、擦除等操作,以很小的代价实现模型的迭代升级。这使得模厂在保持模型先进性的同时,也不会影响到现有业务的持续性。对于金融、政务、电力、工厂等业务不能中断的行业客户来说,这一点极具吸引力。
此外,在一些实际业务中,我们不希望大模型在生成时说出一些隐私信息,或者有害有毒内容、政治偏见等,都需要知识编辑技术来进行"祛毒",精准地识别毒性区域并擦除有毒内容,真正做到给大模型"洗脑"。
由此可见,知识是AI商业化全流程都必须关注的要素。业界一度流传着"得知识者得天下"的说法。有模厂提出了大模型知识的"摩尔定律",认为大模型的知识密度应该每隔8个月翻一番,同等知识量的模型参数量减半。
反过来想一想,失知识者岂不是要失天下?
知识平台,作为人类知识汇聚的重要渠道,OpenAI、谷歌等海外AI公司都与优质的媒体内容平台建立了商业化合作,通过授权内容来训练自家的模型。
既然如此,我们为什么会说,大模型其实并不担心平台的"知识封锁"呢?
因为人类知识平台,已不再是模型必须进入的"围城"。
如果说原始数据是"草",而知识是"牛奶",那么传统的知识获取,就是让机器"喝的是奶,产的也是奶"。就像20世纪的专家系统,根据一个或多个专家提供的知识和经验,通过模拟专家的思维过程,让机器能够解决问题。
在这种情况下,实现机器智能就必须依赖人类领域专家和专家知识库。要"进城"获取知识,就必须给平台"城主"交过路费。
但大模型的不同之处在于,一是"不是必须喝奶,吃草也行",可以直接从原始数据中挖掘和抽取知识。DeepMind联合创始人哈萨比斯曾设想,未来的大模型可以直接从与客观世界的感知交互过程中,利用深度学习算法来总结知识,并直接用于决策。
二是"不依赖人产奶,自己也行",通过数据驱动的大规模自动化知识获取,反哺模型。
ChatGPT、GPT4等都具备较强的知识图谱构建能力,按照要求抽取知识,正确率可达88%,这种"生产效率"远高于人类写论文、在问答平台"谢邀,刚下飞机,答一下"的速度。
更进一步,业界还在研究能够大规模编码和处理各种知识表示结构的大型知识模型(Large Knowledge Model)。从LLM到LKM,对现有人类知识的依赖越来越低。
因此,是否收录基于人类知识平台的内容,对大模型训练的影响已经很小。
"吃的是草,吐的是奶"的模型,可以在大数据的旷野上生存,并不一定要进入知识平台这座"围城","关门"也就无所谓了。
所以我们看到的后续是,秘塔AI搜索在收到知网的函件后,表示"学术"版块仅收录了论文的文献摘要和题录,并未收录文章内容本身。而且还主动"断链",不再收录知网文献的题录及摘要数据,转而收录其他中英文权威知识库的文献题录及摘要数据。类似的,被知乎以乱码干扰的谷歌搜索、微软必应搜索,模型能力依然领先。
那么,知识平台的反应,难道是过度反应、虚空索敌吗?平台究竟想"锁"住什么,恐怕才是真正值得关注的问题。
首先,不依赖人类知识来训练模型,并不意味着大模型厂商就不会侵权。
目前,全球模厂都面临着高质量语料匮乏的隐忧。在数据焦渴之下,未经授权使用有知识产权的数据是可能发生的。
在某次采访中,OpenAI的CTO就对"视频训练数据是否来自YouTube等公开网站"等问题避而不谈。此前,《纽约时报》曾因商谈"内容付费"未果,将OpenAI和微软告上法庭,指控他们未经授权使用该机构的数百万篇文章来训练AI模型。
而不久前,微软与学术出版商Taylor & Francis签署了一项价值1000万美元的协议,允许微软访问其数据以改进AI系统。
由此可见,尽管AI领域的知识产权问题仍有许多盲区,但与知识平台达成版权合作,应该被模厂及其客户纳入AI合规和持续性经营的考量之中。