chatgpt有用到知识图谱吗 法宝重磅 | ChatGPT来了,法宝人工智能研究院告诉你真相
导语
爆火,真那么神?法律人会失业吗?法宝人工智能研究院对此进行了深入研究,来让他们为大家揭秘一下真相吧。
01
遵循了什么原理
牛顿三大定律告诉了我们这个世界的万事万物之间互相作用的原理,它表明了至繁的现象可以用至简的规则来表达。当牛顿三大定律出现之前,我们对这个世界的理解是非常困惑的。当你理解了这些原理,你就拥有了运用各种来自于你自己和外界的力来改变事物发展走向的能力。与此相同,如果你懂天道和人道将会横行江湖,如果你在某个领域里练就了自己的绝活将会使职业长盛不衰。实质上,也是遵循了这样的原理才能够火爆出圈。
关于生物智能是怎么产生的,也是一个非常让人困惑的问题。这么繁复多样的智能看上去就如同世间万物的运动轨迹一样让人不可琢磨,但其内在是否也存在着牛顿三定律这样至简的规则。的GPT系列的研究似乎触及到了这个问题的本质。大家可能知道,我们人类的大脑具有一千亿左右的神经元,这些神经元之间有高达100兆的神经突触连接。但大脑从婴儿时期开始是如何和外界交互而获取至高的智能的呢?
的GPT研究工作展示出了一个非常有趣的假设。就是人的大脑不间断的对下一个时间点将要发生的图像、声音、事情进行一个预测,然后将预测的结果和实际发生的情况进行对比,发现不同,然后从不同中进行学习,修正自己的神经元之间的突触,使得自己在将来可以预测的更加准确。预测的越准确说明认知水平就越高,也就说明大脑这个模型越智能。
正是因为我们大脑有预测,有和实际发生情况的对比,我们才能随时地感知到周围环境的不同。也许有人会说,这是大脑对过往事情的记忆,而不是预测。但是周围的环境是随时发生变化的,正如同,人不可能两次趟过同一条河流,不存在两片完全一样的叶子,这种由即时的环境引发的高级的联想记忆功能正是预测。 ,著名的深度学习框架Keras的发明者,就认为深度学习的预测实际上就是一种高级联想记忆。
生物的大脑从最初始的生命体开始可能就遵循着这样规则,因为大脑对周围环境预测的越准确,其生存的可能性就越大。
的GPT-3(的基座模型)其实也就是做了上面我们所说的这件事情。GPT-3的模型拥有1750亿个参数,相当于1750亿个神经元突触连接(比起我们大脑的100兆还是少了很多)。不像人脑一样,GPT-3无法获得图像和声音信息,它所拥有的只是文本,巨量的文本,大约50TB。而它所做的唯一一件事情就是根据以前所看到的字,不断的预测下一个字。实际上,更准确的一种说法,是预测下一个可能出现的所有的字的分布概率。只有预测的分布概率和实际统计的分布概率一致的时候,模型总体预测的准确率才会最高。
就是通过这件简单的训练任务,GPT-3达到了惊人的智能水平。深度学习的祖师爷 就此评论说”生命、宇宙、所有事情的答案就在这4.398 的参数里面”。这件事做之前是没有任何人想到会是这样的结果,完完全全是一件非常不可思议的事情,超出任何专家学者的想象。
做的这件事情就好比是哥伦布发现了新大陆。虽然船和指南针不是哥伦布发明的,但新大陆是哥伦布历时两个多月的艰苦航行才找到的。而这件事情的发现很可能敲开了真正通向人工智能的大门。
从表象上看,的智能和人类有很多相似的地方。有着非常强的自然语言理解能力,给人的感觉就像一个人类助手一样。你可以用自然语言和它交流,给它布置非常灵活的任务。而这是以前所有的人工智能技术所不具备的。但它的记忆力并不是特别强,比如你问它“刑法的第130条是什么?”,它很可能答不上来。就像我们人类一样这时也需要查阅法典。
当然,中文知识记忆力弱也是因为用到的中文语料确实不多,中国并不包含在目前的服务国家之列。据说查英文法律法规还是可以的,但是到案例这个层次也不行。你可能会好奇,为什么用到的中文语料不多,但在中文对话的表现上还能这么优秀,远胜国内的一些大模型。这是因为把英文语料上习来的智能迁移到了中文上面。
GPT-3用预测下一个字的方式来表达智能,可以根据上段文本生成下段文本,但是我们人类跟它交流起来并不是很方便。所以将它进化为,其实上也就是提供了一个人机交互的接口。以下我们简单的介绍一下是如何从GPT-3训练过来的。我们可以关注一下是如何高效使用人工标注,尽量的降低标注成本。
训练的第一步是从成千上万的问题中,由人工标记出一些问题,并写出参考答案给AI,然后我们用这些标注好的问答数据集去微调GPT-3模型,这个步骤叫做“收集示例数据,训练一个有监督的模型”。在这个步骤里面有一件很重要的工作,就是标注人员不仅要给出问题的答案,还要给出答案内在的原因。这样就使得问题的回答具备了可解释性。另外一方面,这种训练方式也会加强模型对于因果关系的理解,进一步提高模型的智能。
第二步叫做“收集比较数据,训练一个奖励模型”。通过第一步的训练,模型可以按照人类的示范返回像模像样的结果。这时我们开始让人类标注员从模型生成的候选答案中选择哪个答案是最好的。选择答案比第一步中的手动生成参考答案要容易很多。通过人类标注员的选择数据,我们训练出一个能够自动判断哪个答案更好的奖励模型。
而第三步就是给它更多的新问题,然后重复前两步,回答问题、自我评分,用强化学习的方式不断优化模型回答问题的能力。这就是“根据奖励模型,对有监督模型进行持续的强化学习”。
这样便诞生了我们所熟知的。整个过程看起来很简单,但确实是这场技术大变革的领导者。且不说超大模型有超强智能这条路基本上是一家探索出来的,通过有监督的方式来释放生成式大模型的智能能力这条路也是率先干起来的。
02
为什么只有火出圈
从整个行业来看,许多大厂都在积极从事大模型的研究工作。的PaLM规模为5400亿参数,的模型为2800亿参数,Meta的OPT-175B模型为1750亿参数,甚至半导体巨头英伟达也宣布了5300亿参数的- NLG模型。
咱们国内也有中文巨型模型,比如清华&智谱的GLM规模为1300亿参数,华为的“盘古”规模为2000亿参数,百度的“文心”规模为2600亿规模,浪潮的“源1.0”规模为2450亿参数。
那么为什么只有火出圈了呢?仔细研究发现,既是技术与资本共同作用的结果,也是始终坚定地把LLM(大型语言模型)看做是通往AGI(通用人工智能)的一条必由之路的信念有关。
首先,技术上不是突发事件,2020年GPT3已经产生了非常令人震惊的结果,当时出于成本与一定的用户体验原因没有急迫商业化。只有少数的用户可以体验到GPT-3。进化后的GPT3.5,即的基座模型,相比之前的模型理解能力更强,更加善解人意,通过多轮对话能够理解很复杂的、非标准的NLP问题,规避了有毒问题和答案,比如种族歧视、自动判决、预测股票、战争等。
其次,是资本开始强势介入NLP的里程碑,推出的原因主要有两点:一是钱烧不动需要融资了;二是RLHF(从人类反馈中进行强化学习)的训练方式依赖人类反馈,大家都去用有助于积累语料。但也未料想到会引发业界乃至全世界这么大的轰动。这主要是因为所有的用户都可以免费注册了,切身体验到这个新的技术,从而产生了各种各样实际的应用。
从研究“道义”的角度讲,大模型就是为了以无监督方式解放人类标注工作。但是从前身开始,就开始引入了标注团队,利用人工标注+RLHF提高模型的可用性,方法论方面走了回头路,打了以为首的整个业界一个措手不及,毕竟引入人工标注优化模型是圈子里都认定可行的。
但是从另一个层面来看,完全无监督的情况下,大模型的发展已经到了硬件指数级增换来模型线性指标提升的状态,边际收益开始降低,模型再大,美国人无法承受。从目前文献可知,相对与GPT3的进化更多是巧妙利用了人工标注,而非深刻模型本身的架构突破。
最后,在眼中,未来的AGI(通用人工智能)应该长这个样子:有一个任务无关的超大型LLM,用来从海量数据中学习各种知识,这个LLM以生成一切的方式,来解决各种各样的实际问题,而且它应该能听懂人类的命令,以便于人类使用。的理念比较超前,对自我定位从一开始就定得比较高,始终坚定不移地探索上述方式是否可以实现AGI。
之所以能作出,胜在一个是定位比较高,另一个是不受外界干扰,态度上坚定不移。例如Bert证明了双向纯编码器架构语言模型对于很多NLU(自然语言理解)任务,效果比自回归这种单向语言模型效果更好。尽管如此,GPT 2.0并没有因此切换到双向语言模型这条路上,仍然走文本生成的路,
03
给大模型领域带来的影响
全球火爆,上线2个月活跃用户“狂飙”破亿,谷歌、苹果、微软等巨头看到了从1到100、1000、10000的放大窗口,提供商业服务的前景都打开了,这些巨头纷纷跟进,加码注资开展大模型训练,可以说在商业上是个大的里程碑。
在NLP领域,预计对99%的从业者来说,是没有机会和能力做这个事情的。要做这个事情,对研究机构的财力及投入意愿、工程能力、技术热情,都有极高的要求,缺一不可。能做这事情的机构,粗估下来,国外不超过10家,国内2023年也不会超过10家。当然,考虑到成本问题,未来也许会出现“股份制大模型”,就是有能力的几家机构合作,群策群力,一起来共建超级大模型的现象。
目前,在国外,在2022年底已经推出大模型,打造了聊天机器人;核心成员创业公司正在内测其大模型,效果可能优于;已于今年2月份开始内测Bard(基于模型)服务;公共组织LAION AI众筹了免费开源项目Open 正在开发;系列的Meta AI团队在今年上半年可能推出OPT系列新模型;微软在其必应、云服务及全家桶产品中都开始整合,其中Bing new已开始内测。
在国内,百度的文心一言(ERNIE BOT)预计3月内测,会对公众开放;元语智能的模型及api均已发布;阿里达摩院的大模型开始内部测试,会与钉钉进行深度整合,但还没有命名;腾讯、字节、华为这些头部大厂最有可能开始自研,但目前还没有确切消息。
04
法律科技公司该如何利用大模型
超大模型解决的任务范畴是常规问题用范式直接提问,非常规问题直接多轮提问得到答案,在标注上无需任何标注即可得到可接受的结果。小模型处理常规NLP问题,如分类打标签、信息抽取、阅读理解等,需要通过标注+训练的过程,非常规问题需要精巧的设计。那么法律科技公司该如何利用大模型呢?这要从大模型的劣势和如何改进说起。
首先,通用的大模型虽然容量巨大,包罗万象,但是单个模型也不可能无限大,存储所有的世界知识。大模型通过阅读大量语料,已经学会了说“人话”,有可能生成变造的内容,相当自信地“满嘴跑火车”,例如,你问它“张三以非法为目的圈了好多钱,他犯了什么罪,触犯了哪些法律?”,就会根据自己拥有的语料给出“张三可能涉嫌非法占有罪,触犯了中国刑法中第258条规定的犯罪行为”这样的答案,捏造罪名和引用法条都不对的错误答案。
所以这样的模型需要具备查阅数据库和检索搜索引擎的能力。在第一节中,我们说过了有很高的语言理解能力,相当于人类助手。我们可以直接通过和它对话的方式布置各种复杂任务(即工程)。将来,我们可以让它在自己缺乏相应知识的时候通过调用各种API来获取知识,从而正确的回答知识性问题。Yann LeCun领导的Meta AI正在从事这方面的研究工作。
其次,大模型面临具体任务指标偏低的情况,理论上来说,大模型通用性强,但在训练语料充足的情况下,专业任务上效果不一定好过预训练+微调,而且大模型的训练成本极高,其中GPT-3训练一次的费用是460万美元,总训练成本达1200万美元。而且,大模型也会面临网络问题。大模型的计算集中在大厂的算力中心,调用方面依赖网络,无法在toG,toB项目中直接调用。在训练语料不充足的情况下,使用大模型构造语料集训练本地小模型的思路比较适用。
再次,大模型面临时效性差的问题。大模型相当于使用将海量语料的压缩+泛化,可以理解为照了一个快照,GPT3与的语料是2021年构建的,它对2021年之后的信息知之甚少,且后续知识更新困难。此外,大模型还面临溯源性问题。模型直接把问题答了,知识或者信息来源无法追溯,不能解释出处,这种模型直接用在法律领域显然有问题。另外通用大模型没有包含垂直领域数据库知识,对法律行业特有的数据和知识的能力依然不足。不过,可以通过其它的手段来缓解这些问题,目前微软的New Bing上的功能就可以查询到最新的信息了并且给出回答的溯源网页。
那么对于绝大多数的中小型法律科技公司来说:针对复杂的NLG(自然语言生成)任务、要求快速交付成果、缺少训练语料的少监督(few-shot)/无监督(zero-shot)场景、需要快速验证效果和扩充语料的项目,法宝人工智能研究院建议利用业务和渠道优势,直接调用开源大模型,既可以大量节省开发成本,交付速度也快;
针对任务确定性强、有充足语料、精度要求较高、需要大量跑批、花费成本较高的项目,法宝人工智能研究院建议采用模型蒸馏- 方式、紧跟潮流学习模型压缩技术以及和其他技术互补的方式来解决。
05
给法律从业人员带来的影响
2023年必然是大模型井喷年,所有人都要盯着最新的大模型技术进展了,下半年可能多模态模型也会问世,结果会更加令人惊叹。
这将要求法律从业人员开始行动起来,积极努力学习AI技术及其商业化知识,学会使用开放的大模型开展业务场景论证,的设计将成为挖掘大模型能力的核心技能,强大的也是一种技能积累,“和模型交流”将成为法律从业人员一个重要的工作能力。
大模型将会加快法律领域信息检索、文本分类、打标签、信息抽取、机器阅读理解、文本摘要、在线咨询、翻译等功能的研发进程。这将要求法律科技的算法工程师也要更加注重业务理解,开发人员利用可能会减少一部分工作量从而更倾向于全栈工程师方向发展,更快更好地帮用户解决问题,为法律从业者赋能。
北大法宝人工智能研究院一直致力于NLP、大数据、知识图谱技术在法律领域的探索与落地。在企业法律风险分析、类案检索、案例法规结构化、法律问答系统、智慧立法、智慧检查、法治调研、智能定罪量刑、企业合规、合同审查领域拥有丰富的模型与语料积累,并参与了多项国家十四五重大科技攻关项目,核心成员在AAAI等顶级会议和期刊中多次发表论文,并在CCKS、法研杯等比赛中屡获佳绩,团队同时进行着法律领域大模型的技术探索,在此欢迎各界人士就法律智能领域的实际问题进行咨询、试用、探讨与合作。