天天看点

聊聊我对CV、NLP各领域进展的最新理解读完计算机视觉(ComputerVision,简称CV)和自然语言处理(Natu

作者:投资人马克

聊聊我对CV、NLP各领域进展的最新理解

读完计算机视觉(Computer Vision, 简称CV)和自然语言处理(Natural Language Processing, 简称NLP)领域主流的论文后,可以把各领域当前研究的热点概括如下:

在NLP领域,

1.发现了大语言模型(Large Language Model,简称LLM)Scaling Law(论文:Scaling Laws for neural language models),即LLM的能力与参数规模和训练数据规模均成正比,换句话说,在有限的算力预算下,需要平衡扩大参数规模和扩大训练数据,而不是只focus在其中之一。

2.发现了大模型的推理能力(论文:Emergent Abilities of Large Language Models,一作是华人Jason Wei)。在此之前,我对AGI言论持怀疑态度,理由就是transfomer架构没有推理能力,但研究发现,只要把模型参数scale到足够大,经过足够的数据训练后,transfomer大语言模型的推理能力就涌现出来了。涌现现象是自然界普遍存在的现象,也是复杂科学领域的一个重要研究方向,感兴趣的同学可以阅读Melanie Mitchell的《复杂》。我读过一遍,确实是好书。

3.找到了“预测下一个词”这样足够简单又足够强大的训练范式。在ChatGPT横空出世之前,LLM在NLP领域有两个研究路线,比较有影响力的是谷歌推出的Bert模型,影响力低点的是OpenAI的GPT系列模型,当时最新的是GPT-3。Bert模型采用的是完形填空的训练范式,并且首次在NLP任务上提出对大语言模型做预训练,然后再对下游任务进行微调,就能取得SOTA(历史最佳表现,state of the art)。这个想法是借鉴了CNN时代的计算机视觉思想。OpenAI厉害的地方是从GPT-1开始就坚持用“预测下一个词”作为训练范式,看到一点曙光,就砸更多的钱训练更大的模型,直到GPT-3,他们发现自己成功了。真正让GPT-3获得世界目光的是基于GPT-3模型,用人类反馈微调后的ChatGPT,基本实现了开箱即用能力,专业术语叫Zero shot learning。这之后,几乎所有的大公司、VC资本,都涌向“预测下一个词”的LLM模型。

为什么LLM有上面这些性质?全世界最有资格回答这个问题的人是OpenAI的首席科学家,Ilya Sutskever,此人既是深度学习三巨头之一Jeffery Hinton的大弟子,2012年深度学习浪潮推手AlexNet的主要作者。OpenAI的AGI研究工作,主要推手就是他了,OpenAI的前台人物CEO Sam Altman主要做融资,董事长Greg Brockman主要负责商业战略。不得不说,这个铁三角是宇宙最强组合。Ilya给出的解释是如果想连续的准确预测下一个词,那么模型首先要形成对世界的理解,具体的说就是对问题、对回答的理解,然后才能给出输出。直观上理解这个观点可以类比人类的问答过程。Ilya的这个深刻洞察其实是有科学依据,根据霍金斯的《千脑智能》里的发现,人类的智能就是建立在不断对未来进行预测上。

跟NLP任务相比,CV任务要简单很多。CV任务主要做物体识别和分,计算机视觉(Computer Vision, 简称CV)里的多模态模型(包括语义分割,即图像和文字双模态)现在的主流方法是在latent space中进行操作,例如OpenAI的CLIP,Meta的SAM。CV任务比LLM任务简单的是,CV主要是将对象的Latent representation映射到Latent Space,而LLM需要将Latent Space中的各种对象(包括物体对象和动作、情绪、意图等语义对象)进行理解和推理。用高等数学打个具体的比方就是CV的工作主要是将多模态输入映射到Latent space中的点,而LLM是在Latent Space中对这些点做加减乘除积分微分等复杂运算。

#NLP大模型# #人工智能导师# #机器学习术语#

聊聊我对CV、NLP各领域进展的最新理解读完计算机视觉(ComputerVision,简称CV)和自然语言处理(Natu
聊聊我对CV、NLP各领域进展的最新理解读完计算机视觉(ComputerVision,简称CV)和自然语言处理(Natu
聊聊我对CV、NLP各领域进展的最新理解读完计算机视觉(ComputerVision,简称CV)和自然语言处理(Natu

继续阅读