聊聊我对CV、NLP各领域进展的最新理解读完计算机视觉（ComputerVision,简称CV）和自然语言处理（Natu

作者：投资人马克 2023-06-17 08:05:00

聊聊我对CV、NLP各领域进展的最新理解

读完计算机视觉（Computer Vision, 简称CV）和自然语言处理（Natural Language Processing, 简称NLP）领域主流的论文后，可以把各领域当前研究的热点概括如下：

在NLP领域，

1.发现了大语言模型（Large Language Model，简称LLM）Scaling Law（论文：Scaling Laws for neural language models），即LLM的能力与参数规模和训练数据规模均成正比，换句话说，在有限的算力预算下，需要平衡扩大参数规模和扩大训练数据，而不是只focus在其中之一。

2.发现了大模型的推理能力（论文：Emergent Abilities of Large Language Models，一作是华人Jason Wei）。在此之前，我对AGI言论持怀疑态度，理由就是transfomer架构没有推理能力，但研究发现，只要把模型参数scale到足够大，经过足够的数据训练后，transfomer大语言模型的推理能力就涌现出来了。涌现现象是自然界普遍存在的现象，也是复杂科学领域的一个重要研究方向，感兴趣的同学可以阅读Melanie Mitchell的《复杂》。我读过一遍，确实是好书。

3.找到了“预测下一个词”这样足够简单又足够强大的训练范式。在ChatGPT横空出世之前，LLM在NLP领域有两个研究路线，比较有影响力的是谷歌推出的Bert模型，影响力低点的是OpenAI的GPT系列模型，当时最新的是GPT-3。Bert模型采用的是完形填空的训练范式，并且首次在NLP任务上提出对大语言模型做预训练，然后再对下游任务进行微调，就能取得SOTA（历史最佳表现，state of the art）。这个想法是借鉴了CNN时代的计算机视觉思想。OpenAI厉害的地方是从GPT-1开始就坚持用“预测下一个词”作为训练范式，看到一点曙光，就砸更多的钱训练更大的模型，直到GPT-3，他们发现自己成功了。真正让GPT-3获得世界目光的是基于GPT-3模型，用人类反馈微调后的ChatGPT，基本实现了开箱即用能力，专业术语叫Zero shot learning。这之后，几乎所有的大公司、VC资本，都涌向“预测下一个词”的LLM模型。

为什么LLM有上面这些性质？全世界最有资格回答这个问题的人是OpenAI的首席科学家，Ilya Sutskever，此人既是深度学习三巨头之一Jeffery Hinton的大弟子，2012年深度学习浪潮推手AlexNet的主要作者。OpenAI的AGI研究工作，主要推手就是他了，OpenAI的前台人物CEO Sam Altman主要做融资，董事长Greg Brockman主要负责商业战略。不得不说，这个铁三角是宇宙最强组合。Ilya给出的解释是如果想连续的准确预测下一个词，那么模型首先要形成对世界的理解，具体的说就是对问题、对回答的理解，然后才能给出输出。直观上理解这个观点可以类比人类的问答过程。Ilya的这个深刻洞察其实是有科学依据，根据霍金斯的《千脑智能》里的发现，人类的智能就是建立在不断对未来进行预测上。

跟NLP任务相比，CV任务要简单很多。CV任务主要做物体识别和分，计算机视觉（Computer Vision, 简称CV）里的多模态模型（包括语义分割，即图像和文字双模态）现在的主流方法是在latent space中进行操作，例如OpenAI的CLIP，Meta的SAM。CV任务比LLM任务简单的是，CV主要是将对象的Latent representation映射到Latent Space，而LLM需要将Latent Space中的各种对象（包括物体对象和动作、情绪、意图等语义对象）进行理解和推理。用高等数学打个具体的比方就是CV的工作主要是将多模态输入映射到Latent space中的点，而LLM是在Latent Space中对这些点做加减乘除积分微分等复杂运算。

#NLP大模型# #人工智能导师# #机器学习术语#

聊聊我对CV、NLP各领域进展的最新理解读完计算机视觉（ComputerVision,简称CV）和自然语言处理（Natu

聊聊我对CV、NLP各领域进展的最新理解读完计算机视觉（ComputerVision,简称CV）和自然语言处理（Natu

继续阅读

证券从业合格证书什么时候打印？有哪些注意事项？

【干货满满】初级银行从业考试《个人理财》重点梳理

2020年经济师考试，难吗？

初级银行从业资格证有什么用？

MBA提前面试纯干货分享

MBA值得学么

申请评分模型拒绝推断（RI）方法申请评分模型拒绝推断（RI）方法

吴恩达logistic回归实现

【人工智能行业大师访谈1】吴恩达采访 Geoffery Hinton

深度学习模型分析人类复杂疾病的准确性

【趋高机器视觉】机器视觉技术原理解析及解决方案

吴恩达 coursera ML 第七课总结+作业答案前言目录正文模型表示作业答案

XGBoost Plotting API以及GBDT组合特征实践 XGBoost Plotting API以及GBDT组合特征实践

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

2021-2025年中国运动疗法（KT）带行业市场供需与战略研究报告

cs231n斯坦福基于卷积神经网络的CV学习笔记（一）KNN和线性分类器/分类器损失/反向传播一，KNN图像分类算法二，线性分类器三，线性分类器损失四，反向传播五，神经网络