天天看点

NLP新秀prompt跨界出圈,清华刘知远最新论文将它应用到VLM图像端与微调差别在哪?清华将它用到图像端CV领域能借鉴吗?

作者:量子位

萧伟来自凹非寺

量子比特报告|公众号 QbitAI

NLP新手提示,最近有点火风暴。

NLP新秀prompt跨界出圈,清华刘知远最新论文将它应用到VLM图像端与微调差别在哪?清华将它用到图像端CV领域能借鉴吗?

它还越过了VLM(视觉语言模型,视觉语言模型)的界限。

OpenAI的CLIP和南洋理工大学的CoOp等公司都采用了这个想法。

现在,在清华大学刘志远副教授团队最近发表的一篇关于视觉语言模型的论文中,也提出了一种基于提示的新方法。

NLP新秀prompt跨界出圈,清华刘知远最新论文将它应用到VLM图像端与微调差别在哪?清华将它用到图像端CV领域能借鉴吗?

根据论文,这也是该提示首次用于跨模型和零样本/小样本学习视觉定位。

从目前的NLP和VLM模型来看,很多基于提示的模型效果都不错,让CV学生也有零食动作——你能给我们一个整体吗?

那么,提示有什么好处,当应用于图像的末尾时,它能很好地工作吗?

让我们来看看。

<h1类""pgc-h-arrow-right"data-track""10">和微调有什么区别?</h1>

最初,当NLP模型不是太大时,以"预训练和微调"的方式设计了特定于任务的模型。

在这种模式下,研究人员预先训练一个工作得更好的模型,然后将一些参数调整为特定任务(下游任务),同时保留大多数模型参数,使其最适合此任务。

NLP新秀prompt跨界出圈,清华刘知远最新论文将它应用到VLM图像端与微调差别在哪?清华将它用到图像端CV领域能借鉴吗?

例如,BERT 作为预训练模型

然而,随着预训练模型变得越来越大,微调的成本(训练时间,所需的数据量等)增加,研究人员正在努力寻找更好的方法。

此时将显示提示,但这次针对下游任务进行了调整。

它有点像一个输入模板,用于"提示"预训练模型,该模型一旦"看到"它就知道它将完成什么。

例如,在情绪分类任务中,您希望预训练模型欣赏输入句子的情绪,并给出形容词对其进行分类:

输入"我喜欢这部电影"。一旦你提前给出了"这部电影是"的提示,让预先训练的模型看到它,并知道你想输出像"很棒/很好"这样的赞美。

通过这种方式,预训练模型可以在看到相应的提示时选择正确的词汇类型,而不是"逃跑"去做别的事情。

由于提示在NLP领域的良好应用,许多研究人员已经开始在与NLP相关的VLM模型中尝试这种方法。

< h1类"pgc-h-right-arrow"数据轨道""21">清华在图像侧使用它</h1>

当然,大多数应用提示的原始 VLM 模型仍应用于文本端。

根据陀飞轮的介绍,像OpenAI CLIP、NTU CoOp这两款VLM机型一样,应用类似于PET表款在NLP中的应用。

从他们的模型设计中,从文本方面可以清楚地看出,小号的阴影是可见的,就像剪贴中的"a的照片"一样:

NLP新秀prompt跨界出圈,清华刘知远最新论文将它应用到VLM图像端与微调差别在哪?清华将它用到图像端CV领域能借鉴吗?

以及CoOp对CLIP的进一步改进,可以针对训练中的自我优化进行优化:

NLP新秀prompt跨界出圈,清华刘知远最新论文将它应用到VLM图像端与微调差别在哪?清华将它用到图像端CV领域能借鉴吗?

这些提示应用程序改进了 VLM 模型的整体输出。

但是,这基本上是VLM在文本端的应用,提示是否适合在图像端使用?

在清华大学刘志远团队最近的一篇论文中,在VLM的图像端以彩色涂层的方式创建了一个视觉子提示。

NLP新秀prompt跨界出圈,清华刘知远最新论文将它应用到VLM图像端与微调差别在哪?清华将它用到图像端CV领域能借鉴吗?

当然,文本端也适用于提示,但据刘志远先生介绍,在文本侧应用提示,感觉不足以充分发挥提示调校的作用,因此本文尝试了一种交态提示调谐方法。

从试卷结果来看,在小镜头学习(小镜头)的情况下,该方法比微调能取得更好的效果。

NLP新秀prompt跨界出圈,清华刘知远最新论文将它应用到VLM图像端与微调差别在哪?清华将它用到图像端CV领域能借鉴吗?

但是,这是 VLM 上提示的另一次尝试。

是否适合处理CV领域的图像问题?

<>CV的字段可以在h1类""pgc-h-arrow-right-"数据轨道"?33中引用?</h1>

在知识上,有很多博主给出了自己的观点。

据了解,陀飞轮在方法方面给出了两条路径:

如果是纯粹面向 CV 的提示,类似于 ViT 将图片拆分为补丁,每个补丁实际上都可以看作是一个字符,那么您也可以设计 patchprompt 来训练模型,这也可以分为生成(类似于 ViT)和差分(类似于自监督)两种方法。

@yearn认为,就目前而言,连续提示是CV最有可能的工作范围,最近transformer正准备通过将图像输入转换为补丁形式,使研究人员更容易使用NLP的方法学习提示。

当然,@yearn还表示,如果你想真正将提示应用于简历,需要解决两个挑战:

1、CV还不存在BERT、GPT这样占主导地位的预训练模型,所以在不久的将来可能很难让项目做新一轮的学习集搬过来。

2、CV下游任务比较复杂,感觉检测、拆分这类任务放的项目工作量非常大。

但也有匿名用户直接认为,图像只能以非常尴尬的方式完成。当然,视频可能会更好。

NLP新秀prompt跨界出圈,清华刘知远最新论文将它应用到VLM图像端与微调差别在哪?清华将它用到图像端CV领域能借鉴吗?

那么,你认为提示可以在简历中使用吗?

刘志远团队的最新论文:

https://arxiv.org/abs/2109.11797

知情回答(授权):

陀飞轮: https://www.zhihu.com/question/487096135/answer/2127127513

@yearn:.com 487096135/答案/2124603834

- 完成 -

量子位 QbitAI 头条签名

关注我们,抢先了解尖端技术

继续阅读