天天看点

看一眼谭卓,这个AI就能把高贵妃和刘思慧的所有镜头扒出来作者传送门

作者:量子位
伊瓢 发自 凹非寺 量子位 报道 | 公众号 qbitai

商汤最近发了一篇eccv,搞了一个巨大的电影片段数据库。

别担心,商汤可不是准备拍电影,而是提出了新的视频找人方法——也就是,无论一位电影明星演的是青春少女还是白发老人,无论ta露出了正脸还是侧颜,无论影片的镜头明亮鲜丽还是灰黄暗淡,ai都能精确的找到ta,ta的正脸、身姿和背影。

除了统计电影明星的出镜率,视频找人最主要的作用是抓罪犯,比如我国知名除暴安良艺术家张学友老师(的演唱会上的警察用的ai)就十分擅长这个技能。

看一眼谭卓,这个AI就能把高贵妃和刘思慧的所有镜头扒出来作者传送门

像演唱会这种公共场合,无数摄像头采集下了现场几乎所有的场景,而出没在演唱会的犯罪嫌疑人也难逃一拍,如果ai找到视频中犯罪嫌疑人的脸,警察叔叔可以当场迅速出动,拿下这名犯罪嫌疑人。

不过,研究人员并不认得那么多逃犯,也不能从警察叔叔那里要监控视频,于是,他们机智的想到了电影明星——创建了一个名为cast search in movies(csm)的数据集,其中包含来自192部电影、1218个演员的12.7万个片段,所有片段的标识都是手动注释的,并且每个演员身份还附带参考照片。

看一眼谭卓,这个AI就能把高贵妃和刘思慧的所有镜头扒出来作者传送门

△ 请自行辨认csm数据集里的他们是谁

数据集中包含每位演员在多部电影里出演的角色。如果一部电影的角色太多,就只保留10个最主要的角色。

看一眼谭卓,这个AI就能把高贵妃和刘思慧的所有镜头扒出来作者传送门

整体来看,比较一下其他数据集,csm至少在数量上十分领先了,还可以执行搜索任务。

不过,由于数据库是电影明星和电影中的角色,现代电影工业复杂的服化道系统可能要把这个ai刁难一下了,毕竟,化妆技术可以把30岁的演员变成16岁的小萝莉,也能变成50岁的老阿姨。

看一眼谭卓,这个AI就能把高贵妃和刘思慧的所有镜头扒出来作者传送门

△ “坚强女主”vs“恶毒贵妃”竟然是同一个人?

所以,要如何保证ai可以识别出这些和真人相貌差别巨大的角色呢?需要用到竞争共识(competitive consensus)的方法。

看一眼谭卓,这个AI就能把高贵妃和刘思慧的所有镜头扒出来作者传送门

上面这张图,展示了竞争共识和传统的现行扩散方法在标签传播上的差异。

图中(左侧)展示了神经网络的四个节点,旁边的数字是它们的概率向量。我们需要从左侧节点向右侧节点传播标签,但是还有两个邻居节点是噪声。

右边是线性扩散和竞争共识的计算过程。可以看到,在噪声很多的图中,以传播最确信信息为目标的竞争共识更健壮。

竞争共识处理的结果不错,已有的跨视频搜索人物的方法,map最高为42.16%,而本篇论文中的新方法将map提高到了62.27%。

看一眼谭卓,这个AI就能把高贵妃和刘思慧的所有镜头扒出来作者传送门

同一演员扮演的角色,无论正面、侧面还是反面,无论扮靓还是扮酷,该系统都成功的把他们认了出来。

比如,在《复仇》中饰演victoria grayson的女演员玛德琳·斯托:

看一眼谭卓,这个AI就能把高贵妃和刘思慧的所有镜头扒出来作者传送门

数据集中,不管是正脸:

看一眼谭卓,这个AI就能把高贵妃和刘思慧的所有镜头扒出来作者传送门

还是挡脸,都可以识别出来。

看一眼谭卓,这个AI就能把高贵妃和刘思慧的所有镜头扒出来作者传送门

甚至背影都能认出来。

看一眼谭卓,这个AI就能把高贵妃和刘思慧的所有镜头扒出来作者传送门

这篇论文的三位作者中,除了大家熟悉的商汤科技联合创始人林达华大牛之外,一作是林达华的学生,香港中文大学-商汤科技联合实验室的博士生黄青虬;二作是商汤科技研究院高级研究员刘文韬。

person search in videos with one portrait through visual and temporal links

qingqiu huang, wentao liu, 林达华

arxiv:

https://arxiv.org/abs/1807.10510

github:

https://github.com/hqqasw/person-search-ppcc

— 完 —

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(qbitai)对话界面,回复“招聘”两个字。

量子位 qbitai · 头条号签约作者

վ'ᴗ' ի 追踪ai技术和产品新动态

继续阅读