从ChatGPT诞生,到2024开年,刚好过去了一年多时间。
而大厂们对于生成式AI的探索,已经迈入了下一个阶段。
一开始,是少数极客用户的狂欢。
而现在,数亿普通用户都能享受到AIGC带来的好处。
像是小米的小爱同学、vivo的蓝心小V、华为的小艺和OPPO的小布,都有了联系上下文对话的能力。
让语音助手变成私人智能助理,这就是AI大模型滴魅力。
而迈过最难的开头。
紧接而来的,就是AIGC多模态能力的大爆发。
换句话说,现在的AI不仅能文字生成图片,还能让图片变成视频,甚至是文字生成视频...
可再强的东西,它还是要拿来用的。
那脑洞大开、说话又好听的网友们,会拿生成式AI干些啥?
起初我以为,大伙都会用来辅助学习、创作文案和借鉴灵感。
但事实证明,是我想得太复杂了。
在这个乐子为王的互联网,整活才是网友们的第一目的。
就比如,前阵子刷屏全网的科目三舞蹈。
丝滑又魔性的舞步,让很多网友自发跟跳。
但问题也随之而来——要是我想让身边的朋友也跳起来,那又该怎么实现呢?
换做以前。
机哥会劝你,在疯狂星期四请朋友吃一顿套餐,让他小献个丑。
但现在,时代变了。
阿里的通义千问App,最近出了个【全民舞王】功能。
只要你把一张带有四肢、身体和头部的全身照,发送给App,然后选定一个舞蹈模板。
大概十分钟左右,就能收到成品视频。
正所谓上手门槛越低,网友整活越狠。
如今网上已经出现了各种明星、企业家乃至古人跳“科目三”的视频。
比如这位身穿背带裤,舞感和节奏感都拉满的中分故人。
我不说,大家都应该知道是谁。
自带“难绷”效果的大力王,也在AIGC的加持下,成为了科目三舞王。
就连球王梅西,也被网友当整活素材,生成了个科目三视频。
你别说,这灵动的舞姿,这摇摆的节奏,甚至不逊于原版。
不过,看别人整活一百遍,都不如自己上手一遍快乐。
机哥这就详细聊聊,具体是怎么个使用,过程中又有哪些细节需要注意。
通义千问的App,大家在自己的手机应用商店里,应该都能搜到,我就不在文章放链接了。
咱们直接打开App,会看到这些功能推荐。
无需犹豫,点击“一张照片来跳舞”,就会跳转到【全民舞王】板块。
里面内置了十多种舞蹈模板,说丰富肯定算不上。
不过它跟热度还是有一手的。
比如最近很火的科目三、曾经火过的极乐劲舞,都有相应模板。
既然来都来了,机哥必是选“科目三”好吧。
再到下一步,就是万众期待的自定义形象环节。
这里我们可以找一张全身照。
无论是二次元动漫,还是三次元真人,都支持生成。
最重要的是,姿势不能太复杂,光线不能太暗,手也不能拿东西。
只能说,静态图转AI视频这块,现在还是有不少限制。
常规的人像全身图,已经有不少网友尝试过了。
机哥这次不走寻常路了,直接拿泰迪熊来做个测试。
等上传完图片,咱们就可以两手一摊,等结果出来了。
因为图片要经过云端处理,一般得等个15分钟左右。
相比起纯本地GPU处理,时间肯定算不上快。
但同类的AI服务嘛,要么排队太久,要么没法直接访问。
这时候通义千问,就显得很易用...
至于成品效果嘛,能看出泰迪熊是在跳科目三,但身体和手上的细节还是有点奇怪。
考虑到只有十多分钟的训练时长,用来图一乐倒是还行。
再来一个火影男二,佐助。
机哥特意找了个比较清晰的全身照。
人脸清晰,四肢分明,这下总不能怪素材不行了。
而在优质素材的加持下,通义千问也确实给出了很不错的成品。
五官没啥扭曲,甚至手指动作都刻画清楚了。
人物动画这类有明显线条感的素材,根本难不倒现在的AI。
至于你说,这视频质量还能不能提升。
我觉得肯定可以,毕竟生成式AI有个很明显的特点:
素材越多、训练时间越长,成片质量就越好。但作为一项面向广大普通用户的功能,它总不能让咱们等大半个小时。
所以,这样的出品时长和质量,应该是比较平衡的配置了。
既适合朋友之间互相恶搞,又能用于自娱自乐。
除了阿里的通义千问。
字节跳动这边也有类似的图转视频AI技术——MagicAnimate。
实际作用和通义千问差不多,都能把静态图片变成动态视频。
诸如图生视频、文生视频等多模态模型,被大厂们卷得飞起。
往远了说,这类技术再迭代几个大版本,也许能代替画师,做一些繁琐的重绘工作。
但平日里喜欢刷抖音看美女的八弟,此时提出了不同的意见:
“以后美女博主一张图就能生成热舞视频,那我还看什么?”
更有网友,心里萌生出一个很大胆的想法。
这么一想确实啊。
如果姿势可供用户完全自定义,说不准会被创作出些离谱的视频出来。
这也是为什么,提供这类体验的App和网页,都只提供固定的姿势模板。
在里面找到科目三模板,整点好玩的活没问题。
真有啥大胆的想法,我劝你还是别想。