能让马斯克“Wow”的东西绝对不简单!
就在昨天,马斯克在莱克斯·弗瑞德曼(LexFridman)X评论区表达了“Wow”的惊讶。
马斯克大家都熟悉,而和他互动的这位,其身份也是相当的了不起。
莱克斯·弗瑞德曼(LexFridman)是一位知名的播客主播,同时也是麻省理工学院的研究科学家,专攻人工智能方向。许多人认识他大都是通过《LexFridman播客》这档节目。
在节目中,他曾采访过“科技狂人”马斯克、“ChatGPT之父”山姆·奥特曼、美国UFO事件亲历者DavidFravor等众多知名人物,访谈话题涉及科研、学术、悬疑、社会等诸多领域,每期视频的信息量都非常高,深受人们喜爱。
除了访谈做得好,人家在科研方面也一点都不含糊。在MIT,他开设了包括深度学习、自动驾驶、强化学习等方面的诸多课程;在自动驾驶领域,他也设计了防止司机分神的图像识别检测功能。此外,他还是巴西柔术黑带选手,健身爱好者,弹得一手好的吉他和钢琴,可谓是点满了所有天赋点。
不过,这位天才级的人物也是马斯克的迷弟,在X上和马斯克“眉来眼去”已经不是一天两天了。
那么,到底这次是什么内容,能让两位科技圈大佬都如此关注呢?
答案就是,Spotify即将推出的“播客的语音翻译功能”。
01
“克隆主播声音”的语音翻译
Spotify是目前全球最大的正版流媒体音乐服务平台之一,其付费用户超过2亿,市值高达240亿美元,每月有近5亿的活跃用户,是音乐和播客行业的领导者。
近几年,Spotify格外重视播客业务,收购了十余家播客业务的相关公司,涵盖了内容制作、创作工具、广告测定服务、变现及数据分析等众多方面。
除此之外,在2020年,Spotify更是以1亿美元的价格购买了JoeRogan播客节目《TheJoeRoganExperience》的独家播出权。在播客业务上,Spotify可谓是下了血本。
而这一次的语音翻译功能,将会在Spotify播客业务全球化的道路上,为其注入强大的动力。
语音翻译功能的特殊在哪?那就是克隆声音的特质,从而让一个播主能够“原声”无缝切换到各种语言。
结合实际,以往我们要是想看懂国外的一些短视频、电影、电视剧或者广播内容,要么是通过字幕,要么就是通过配音,或是二者的结合。
在专业字幕组缺位的情况下,身怀绝技的热心网友会化身“字幕组”,亲自翻译视频中的对话,并添加字幕。这让我们即使听不懂,但也能看懂这些国外内容。
但一边看字幕,一边看视频着实也有点累,于是配音便上线了。但配音也带来了一些有趣的现象——声音和人对不上号。比如周星驰的电影太过热门,大家都理所当然地把配音的声音当作周星驰的声音,而当真的听到周星驰的声音,或“周星驰的声音”出现在其他电影人物身上时,会感觉有点奇怪。
当Spotify推出新的“语音翻译功能”(Voice Translation),这一切将发生改变。人物能够自动切换到各种语言,而且是“完全原声”,连说话节奏,语气都能还原。
Spotify称,他们这个AI语音翻译功能,由OpenAI的自动语音识别模型Whisper提供技术支持,能够在翻译时模仿原始演讲者的风格,并且比传统配音更加自然。使用这个功能或许能让播客扩大受众群体面,用户也将获得无缝切换语言的听力体验。
目前,这款功能还处在测试阶段,只提供西班牙语翻译版本,法语和德语将在接下来的几天和几周内推出。
尽管如此,但新功能的首测——《Spotify的AI语音翻译试验,让你喜欢的播主用你的母语为你播报》,还是吸引了许多著名的播客主持人,其中就包括戴克斯・夏普德、莫妮卡・帕德曼、莱克斯・弗里德曼、比尔・西蒙斯和史蒂文・巴特利特。
Spotify的个性化副总裁ZiadSultan说道:“通过匹配创作者自己的声音,语音翻译为全球的听众提供了前所未有的更真实的方式。”这种利用音频力量来克服边界、距离等获取障碍的技术的使用,弥合了语言差异,并且使得内容具有更强的影响力和传播力,超越一般文字翻译带来的社会效益。
02
AI带来
自媒体的“真·全球化”时代
语音翻译功能的出现在国内也受到了关注,如此强大的功能令许多网友都开始期待中文版,有网友称“AI将带来自媒体的全球化时代”。
事实上,这一观点还真值得留意。语言是内容传递的重要载体,内容要想实现跨区域或者说全球化的传播,那么语言的转化是必要的环节,但这一转化同样是需要成本的。
一个媒体软件多大程度上能被一个国家或者地区接受,除了内容因素外,也受到其内容的语言转化能力的影响。如果其所能支撑内容转化能力的资源较少,那么在需求的满足上,也会下降,这在一定程度上削弱了自媒体软件或者媒体平台在该地区的影响力,阻滞其进入地区市场的速度。
而“语音翻译”功能的出现,在保证原声的基础上,也提升了转化能力和降低了转化成本,有利于内容传播范围和速度的提高,进而带动软件在全球范围内的流动。
但在目前,Spotify还处在一个比较有限的应用范围,这离不开对其安全性的考虑。
如果说以往的媒介问题是源于传递信息时的损耗和失真,那么当下的媒介问题,则是由于媒介呈现的信息“太过真实”。
例如前不久的“AI孙燕姿”翻唱了大量的知名曲目,引发全网轰动,其效仿者也是趋之若鹜。但如此多“以假乱真”的作品的出现,也给分辨何者是真实何者是合成的造成了困难。加之这样的一种“真实”或“还原”是基于大量数据的获取、积累以及整合分析。但数据本身就存在公私边界模糊的难题,使用的灰色地带依旧十分显著。
此外,该功能以何种形式与平台结合,并以何种形式为用户服务,这些都需要系统的规划。但可以肯定的是,AI正在简化内容传播的流程,提升传播的效率,媒体的全球化正在不断加快。
作者:西瓜 排版:黄蕾卉
图片源于Q仔互联网冲浪所得,若有侵权,后台联系,Q仔滑跪删除~