天天看點

AIGC創業生态欣欣向榮,“技術+商業”雙輪驅動

01.生成式AI火遍全網

今年以來,生成式AI掀起的熱潮可謂一浪高過一浪。在美國科羅拉多州博覽會的藝術比賽上,一幅名為《太空歌劇院》的作品經過評委層層挑選後,最終被确定為比賽的金獎作品。然而這幅作品并非出自人類之手,而是一位遊戲設計師用AI作畫工具Midjourney創作的。而這也引發藝術圈極大的争論。

近日,AIGC領域知名項目Stable Diffusion背後的公司Stability AI宣布獲得了來自Coatue、光速資本以及O'Shaughnessy總計1.01億美元的種子輪投資,資金将用來面向圖像、語言、音頻、視訊以及3D領域的AI模型開發,投後估值達到10億美元,成為名副其實的獨角獸。

而在podcast.ai推出的第一集播客節目裡,已故的喬布斯竟然“死而複生”成為首位嘉賓,與美國知名播客主持人Joe Rogan進行了一場長達20分鐘的對話,讨論了關于喬布斯的大學、對計算機的看法、工作狀态以及信仰等等。此次podcast.ai推出的AI播客,正是生成式AI在語音領域的一次新探索。

當下,影像逐漸成為主流叙事方式。幾乎同一時期,Meta和谷歌先後釋出了各自的新人工智能系統,可以将使用者輸入的文本語言轉換為視訊影片。Meta釋出的人工智能模型Make-A-Video,隻需幾個單詞或幾行文字,就可以将靜态的文字叙述建立為具有人物風景,且色彩生動的動态視訊。除了文本語言,該系統還可以用使用者的圖檔和視訊素材來建立新視訊。

不難發現,從文字、語音,到靜态畫面、再到動态影像,AIGC完成了對全内容形态的全面滲透。Gartner相關報告中明确指出,預計到2023年,将有20%的内容被生成式AI所建立。2025年,生成性AI所創造的資料将占到所有已生産資料的10%,當下該比例不足1%。

9月,紅杉美國官網發表了最新一篇題為《生成式AI:一個創造性的新世界》的文章,認為AIGC會代表新一輪Paradigm shift(範式轉移)的開始。

02.技術的演進和突破

AIGC這一概念并不是第一天誕生,之是以能夠在當下能夠迅速走紅,是時也,也是運也。AIGC背後,是以人工智能技術為核心,多項關鍵技術如多模态互動技術、3D數字人模組化、機器翻譯、語音識别、自然語言了解等能力共同整合加持而成。

梳理近幾年出現的文本生成圖像模型主要基于三類基礎算法:VQ-GAN,VQ-VAE以及擴散模型。擴散模型由于能夠生成豐富多樣且品質高的圖形,已經成為文本生成圖像領域的核心方法。目前最知名也最受歡迎的文本生成圖像模型Stable Diffusion,Disco-Diffusion,Mid-Journey,DALL-E2等等,均基于擴散模型。

AIGC創業生态欣欣向榮,“技術+商業”雙輪驅動

DALL-E2

DALL-E2是OpenAI最新AI生成圖像模型,其最大的特色是模型具有驚人的了解力和創造力,其參數大約3.5B,相對于上一代版本,DALL-E2可以生成4倍分倍率的圖檔,且非常貼合語義資訊。作者使用了人工評測方法,讓志願者看1000張圖,71.7%的人認為其更加比對文本描述,88.8%認為畫的圖相對于上一代版本更加好。

Imagen

Imagen是Google提出的一個新文本生成圖像模型。Imagen的圖像生成流程和DALL-E2非常像,首先将文本進行編碼表征,之後使用擴散模型将表征映射成為完整圖像,同時會通過兩個擴散模型來進一步提高分辨率。與DALL-E2不同的是,Imagen使用了T5-XXL模型直接編碼文本資訊,然後使用條件擴散模型,直接用文本編碼生成圖像。是以,在Imagen中,無需學習先驗模型。

Parti

在Imagen剛出來後沒多久,Google又繼續提出了新的文本生成圖像模型Parti,其全稱為Pathways Autoregressive Text-to-Image,直覺來看,就是使用了Google最新提出的Pathway語言模型。Parti最大的特色就是20B的大模型,其參數量支援模型能夠進行複雜語義了解。

Disco Diffusion

開源模型Disco Diffusion是最早出圈的AI繪圖工具。釋出時間比DALL·E 2稍晚,同樣也是CLIP+Diffusion Model的結構,生成效果讓許多插畫師擔心起了失業。盡管很多插畫師和AI工具愛好者的推薦都認可了該工具的易用性和生成效果的出衆,但其生成時間略長有待優化,可以認為是大家對圖檔生成大模型的初體驗。

Midjourney

2022年7月,Midjourney項目進入公測階段,這是該模型的第3版,第2版釋出于今年4月。Midjourney是一個獨立的研究實驗室,創始人是原先Leap Motion的聯創David Holz,而Disco Diffusion項目的原作者Somnai也在今年5月加入了Midjourney。

Stable Diffusion

Stable Diffusion是慕尼黑大學機器視覺與學習研究小組基于CVPR 2022的論文《[2112.10752]High-Resolution Image Synthesis with Latent Diffusion Models(arxiv.org))》,與Stability AI和Runway合作開發的一款開源擴散模型。由于其互動簡單,生成速度快,極大的降低了使用門檻,而且同時還保持了令人驚訝的生成效果,進而掀起了一股AI創作熱潮。

擴散模型的核心思想,就是把生成的過程拆成一個個簡單的小步驟,而不是像其他模型一樣「一步到位」,這樣拟合起來相對容易,是以做出來效果很好,同時訓練起來也更加穩定。2022年,擴散模型(Diffusion Model)憑借更出色的生成結果取代了對抗生成網絡(GAN),成為圖像生成領域更偏愛的算法。目前看來,擴散模型由于訓練過程消耗資源大(每一個小步都需要訓練),同時生成的速度也慢(一步一步生成)。正因為它存在缺點,在理論上還有很多研究可以做。

AIGC創業生态欣欣向榮,“技術+商業”雙輪驅動

同時,3D和視訊生成領域的大模型也在飛速突破的過程中,未來很可能會在遊戲原畫、影視特效、文物修複等領域發揮作用。

在三維領域,因為表達形式的複雜性,業界圍繞不同表達形式也在各個方向進行探索。2020年,谷歌研究院的Pratul Srinivasan、Benjamin Mildenhall等提出的NeRF方法引爆了整個3D重建領域。

NeRF将場景表示為空間中任何點的volume densityσ(簡單了解為不透明度)和顔色值c。有了以NeRF形式存在的場景表示後,就可以對該場景進行渲染,生成新視角的模拟圖檔。NeRF的輸入為空間點的位置和方向,通過求解穿過場景的任何光線的顔色,進而渲染合成新的圖像。

AIGC創業生态欣欣向榮,“技術+商業”雙輪驅動

NeRF的簡單描述(輸入是空間位置資訊,輸出是透明度+顔色)

随着動捕技術發展、視訊内容資料的豐富,動作資料的積累也變得更加簡單。大量圍繞動作驅動的AI工作也陸續被大家提出。2019年以後大量的工作基于RNN網絡進行動作預測(Motion Prediction)、基于RL(Reinforcement Learning,增強學習)的動作控制算法(Motion Control)和Ginosar、Alexanderson等人提出的基于語音、文本甚至音樂的多模态動作驅動的CNN模型(Cross-modal motion synthesis)。

NLP技術是實作智能化互動的AI技術核心,也是NLP領域AI公司的多年發展瓶頸。

從深度神經網絡(DNN)、遞歸神經網絡(RNN、LSTM)發展到卷積神經網絡(CNN),AI技術的變革深刻影響NLP的智能化落地程序。2017年,NLP領域Transformer大模型路線由谷歌提出,以BERT和GPT-3為代表的大模型基本能夠實作了解、推理以及生成高拟人化文本,NLP為智能化注入核心動力。

AIGC創業生态欣欣向榮,“技術+商業”雙輪驅動

NLP領域的技術變遷和商業化落地程序

其中,GPT-3是最出圈的語言模型。GPT-3通過增加參數規模和訓練資料集規模,依托及其強大的資金和算力支援來獲得更好的性能。該模型可通過生成具有商業價值的廣告等文本、分析稅務來節省稅金、提供個性化學習材料、創作藝術作品等行為,來創造商業價值。不過,GPT-3并非真的“全能”,其在應用中仍存在挑戰與風險。另外,微軟10億資助OpenAI,商業化運作的GPT-3将會被如何使用,對使用者來說也是未知數。

GPT全稱Generative Pre-Training,意為通過生成式來進行預訓練。2020年5月28日,OpenAI釋出新模型GPT-3。GPT-3高達1750億的參數規模,高達45TB的訓練資料集,也讓GPT-3的使用場景更加通用:機器翻譯、閉卷問答、情感判斷、文章生成、輔助編碼等。對于GPT-3生成的新聞文章,評估員甚至無法區分其與人類撰寫的新聞文章。

AIGC創業生态欣欣向榮,“技術+商業”雙輪驅動

GPT-3也并非真的“全能”,其在應用中仍存在挑戰與風險。成就GPT-3的,也将會束縛GPT-3。GPT-3使用了幾乎所有來自網際網路的可用資料進行訓練,成就了其在各種NLP任務中的驚人性能,甚至獲得SOTA。但面對如此巨大的資料集,人工去除不良内容幾乎不可能。準确度也不是GPT-3的強項,GPT-3的輸出結果常常會違背人類認知常識和邏輯。

另外,成本結構決定大模型市場的馬太效應。大模型最直接的成本便是能源成本(energy cost),GPT-3釋出時的訓練成本在千萬美元級别。難以在短期内衡量ROI,大科技公司才能訓練大模型。在微軟10億資助OpenAI之後,商業化運作的GPT-3将會被如何使用,對使用者來說也是未知數。

03.未來的商業價值

技術終将服務于商業。作為下一個探索熱點,AIGC激發了大量行業需求,正在創造越來越多的現實價值。

AI+營銷

AI内容生成技術已經在各類顯性的商業場景中落地。在人的層面,數字員工在降低勞動成本,提升工作效率,降低人員流動風險等方面有天然的優勢。在貨的層面,某些電商平台的内容展示更加立體,會從各個角度來呈現客戶想要購買的商品。在場的層面,通過線上空間3D化,可以讓參與者更加有沉浸感。

品牌可利用AI提升内容生産效率、降低生産成本,規模化生産将打開更廣闊的增量市場。在文案、海報、短視訊等多個場景,AIGC已經能夠成熟運用。

比如,阿裡媽媽曾釋出“AI智能文案”産品,生産能力已達到1秒20000條,結合淘寶、天貓的海量優質内容與自然語言算法,可基于商品自動生成高品質文案。該産品可實作三項核心能力——高度模拟人寫文案、自由定義字數、實時線上樣本學習。運用該産品,品牌可以更高效地寫出更符合其營銷語境的文案,提升商家營銷效率。

百度數字人度曉曉作為AIGC的典型形态之一,展現出了強大的聽說讀寫、唱跳能力以及個性化的互動能力。此前,度曉曉就攜手龔俊數字人開啟元宇宙AI好物脫口秀——歪脖山(web3)開放“賣”,為百度元宇宙希壤中的土地、無人駕駛挖掘機等元宇宙好物直播帶貨。其中,作為此次直播的電商合作夥伴京東,也在此次直播中收獲了破億的曝光。

AI+傳媒

人工智能與傳媒業的融合發展不斷更新。AIGC作為目前新型的内容生産方式,為媒體的内容生産全面賦能。寫稿機器人、采訪助手、視訊字幕生成、語音播報、視訊錦集、人工智能合成主播等相關應用不斷湧現,并滲透到采集、編輯、傳播等各個環節。

在采編環節,一是實作采訪錄音語音轉寫,提升傳媒工作者的工作體驗。二是實作智能新聞寫作,提升新聞資訊的時效。三是實作智能視訊剪輯,提升視訊内容的價值。在傳播環節,AIGC應用主要集中于以AI合成主播為核心的新聞播報等領域。

新聞撰寫領域,最著名的是Automated Inights。他們的結構化資料新聞撰寫工具叫做wordsmith,通過輸入相應資料和優先級排序,能産出一篇基于資料的新聞報道。該工具已在為美聯社每季度自動化産出300餘篇财報相關報道,在雅虎體育新聞中也已經嶄露頭角。據分析師評價,由AI完成的新聞初稿已接近人類記者在30分鐘内完成的報道水準。

Narrative Science是另一家新聞撰寫生成公司,其創始人甚至曾預測,到2030年,90%以上的新聞将由機器人完成。

在國内,騰訊打造“夢幻寫手”(Dreamwriter)的新聞寫作系統,能夠在規定的22種場景中進行寫作,具有0.46秒的平均發稿速度。

文案創作領域競争較為激烈,有copy.ai、Jasper、copysmith等公司。他們基于GPT-3的能力加入了文案領域的人工模闆與結構,為商家和個人創作者提供了快速為自己的商品、内容進行宣傳的能力。以copysmith為例:

AI+娛樂

AIGC與遊戲叙事的聯系較為緊密,不僅塑造更廣義的互動叙事品類,而且帶來了社交玩法和商業模式産生新的啟發。

例如,《AI Dugeon》通過AI技術研發出應對多名的玩家的AI模型,能夠對不同玩家的互動做出回報。在商業模式上,《AI Dungeon》則将更進階的AI模型作為增值服務提供給玩家,如更智能的怪物AI模型。在傳統的RPG遊戲中,氪金獲得的寵物是在數值上形成對免費玩家寵物的優勢,而在《AI Dungeon》中則展現為智力更高,具有更強的互動性。

AI+藝術

在藝術領域,AI作畫對于行業的變革力量已經顯現。就在Midjourney走紅不久後,多家國際知名的報紙、雜志已經開始使用其生成作品制作封面及插圖。

放眼國内,百度也通過其“文心”平台,在今年人工智能大會上短時間創作出了多幅熱門電視劇海報,其中數張作品讓網友直呼,“專業畫師可能都需要畫上好幾天。”初出茅廬的“AI畫家”度曉曉創作的AI繪畫數字藏品賣出了超過17萬元的高價。而她售賣的四幅畫作,平均隻需數十秒就能完成。

AI+語音

除了AI繪畫,近日國内遊戲直接以AI生成語音替代真人配音,同樣引發了市場對AIGC在聲音領域應用的關注。此前,因配音演員無法繼續參與語音收錄工作,米哈遊旗下《未定事件簿》和網易旗下《時空中的繪旅人》同時選擇采用AI技術制作角色語音,替代真人配音。其中《未定事件簿》基于自研“逆熵AI”生成語音,《時空中的繪旅人》則與網易互娛AI Lab合作,表示提取角色原有配音聲紋特征錄制新語音。

AI配音技術并不新鮮,從Siri語音助手到智能音箱都是AI配音的應用。現今應用最普及的AI配音技術有兩條路線:一是語音轉換(Voice Conversion),在不改變輸入配音音頻内容的情況下,通過AI技術改變其音色、音調、語言等屬性。二是TTS(Text To Speech)技術,即文字轉語音技術,通常被稱為語音合成。輸入文字内容,就可以由AI生成對應音頻。這也是目前多家科技公司和初創企業的主攻方向。

例如,目前正在被Spotify尋求收購的英國AI語音平台Sonantic,曾在2021年5月釋出号稱“世界上第一個會哭的AI”Faith,展示了一段由Faith配音的動畫短片,被觀衆評價“配音能力令人驚歎”。2021年,Sonantic透露其AI配音技術已經運用在200家遊戲公司的音頻工程中。

今年2月,初創公司Deepdub完成2000萬美元A輪融資,專注于将AI配音技術用于影視領域,曾用AI技術為電影《Every Time I Die》制作葡萄牙語和西班牙語版本。

Podcast.ai是一個完全由AI生成的播客通過喬布斯的傳記和收集網絡上關于他的所有錄音,用Play.ht的語言模型大量訓練,最終生成了這段“假Joe Rogan采訪喬布斯”的播客音頻内容。

Tom Gruber打造了能夠實時動态編曲的自适應音樂平台LifeScore。使用者向LifeScore輸入一系列的音樂“原材料”之後,AI大師就會改變、提高并實時混音,帶來音樂表演。

在國内,愛奇藝、米哈遊、網易等涉及影視、遊戲業務的公司也加大對AI配音的投入,并且已經在産品中落地。例如,愛奇藝基于AI語音轉化和語音合成技術,自研IQDubbing配音平台。

04.AIGC百家争鳴,重點案例一覽

國外重點案例:

Omniverse

Omniverse是英偉達與元宇宙連接配接的平台工具,是位于應用軟體之下的技術底座和平台工具箱。平台于2020年首次推出,主要應用于仿真;2021年,Omniverse在多行業的“數字孿生”、模拟現實項目落地,背靠英偉達強大硬體實力,Omniverse将英偉達超二十年在圖形、模拟仿真、計算和人工智能領域的前沿技術統一整合到一個平台中,标志着對跨行業平台型解決方案的路線布局。

2021年Omniverse Avatar(阿凡達平台)釋出,英偉達引入更深層次的AI技術布局元宇宙。Omniverse Avatar将英偉達旗下語音AI、自然語言了解、推薦引擎、計算機視覺和面部動畫等AI算法層技術加入數字人生态建設,進而實作結合英偉達基礎圖形、模拟和AI技術的複雜應用程式,人工智能助手在客戶支援(Tokkio)、車輛智能服務(NVIDIA DRIVE Concierge)、視訊會議(Maxine)等方向落地。

AIGC創業生态欣欣向榮,“技術+商業”雙輪驅動

阿凡達平台是基于AI連接配接虛拟與現實的技術底座

OpenAI

在AIGC這場熱潮中,OpenAI同樣起到了關鍵性的作用,通過堆疊海量算力的大模型(Foundation Model)使AIGC進化。在2022年上半年,OpenAI旗下三個大模型GPT-3、GitHub Copilot和DALL·E2的注冊人數均突破了100萬人,其中GPT-3花了2年,GitHub Copilot花了半年,而DALL·E2隻用了2個半月達到了這一裡程碑,足見這一領域熱度的提升。

OpenAI成立于2015年,由馬斯克發起創立,當時發展定位為“非營利組織”,目标是以安全的方式實作通用人工智能,使全人類平等收益,而不是為公司的股東創造利潤。後來,OpenAI違背其初衷,成為了一家營利性公司,微軟對其注資10億美元,附屬條件是微軟有權将OpenAI的部分技術商業化,比如GPT-3與Codex。

Stable Diffusion

Stable Diffusion由初創公司StabilityAI和慕尼黑大學機器視覺學習組和AI視訊剪輯技術創業公司Runway合作開發,并得到了黑客組織EleutherAI和德國非盈利組織LAION的支援。

Stable Diffusion項目帶來的主要革新是将模型的計算空間從原先的像素通過技術手段,在保留足夠豐富的資訊與細節狀态下降為到一個更低的數量空間裡,然後再通過一系列的訓練和圖像進行計算,而這個更低維的空間被稱為潛空間(Latent Space)。

潛空間對産業界來說,相比其它模型大幅降低了記憶體和計算的要求,舉個例子,原先512 x 512對圖像一下子變成了64 x 64,需要的記憶體減少了98%!原先隻有研究人員才能進行創作的條件一下子達到了消費級,是以該項目出圈是必然的。

自今年8月份釋出以來,Stable Disffusion已經在全球範圍吸引了20多萬開發人員下載下傳和使用,而面向大衆的産品DreamStudio更是在50多個國家地區吸引了100多萬的使用者注冊使用,目前為止已經累計創作了1.7億張圖像。

Genies

Genies是一家創立于2017年的虛拟化身技術公司,至今已經發展近5年,由Akash Nigam、Evan Rosenbaum、Jake Adams、Matt Geiger共同創立,目前擁有員工100餘人。

Genies利用人工智能開發為使用者提供自定義虛拟化身系統,使用者可以利用該系統創作虛拟形象以及基于個性化的頭像和裝扮。Genies還具備一大特點就是會從數百個媒體追蹤新聞線索,根據這些新聞和不同的節日每天生成10-15個表情模闆。當使用者在Genies上建立了自己的虛拟形象後,就可以調用所生成的表情在其他社交媒體上使用。

2020年10月,Genies還推出了自己的3D化身産品,随後便和很多歐美明星展開合作,比如Cardi b、Rhianna、JustinBieber等。明星團隊可以在社交媒體上釋出由虛拟形象參與的商業推廣照片,而Genies也借助他們的影響力獲得了巨大的關注。

更重要的是,基于Genies所建立的虛拟化身,創作者擁有完全所有權和商業化權利,可以選擇以任何方式去使用它們。

自成立以來,Genies已完成了十多筆融資。近期,Genies完成了由Silver Lake領投,Bond、NEA、Tamarack Global參投的1.5億美元C輪融資,估值達到10億美元。

國内重點案例:

TIAMAT

作為國内第一批入局AI生成領域的技術團隊,TIAMAT緻力于通過自研的算法、底層引擎、平台為個人使用者和企業客戶提供創意生産、廣告、數字藏品等場景形式下的服務,僅成立一年時間就積累了可觀的社群使用者和商業客戶。

在TIAMAT圖像生成平台,每一次生成的過程中,隻需要動動手指輸入“一段咒語”,提供給TIAMAT幾個關鍵詞、一句詩歌或是一小段天馬行空的描述,它就能夠根據文本生成完整的原創繪畫作品。呈現文字景觀表達之外,TIAMAT的多個管線模型還可以根據給出的提示,幫助你生成指定風格或更具個人風格的畫作。而且AI采樣算法使得即便再次使用相同的文本,TIAMAT也不會提供重複的結果。換而言之,這張圖檔就是基于你的描述所誕生的獨一無二的作品。

作為一款國産優化自研系統,TIAMAT支援中文和各種複雜的描述風格,界面簡潔,并且在手機上就可以使用。每一個不會畫或是沒有受過系統美術學習的使用者也能夠通過TIAMAT打破這一面技術壁壘的高牆,以圖像的方式呈現自己對于世界和心靈的雙重解構。

影譜科技

影譜科技是中國最早的“自動化生成多模态内容元宇宙”參建者之一,其核心技術生成式AI現已成為多模态内容生産的關鍵技術力量。該技術通過将AI與内容結合,由AI自動生成新的程式設計、内容或商業活動,讓文字、音樂、圖像、語音、視訊、商品、場景等都可由AI算法自動生成,可變革傳統視覺内容生産流程,實作視覺内容生産批量化、自動化、智能化,被Gartner評為2022年重要戰略技術趨勢之一。

此外,影譜科技運用生成式AI技術從本質上降低了内容創作門檻。其通過生成式AI、XR和數字孿生等互動技術融合,提升AI内容的沉浸感;通過算法、算力提升,驅動渲染模式更新及内容互動的可觸達性;同時,算法算力及AI模組化技術的進步,又從事實上使多模态内容的生産效率及種類富态獲得提升。這些構成了影譜科技助力産業打造元宇宙視覺内容生産線的AI工程技術底座。

目前,影譜科技生成式AI技術已廣泛應用在AI内容生成、AI虛拟場景搭建以及數字商業等多個服務領域,位于行業前列,并通過多年實踐建構起元宇宙在大消費領域的落地應用。

針對消費品生産企業、零售平台、商業服務等商業領域,影譜科技還推出數字孿生引擎(ADT,Automatic Digital Twin),其依托的數字孿生技術在國家級課題《數字經濟新型基礎設施研究》中被認為是商業經濟躍遷至數字經濟的必要新型基礎設施。

騰訊AI Lab

騰訊AI Lab基于自己的多模态學習及生成能力在遊戲領域進行了全流程的布局。“絕悟”AI通過強化學習的方法來模仿真實玩家,包括發育、營運、協作等名額類别,以及每分鐘手速、技能釋放頻率、命中率、擊殺數等具體參數,讓AI更接近正式服玩家真實表現,将測試的總體準确性提升到95%。

騰訊“絕悟”在環境觀測、圖像資訊處理、探索效率等方面的創新算法已經突破了可用英雄限制(英雄池數量從40增為100),讓AI完全掌握所有英雄的所有技能并達到職業電競水準,能應對高達10的15次方的英雄組合數變化。基于絕悟,王者榮耀的數值平衡性偏差已經從1.05%下降到0.68%,其所涉及的“多智能體”決策過程中,可以在高達10的20000次方種操作可能性的複雜環境中進行決策。

目前,騰訊AI Lab還與王者榮耀聯合推出了AI開放研究平台“開悟”,并積極舉辦相關賽事。

小冰公司

小冰是全球領先的人工智能科技公司,旗下小冰架構是全球承載互動量最大的完備人工智能架構之一,在開放域對話、多模态互動、超級自然語音、神經網絡渲染及内容生成領域居于全球領先。

作為“AI being”派虛拟人,小冰的産品始終是人+互動+内容,具體包括虛拟人、音頻生成、視覺創造、文本創造、虛拟社交、Game AI等。

目前,小冰的商業客戶已覆寫金融、智能車機、零售、體育、紡織、地産、文旅等十多個垂直領域,并提出了以“人力”的邏輯去進行商業報價的虛拟人商業模式。

詩雲馬良

200年多來,相機的定位和職能看似不斷地被延伸甚至颠覆,但是它的定位不外乎是兩點:Capture Experience(記錄);Storytelling(故事表達)。

詩雲馬良内部有一條公式:visual storytelling=creativity+making詩雲正在做的事情,從本質上來說,是在建構一個新的内容基礎設施,用AI生成内容,把making的成本降低到趨近于零,最終實作visual storytelling=creativity。

内容基礎設施的建設大緻分為三個階段——基于人臉的生成、基于人體的生成、以及基于環境的生成,每一個階段都将圍繞“内容生成”與“内容再生産”兩個次元展開。其背後的思路是:從生成一個具有表達力的形象開始,到拓展這個角色的全貌,再将其放置于一個合适的上下文中以豐滿内容表達層次,最終形成一個全面的内容基礎設施。

目前,第一階段的角色生成技術已經産品化落地。詩雲馬良産品現在可以按需高效生成不同虛拟人像引擎,并且實作批量AI換臉,幫助品牌建立自己的風格化模特IP,讓品牌的視覺輸出更适配各地區文化。

除此之外,詩雲馬良也可以使用語音或者文字去驅動已生成的虛拟角色進行精準嘴形适配的視訊表達,同時也可以控制虛拟角色的表情。

盜夢師

9月,一個叫做“盜夢師”的微信小程式悄悄上線,卻一鳴驚人,達成日增5萬新使用者的紀錄,足以見得國内玩家對親手玩到AI繪畫渴待已久。盜夢師是一個能根據輸入文本生成圖檔的AI平台,屬于AIGC支,由西湖大學深度學習實驗室和西湖心辰科技有限公司共同推出。

在使用者發揮想象,輸入文字描述後,盜夢師便可生成1:1、9:16和16:9三種比例的圖檔,還有24種繪畫風格可以選擇——除了基礎的油畫、水彩、素描等繪畫種類,還包括賽博朋克、蒸汽波、像素藝術、吉蔔力和CG渲染等特别風格。如果使用者有明确想要生成的藝術家風格,還能在畢加索、梵高、莫奈等11位藝術家中進行選擇。

9月24日,盜夢師上線了圖生圖的功能,這是在文生圖基礎上的進一步嘗試。隻要上傳一張參考圖,便可以生成與該圖風格相近的圖檔,也可以在原畫的基礎上添加自己的創意,而盜夢師最為接地氣的設定,還要屬“圖檔版權由生成使用者所有”。