機器之心報道
機器之心編輯部
在小紅書,看見多模态學習的無限可能。
随着 NLP 和 CV 的日益融合,多模态學習越來越受到學界和業界的重視。在 DALL-E、Stable Diffusion 等文本生成圖像跨模态應用成熟之後,圍繞多模态學習、AIGC 等議題的讨論熱度持續攀升。
當然,還有很多問題需要進一步探索:比如,多模态學習在哪些任務上還有極具前景的應用潛力?多模态技術在真實場景中的泛化受到哪些限制?
11 月 19 日,小紅書 REDtech 青年技術沙龍 - 北京站圓滿收官。在這場活動上,數位頂尖學者、小紅書技術團隊大神和青年學子們齊聚一堂,對多模态技術、AIGC、青年人才職業發展等熱門議題進行了深入讨論。
出席本次沙龍的嘉賓包括小紅書社群部多媒體智能算法負責人張德兵、中國科學院自動化研究所研究員、博士生導師張兆翔,北京智源人工智能研究院研究員曹越,此外,本場沙龍還為即将投身業界的高校學子特别設定了嘉賓對談、自由交流等環節。北京師範大學人工智能學院黃華教授與小紅書技術副總裁風笛。為青年人才們提供了很多有益的學術研究指導與建議。
多模态衍進之路
多模态學習的本質,可以了解為從包括文本、圖像、視訊、音頻等不同模态的資訊中學習并且提升自身算法。此前,對于不同模态的資料,大家使用的是不同的網絡架構,比如 CV 領域使用 Convolution,NLP 領域使用 Transformer,圖領域使用圖網絡。
多模态學習的發展是如何打破「分界線」,促使人工智能走向統一的?作為本場沙龍的學界代表之一,北京智源人工智能研究院研究員曹越從理論研究的角度切入,回溯了多模态的衍進之路。
曹越的研究領域包括基礎模型、自監督學習、多模态學習。在清華大學取得博士學位之後,曹越加入了微軟亞洲研究院視覺計算組。期間參與了多項重要研究,包括 Swin Transformer、GCNet、SimMIM 與 VL-BERT 等。2021 年,Swin Transformer 獲得了 ICCV 最佳論文獎—馬爾獎。
他認為,從模組化的角度看,目前的人工智能領域在逐漸走向統一。
在機器學習時代,這種統一表現在範式上。很久之前,對于不同任務,研究者需要實作手動設計規則來完成任務。後來,模型可以從曆史資料中進行學習,并且進行預測。在這個過程中,研究者需要做的是針對不同的任務設計相應的模型、損失和算法。到了深度學習時代,這種統一更多展現在架構上。不同任務都開始使用深度神經網絡,包括 CNN、RNN、LSTM 等。
曹越表示,在一系列變革之後,架構和預訓練過程還有待統一。對于不同模态的資料而言,大家會使用不同基礎架構單元,比如對于圖檔會使用卷積神經網絡,對于文本則使用 Transformer,二者的表征學習過程是不同的。這種規則也在發生變化。
在視覺領域,卷積神經網絡在很長一段時間都占據主導地位。2017 年後,Transformer 大放異彩,一些研究人員緻力于将其應用到計算機視覺中。學術界發現 Transformer 的網絡結構設計可以幾乎不經過任何改變直接應用到視覺信号。于是不管是自然語言處理還是視覺類任務,都開始使用 Transformer 作為基礎架構單元。這方面也有很多代表作,比如 ViT、DeiT、Swin Transformer 等。
同時,模型的預訓練方法逐漸統一。視覺領域的訓練往往需要大量人類标注的語言,而語言學習過程中的自監督預訓練不需要額外進行标注。借助這種方式,視覺模型也可以利用幾乎無限的資料進行預訓練模型之後,并在一系列下遊任務中取得非常矚目的性能提升。這方面的代表作有BEiT、SimMIM、MAE等。
下一步會走向何方?曹越認為,通用模型時代或将到來,預訓練模型無需微調就可以處理不同模态的輸入,包括語言、視訊和圖像等,并且能夠完成不同的任務。
小紅書的多模态實踐
在學術界不斷取得前沿突破的同時,多模态技術也走進了工業界,逐漸落地生根。作為近年來國内發展最迅速的移動網際網路平台之一,數億量級的搜推流量、跨越多個模态的海量資料集、AI 智能化輔助 UGC 創作、基于多雲的高可用基礎架構、融合使用者 - 商品 - 内容的深度了解及表征學習…… 這樣的生态帶來了很多前沿的技術挑戰,小紅書已經成為了多模态相關技術的絕佳落地場和領先實踐場,為小紅書的技術人提供了廣闊的成長空間。
本場沙龍上,小紅書社群部多模态智能算法負責人張德兵分享了《小紅書多模态智能創作技術與應用》相關主題内容。張德兵大學畢業于浙大丘成桐數學英才班,長期關注 CV / NLP / 音頻 / 多模态 / 智能創作等相關技術,并推動 CV、多模态等技術在安防、零售、體育等 TO B 場景和短視訊、廣告等 C 端場景的多項業務落地。
他在分享中提到,每天都有很多普通創作者在小紅書上真誠分享和記錄自己的生活,但是「創作」并不是一件特别容易的事。尤其是對于小紅書社群的 UGC 屬性而言,普通使用者在如何進行視訊表達的時候,會遇到拍攝的視訊缺乏亮點、學不會複雜的剪輯過程等等阻礙。
如何以技術手段克服這些挑戰,幫助使用者更好地記錄生活、表達生活,也是小紅書技術團隊認真考慮的問題。
目前,在小紅書,多模态智能創作已經在助力更多普通人進行高效的内容創作,比如
智能模闆、一鍵成片、一鍵添加閃光點等功能。
以上圖的視訊和圖文模闆為例,在制作内容的時候,使用者并不需要有特别專業的剪輯能力、創作能力,隻要仿照類似的模闆指引,就可以非常便捷地制作類似的内容。在多模态技術的加持下,小紅書還提供了基于文案尋找相關素材的輔助功能,加上智能配樂即可得到想要的結果。
解決這些挑戰并不容易。是以,小紅書一直以來都在深耕相關底層技術,特别是多模态技術。在沙龍現場,張德兵深入介紹了小紅書多模态智能創作技術的整體架構:
為了實作更好的輔助創作效果,小紅書技術團隊打造了一條比較複雜的技術鍊路,從基礎架構、基礎 AI 能力到端雲協同的操作。此外,為了跟設計師有很好的協同,團隊還做了大量提效工具,讓設計師和 AI 的合作更加密切,更好地還原亮點效果,支撐各種各樣的上遊應用場景。
小紅書技術團隊的布局分三部分:視覺次元;音頻次元;多模态次元。視覺技術層面,包括目标精細分割、智能補全、穩定光流、深度估計;音頻技術層面,包括 ASR、TTS、音樂生成。此外,特别值得關注的是多模态技術的應用。
鑒于小紅書站内有非常多優質圖文資料、筆記評論以及外部開源語料,團隊基于大規模中文語料庫和高品質的圖文資料,做了小紅書版本的多元場景跨模态預訓練模型。在基礎的訓練模型版本上,團隊結合具體場景去進行進一步的優化。張德兵介紹說,除了文案推薦之外,視覺元素和音樂之間的關聯、歌詞之間的關聯、内容和模闆之間的關聯都是各種各樣多模态形式,其關聯性都可以通過跨模态比對來模組化。而且使用者使用過程中會留下越來越多的行為信号,這些信号也可以用來持續優化算法,提升使用者體驗。
還有一個方向是内容生成。對于最近熱門的AIGC方向,小紅書技術團隊也在做一些嘗試,一個很典型的方式是基于文本描述來搜尋或者生成内容,另外如何基于使用者提供的素材來進行更好的個性化創作也是個很有趣的方向。
當自動駕駛遇見「多模态」
正如上述内容所說,視訊、圖像、文字、語音這些我們日常接觸到的資訊形式都可以算作模态。而從理論上說,模态的範圍要比我們的感覺能力更廣泛,比如利用傳感器獲得的雷達、紅外線等感應資料也屬于模态資訊。
這類模态資訊在自動駕駛場景中更為常見。在本場沙龍上,中國科學院自動化研究所研究員張兆翔教授分享了《面向自動駕駛場景的多源融合視覺感覺》相關内容。
張兆翔教授現為中國科學院自動化研究所研究員、博士生導師。他的主要研究方向包括視覺場景了解、類腦認知與學習等,在 TPAMI、IJCV、JMLR、CVPR 等本領域頂刊頂會發表論文 100 餘篇,擔任過 CVPR、ICCV、AAAI、IJCAI、ACM MM 等知名國際會議的領域主席。
在當下炙手可熱的自動駕駛行業,多源融合視覺感覺是非常重要的技術路線。張兆翔表示,自動駕駛場景的感覺本質上是多模态、多任務的。比如視覺感覺存在不同場景,這些場景中的尺寸、視角可能又各不相同。一直以來,張兆翔緻力于探索模型的自适應性,包括如何解決标注問題、如何适配場景等問題。
在分享中,他介紹了一項代表性研究:三叉戟網絡 TriNet(Trident Network for Object Detection)。這項研究探索了讓一個通用模型借助不同的分支類型去刻畫尺度,分别适應解決小目标、中型目标、大目标的問題。
随後,張兆翔亦介紹了自己在圖像分割領域的研究心得。相比于小紅書技術實踐中常見的人形分割,現實場景中的分割任務更加多樣,比如帽子、水杯、路燈等物體。為了降低大量資料标注所帶來的成本問題,他和團隊将點級标注用于弱監督的全景分割。與完全監督方法所使用的密集的像素級标簽不同,點級标注隻為每個目标提供一個單點作為監督,大大減少了标注負擔。
這項研究《Pointly-Supervised Panoptic Segmentation》億發表在 ECCV 2022 上。
多源融合視覺感覺的對象不僅包括圖像,還包括點雲,其場景不僅在車上,還包括各種各樣智能裝置,甚至是掃地機器人。面對大量非結構化的原始資料,張兆翔也嘗試引入 Transformer 架構,實作方法上的創新。在一篇 CVPR 2022 論文中,他提出了空間稀疏的單步長 Transformer 結構,完成了主幹網絡的空間稀疏化,提升了物體檢測性能。
「大咖面對面」:給青年人的研究建議
聆聽完最前沿的技術分享之後,在本次沙龍的壓軸環節,北京師範大學人工智能學院黃華教授、小紅書技術副總裁風笛兩位前輩分别從學界和業界角度出發,開展了一場關于「AI 技術提升與實力更新」的對談。
多模态學習、AIGC 都屬于當下比較火的方向,也引發了大量技術人才的關注。那麼,作為一名青年研究者,如何看待瞬息萬變的研究熱點呢?
風笛表示,真正做出好的産品需要的是專注于使用者價值和産品體驗。對于新的技術、新的模型方法,保持關注、了解到有哪些新的東西即可,不一定非要追逐熱點。
黃華教授表示,從研究者個人角度出發的話,追熱點也不是必須的。因為熱點是随時變化的,當熱點出現的時候,你往往追不到它,同時也會有很多其他人在追。換個角度說,即使你現在做的工作不是熱點,但兩三年後也許會變成熱點。況且從研究角度來講,很多學術思想是相通的。
還有一些話題,也是在場青年學子非常關心的。比如,目前 AI 領域什麼樣的人才是最緊缺的?是技術研究型,還是落地應用型?基于這樣的需求,學界和業界又該如何助力 AI 人才的培養呢?針對這些問題,兩位嘉賓分别給出了自己的建議。
在黃華教授看來,人工智能的理論研究很重要,但是對企業來說,更重要的是落地,是以兩種人才都是被需要的。對于 AI 相關專業的學生來說,如果說想去到工業界,就可以盡量多做點技術類的項目,如果想在學術界深造,就多做一些理論方面的工作。
高校的人才培養模式和企業界需求存在差異,學術界追求的是發表高水準論文,而企業要求的是能解決實際問題。現在教育界提倡的是「研究真問題、真研究問題」,想要解決好這個問題,就需要學界和業界合作。做理論研究或許可以不考慮實際需求,但也有一種說法,做理論的人如果不了解工程問題,理論也不會做得特别好,因為真正有價值的理論問題通常是要能夠解決實際問題的。
風笛則更多根據小紅書的經驗,從企業界的角度出發介紹了青年技術人才成長與培養的路徑。他提到,企業對具備技術落地能力的人才需求會更多一些,但是同時也會需要少量基礎研究類人才。特别地,像小紅書這樣的企業會很關注對于資料和算力的挖掘,這個方向上還需要更多的優秀 AI 人才來共同突破。
小紅書作為一家 UGC 視訊分享平台,擁有非常特殊的海量的多模态資料集,在資訊檢索、資訊推薦、資訊了解,特别在智能創作相關技術,以及底層多模态學習、統一表征學習等方向上,都能提供非常重要的研究源頭:資料。
這恰好彌補了學術界研究普遍缺少的要素——對于很多做人工智能方向研究的實驗室來說,挑戰基本不在于硬體裝置的條件,缺少的是真正能夠為數億使用者所使用的應用場景,以及這些場景産生的真實資料。很多工作難以與真實使用者做互動,更多是基于可能存在偏差的曆史資料進行研究。而資料集和真實場景,都是小紅書本身具備的優勢。此外,小紅書還能提供比較強大的算力資源。
此外,對于優秀的應屆畢業生,小紅書從人才培養機制上進行了精心的設定,包括從融入職場到成長為行業技術人才全周期的的詳細培養方案。
入職之後,小紅書技術團隊會通過薯光計劃、Mentor 機制等方式,幫助應屆生成為真正的技術人。小紅書從内部精選了一批績優資深工程師組成 Mentor 池,每位應屆生都會有專屬的 Mentor 手把手帶教,幫助應屆生在實踐中找到擅長的技術方向。
在小紅書技術團隊中,很多成員都擁有谷歌、BAT 等海内外一線大廠的工作經曆。他們也會将這些經驗沉澱下來,傳承給每一位入職小紅書的應屆生。
在專業能力培養上,小紅書技術團隊會設定各種技術交流形式,比如由公司内部技術領域專家授課答疑的「技術 101 課程」、定期内部技術分享、公司内部學術牛人組織的「論文領讀會」以及定期的高校及重點實驗室交流等,幫助他們盡早接觸到更為前沿的工業級技術,實作更好的成長。
此外,小紅書技術團隊對于年輕人是非常友好的,随着小紅書的不斷發展,有非常多的技術場景給予了同學完整參與乃至扮演重要角色的機會,以往已經有多位技術應屆生獲得了連續晉升。
伴随着小紅書社群的高速增長,小紅書技術團隊所能提供的人才成長空間,比以往任何時候都更加廣闊,也正在等待更多優秀 AI 青年學子的加入。
小紅書 2023 屆校招仍有相關崗位開放内推,歡迎有志于此的你參與~
https://hr.xiaohongshu.com/recommend/job-list/XHSTOKEN-aEUydXlHZzdiTTNaQWRQTksyd3BEWjdHa0FxM2czaGU2OEVndEZnTGhCYmtYK2tFNDhmdFBpTGJqQmNJNUxwOA==