天天看點

一周AI最火論文 | 分離聽不清的七嘴八舌,隻需一張面部快照

本周關鍵詞:GANs、Julia+R、AI資料庫

本周最火學術研究

FaR-GAN單次面部重制

随着生成模型,尤其是生成對抗網絡(GAN),在計算機視覺中的快速發展,人們越來越關注具有挑戰性的任務,例如生成逼真的照片,圖像到圖像翻譯,文本到圖像翻譯以及超分辨率等。

面部重制是這些具有挑戰性的任務之一,它需要對面部的幾何形狀和運動進行3D模組化。它在圖像編輯,增強和互動式系統中具有許多應用,例如使用自然的人體姿勢/表情為螢幕上的主體設定動畫。

這篇文章在以下幾個方面做出了貢獻:

開發一種基于GAN的方法,解決單次面部重制的任務

所提出的的FaR-GAN能夠組合外觀和表情資訊進行有效的面部模組化

與對照方法相比,通過本方法産生的重新成像圖像具有更高的圖像品質

原文:

https://arxiv.org/pdf/2005.06402v1.pdf

JuliaConnectoR:将Julia內建到R中

就像許多考慮使用新程式設計語言Julia的小組一樣,一些程式員也面臨着從R通路他們在Julia中開發的算法的挑戰。為解決此問題,他們開發了R包JuliaConnectoR。

為了可維護性和穩定性,他們基于TCP,使用優化的二進制格式交換資料。該軟體包還專門包含允許在R中友善互動使用的功能。這便于使用Julia輕松開發R擴充或簡單地從R中調取Julia軟體包。

通過其面向功能的設計,JuliaConnectoR避免了在R工作區中不可見的Julia狀态,進而實作了簡潔的程式設計風格。研究人員通過代碼示例進一步說明了程式包的功能,并讨論了相比替代程式包JuliaCall和XRJulia的優勢。最後,通過使用備受關注的最新深度學習技術領域的神經常微分方程,他們用更廣泛的示例來示範了該程式包的用法。該示例還為将Julia的深度學習技術內建到R中提供了更普遍的指導。

Github:

https://github.com/stefan-m-lenz/JuliaConnectoR https://arxiv.org/abs/2005.06334v1

實作視聽語音分離,你隻需要一張靜止圖像

南韓研究人員在本文中提出了一種新的視聽語音增強方法,該方法可以通過使用面部圖像表示的條件嵌入,将特定說話者與其他說話者同時産生的語音隔離開來。

與使用視訊剪輯上的嘴唇移動或預先注冊的演講者資訊作為輔助條件的傳統方法不同,該方法隻需要目标演講者的單幅面部圖像。

通過自我監督,可以從潛在空間中的面部圖像檢索說話者,然後将其用于調節語音增強網絡。這種方法克服了純音頻源分離中不可避免的置換問題,并始終根據目标身份重建語音。實驗結果證明了其在語音增強任務上的有效性。

視訊示例:

https://www.youtube.com/watch?v=ku9xoLh62E4&feature=youtu.be https://arxiv.org/abs/2005.07074v1

Google AI:釋出大型AI資料庫

Google AI日前釋出了一個大型資料庫,這将很有可能成為訓練和評估模型的新基準。這個複合型資料集由各種資料集組成,并提出了更為現實的任務。它由10個可公開獲得的自然圖像(包括ImageNet,CUB-200-2011,Fungi等)、手寫字元和塗鴉資料集組成。

這個項目的研究人員嘗試了流行的基準和大型資料集上的元學習,以及他們其中的的對抗性方法。他們根據測試任務的各種特征來分析性能,并檢查模型利用各種多樣化的資料來改善其概括性的能力。他們還提出了一組新的基線,用于增強量化中繼資料集中的元學習。經過廣泛的研究和實驗,他們發現了具有重要價值的方向性難點,适用于未來的研究。

示範如何在TensorFlow和PyTorch中使用中繼資料集的筆記本可以在此處通路:

https://github.com/google-research/meta-dataset/blob/master/Intro_to_Metadataset.ipynb

代碼:

https://storage.googleapis.com/meta-dataset-source-code/meta-dataset-iclr2020.tar.gz https://openreview.net/attachment?id=rkgAGAVKPr&name=original_pdf

一個通用文本解析模型的軟體工具包

此工具包由jiant于3月首次推出,是一種開源工具包,适用于對英語NLU任務進行多任務和轉移學習實驗。Jiant在最近進行了更新,新版本中提供了一個配置驅動的界面,該界面使用一組包含50多種NLU任務,混合最有效的句子編碼器模型以及多任務、多階段的訓練方法,來定義轉換學習、示範學習實驗等。

此外,開發人員證明了jiant擁有能夠實作各種NLU任務上較優的性能。jiant的任務和句子編碼器元件的子產品化設計,使得使用者無需編輯源代碼即可快速輕松地嘗試大量任務,模型和參數的配置。

jiant的設計還使添加新任務變得容易,并且它的體系結構使擴充jiant來支援新的句子編碼器變得更簡單。研究人員還證明了,jiant可以在BERT和RoBERTa等各種任務和模型裡,實作較優的性能。

jiant代碼是開源的,他們邀請貢獻者在Github上的jiant項目庫中,送出問題或申請送出代碼修複問題:

https://github.com/nyu-mll/jiant

原文:

https://arxiv.org/abs/2003.02249v2

其他爆款論文

一個生物醫學機器閱讀了解的資料庫,BIOMRC:

https://arxiv.org/abs/2005.06376v1

一種開放式機器人學習方法, DREAM架構:

https://arxiv.org/abs/2005.06223v1

人工智能和機器人應用中行為樹的綜合研究:

https://arxiv.org/abs/2005.05842v2

S2IGAN:通過對抗性學習生成語音到圖像:

https://arxiv.org/abs/2005.06968v1

規範可能無法解釋的深度學習中隐式正則化:

https://arxiv.org/abs/2005.06398v1

AI大事件

全球最複雜的主機闆,安培(Ampere)為大型AI模型提供動能:

https://www.zdnet.com/article/nvidias-ampere-plus-worlds-most-complex-motherboard-will-fuel-gigantic-ai-models/

Kite開發的的AI自動代碼完成工具,現已适用于更多語言:

https://www.zdnet.com/article/javascript-programming-language-developers-this-is-kites-new-free-ai-code-completion-tool/

索尼:建立世界上第一個内置AI的圖像傳感器:

https://www.bloomberg.com/news/articles/2020-05-14/sony-builds-ai-into-latest-image-sensor

NVIDIA最新的AI超級計算機加入了對抗COVID-19大軍:

https://www.engadget.com/nvidia-gtc-2020-ai-health-covid-19-130031390.html

Adobe的Experience Cloud推出了新的智能服務,旨在幫助企業使用AI對資料集進行預測模組化:

https://www.zdnet.com/article/adobe-intros-new-intelligent-services-for-experience-cloud/