天天看點

【今日CV 計算機視覺論文速覽 143期】Mon, 15 Jul 2019

今日CS.CV 計算機視覺論文速覽

Mon, 15 Jul 2019

Totally 24 papers

?上期速覽✈更多精彩請移步首頁

【今日CV 計算機視覺論文速覽 143期】Mon, 15 Jul 2019

Interesting:

?***圖像操作解耦網絡, 研究人員提出了一種可以通過改變輸入參數來改變圖像操作網絡的方法。通過一個特定的操作網絡base和一個權重學習網絡來實作。當輸入不同的參數時,權重學習網絡可以為操作網絡比對不同的權重,此時操作網絡就可以按照線性或非線性的方式來對圖形進行不同強度的操作。研究人員在不同程度的平滑、超分辨和去噪上進行了實驗。(from 斯坦福)

【今日CV 計算機視覺論文速覽 143期】Mon, 15 Jul 2019

不同濾波器下的效果:

【今日CV 計算機視覺論文速覽 143期】Mon, 15 Jul 2019

圖像修複的結果:

【今日CV 計算機視覺論文速覽 143期】Mon, 15 Jul 2019

有效感受野的大小:

【今日CV 計算機視覺論文速覽 143期】Mon, 15 Jul 2019

?**水下圖像提升模型jointly wavelength compensation and dehazing network ,JWCDN), 研究人員将水下圖像的波長衰減歸結于表面到物體的深度、将散射歸結于相機到目标的距離。并通過不同的子產品估計出投射圖、波長衰減和背景光源。模型使用了多尺度連接配接的編碼器、解碼器網絡來估計投射圖、并使用保邊網絡子產品來提升細節。此外還提出了新的圖像合成永恒方法,同時模拟顔色、對比度、模糊等真實世界的水環境。(from 大連海事大學)

【今日CV 計算機視覺論文速覽 143期】Mon, 15 Jul 2019

多尺度透射率估計子產品:

【今日CV 計算機視覺論文速覽 143期】Mon, 15 Jul 2019

合成資料的模型如下,加入了一項距水面的深度資訊:

【今日CV 計算機視覺論文速覽 143期】Mon, 15 Jul 2019

一些合成資料上的結果:

【今日CV 計算機視覺論文速覽 143期】Mon, 15 Jul 2019

Daily Computer Vision Papers

+++A General Decoupled Learning Framework for Parameterized Image Operators

Authors Qingnan Fan, Dongdong Chen, Lu Yuan, Gang Hua, Nenghai Yu, Baoquan Chen

已經使用許多不同的深度網絡來近似,加速或改進傳統的圖像運算符。在這些傳統的運算符中,許多包含需要調整的參數以獲得令人滿意的結果,我們将其稱為參數化圖像運算符。然而,為這些營運商訓練的大多數現有深度網絡僅針對一種特定參數配置而設計,其不滿足通常需要靈活參數設定的真實場景的需要。為了克服這個限制,我們提出了一種新的解耦學習算法,用于從營運商參數中學習動态調整圖像營運商的深度網絡權重,表示為基礎網絡。學習算法形成為另一個網絡,即權重學習網絡,可以與基礎網絡聯合訓練端到端。實驗證明,所提出的架構可以成功地應用于許多傳統的參數化圖像算子。為了加速實際場景的參數調整,可以進一步擴充所提出的架構,以動态地改變基礎網絡的僅一個單層的權重,同時共享大部分計算成本。我們證明了所提出的解耦學習架構的這種廉價參數調整擴充甚至優于現有技術的替代方法。

Self-supervised Learning with Geometric Constraints in Monocular Video: Connecting Flow, Depth, and Camera

Authors Yuhua Chen, Cordelia Schmid, Cristian Sminchisescu

我們提出了GLNet,一個自我監督的架構,用于學習單眼視訊的深度,光流,相機姿态和内在參數,解決了為這些任務擷取真實基礎事實的難度。我們提出了三個貢獻1我們設計了捕獲多個幾何限制的新損失函數,例如。極線幾何以及自适應光度成本支援多個移動物體,剛性和非剛性,2我們擴充模型,以便預測相機内在,使其适用于未校準的視訊,3我們提出了幾個依賴于它的線上微調政策在訓練和測試中我們自我監督損失的對稱性,特别是優化模型參數和/或不同任務的輸出,利用它們的互相作用。在所有幾何和光度限制下聯合優化系統輸出的想法可以被視為經典束調整的密集推廣。我們證明了我們的方法在KITTI和Cityscapes上的有效性,我們在多個任務中優于以前的自我監督方法。我們還展示了轉移學習的良好概括。

ACTNET: end-to-end learning of feature activations and aggregation for effective instance image retrieval

Authors Syed Sameed Husain, Eng Jon Ong, Miroslaw Bober

我們提出了一種名為ACTNET的新型CNN架構,用于從大規模資料集中檢索強大的執行個體圖像。我們的關鍵創新是可學習的激活層,旨在提高深度卷積特征映射的信噪比SNR。這與多流聚合協同工作,其中在聚合成全局描述符之前,使用我們的新激活層來轉換和平衡來自不同卷積層的互補深度特征。重要的是,激活塊的可學習參數與CNN參數一起被明确地訓練,以端對端的方式最小化三元組丢失。這意味着我們的網絡聯合學習CNN過濾器及其檢索任務的最佳聚合。據我們所知,這是第一次使用參數函數來控制和學習最佳聚合。我們對三個非線性激活函數Sine Hyperbolic,Exponential和Modified Weibull進行了深入的實驗研究,結果表明,盡管Weibull函數具有顯着的增益,但由于其均衡強激活的能力,它的表現最佳。結果清楚地表明,激活函數顯着增強了深部特征的辨識力,進而導緻最先進的檢索結果。

Unsupervised Adversarial Attacks on Deep Feature-based Retrieval with GAN

Authors Guoping Zhao, Mingyu Zhang, Jiajun Liu, Ji Rong Wen

研究表明,基于深度神經網絡DNN的圖像分類模型易受惡意構造的對抗性示例的影響。然而,很少有人努力研究基于DNN的圖像檢索模型如何受到這種攻擊的影響。在本文中,我們引入了無監督的對抗性攻擊和生成性對抗網絡UAA GAN來攻擊基于深度特征的圖像檢索系統。 UAA GAN是一種無監督學習模型,僅需要少量未标記的資料進行教育訓練。一旦經過訓練,它就會為查詢圖像生成查詢特定的擾動,進而形成對抗性查詢。核心思想是確定附着的擾動對于人類幾乎不可察覺,但有效地将查詢從深度特征空間中的原始位置推開。 UAA GAN适用于基于深層功能的各種應用場景,包括圖像檢索,人物Re ID和面部搜尋。實證結果表明,UAA GAN削弱了檢索性能,而查詢圖像沒有明顯的視覺變化。 UAA GAN生成的對抗性示例較不易區分,因為它們傾向于在圖像的紋理或顯着區域中包含細微的擾動,例如人體的關鍵身體部位,主要結構圖案紋理或邊緣,而不是在視覺上無關緊要的區域,例如背景和天空。這種趨勢表明該模型确實學會了如何用圖像檢索系統和人眼玩具。

+++分割方法Gated-SCNN: Gated Shape CNNs for Semantic Segmentation

Authors Towaki Takikawa, David Acuna, Varun Jampani, Sanja Fidler

用于圖像分割的現有技術方法形成密集圖像表示,其中顔色,形狀和紋理資訊都在深CNN内一起處理。然而,這可能并不理想,因為它們包含與識别相關的非常不同類型的資訊。這裡,我們提出了一種用于語義分割的新的雙流CNN架構,其明确地将形狀資訊作為單獨的處理分支,即形狀流,其與經典流并行地處理資訊。這種架構的關鍵是一種新型的門,它連接配接兩個流的中間層。具體來說,我們使用經典流中的更進階激活來控制形狀流中的較低級激活,有效地消除噪聲并幫助形狀流僅關注處理相關的邊界相關資訊。這使我們能夠使用非常淺的架構來處理基于圖像級别分辨率的形狀流。我們的實驗表明,這導緻了一種高效的體系結構,可以圍繞對象邊界生成更清晰的預測,并顯着提高更薄和更小對象的性能。我們的方法在城市景觀基準上實作了最先進的表現,在掩模mIoU和邊界F得分品質方面,在強基線上提高了2和4。

Learning a Curve Guardian for Motorcycles

Authors Simon Hecker, Alexander Liniger, Henrik Maurenbrecher, Dengxin Dai, Luc Van Gool

當騎車者通過曲線操縱時,多達17起機車事故發生,并且曲線事故的主要原因可歸因于機車的不适當的速度和錯誤的車道内位置。現有的曲線警告系統缺乏關鍵的狀态估計元件,并且不能很好地擴充我們提出了一種新型的機車道路曲率預警系統,結合計算機視覺,最優控制和繪圖技術的最新進展,以緩解這些缺點。我們的貢獻是四倍1我們使用卷積神經網絡CNN預測機車的車道内位置,2我們使用CNN預測機車側傾角,3我們使用更新的控制器模型,其中包含道路坡度以獲得更逼真的模型和預測, 4我們利用HERE Technologies地圖資料庫設計了一個可擴充的系統,以獲得未來路徑的精确道路幾何形狀。此外,我們提出了兩個分别用于訓練和評估我們系統的資料集,這兩個資料集将公開釋出。我們在各種各樣的現實世界場景中測試我們的系統,并提供詳細的案例研究。我們表明,我們的系統能夠預測更準确和更安全的曲線軌迹,進而警告并提高機車駕駛員的安全性。

PC-DARTS: Partial Channel Connections for Memory-Efficient Differentiable Architecture Search

Authors Yuhui Xu, Lingxi Xie, Xiaopeng Zhang, Xin Chen, Guo Jun Qi, Qi Tian, Hongkai Xiong

可區分的體系結構搜尋DARTS在尋找有效的網絡體系結構方面提供了快速的解決方案,但是在聯合訓練超級網絡和搜尋最佳體系結構時遭受了大量記憶體和計算開銷。在本文中,我們提出了一種新穎的方法,即部分連接配接的DARTS,通過對超網的一小部分進行采樣以減少網絡空間中的備援,進而在不包括性能的情況下執行更有效的搜尋。特别是,我們在通道子集中執行操作搜尋,并保持保持不變的部分。該政策可能在選擇由不同信道的采樣引起的超網邊緣時出現不希望的不一緻。我們通過引入邊緣歸一化來解決它,邊緣歸一化在搜尋期間添加一組新的邊緣級超參數以減少搜尋中的不确定性。由于降低了記憶體成本,PC DARTS可以通過更大的批量教育訓練進行教育訓練,是以可以享受更快的速度和更高的教育訓練穩定性。實驗結果證明了該方法的有效性。具體來說,我們在架構搜尋的0 1 GPU天内在CIFAR10上實作了2 57的錯誤率,并且在3.8 GPU天内用于搜尋的移動設定下ImageNet上的最高1錯誤率為24 2。我們已經提供了代碼

And the Bit Goes Down: Revisiting the Quantization of Neural Networks

Authors Pierre Stock, Armand Joulin, R mi Gribonval, Benjamin Graham, Herv J gou

在本文中,我們解決了減少ResNet記憶體占用的問題,如卷積網絡架構。我們引入了一種矢量量化方法,旨在保持網絡輸出的重建品質而不是其權重。我們的方法的優點是它可以最大限度地減少域輸入中的損耗重建錯誤,并且不需要任何标記資料。我們還使用位元組對齊的碼本來生成壓縮網絡,并對CPU進行有效推斷。我們通過将高性能ResNet 50模型量化為5 MB 20x壓縮因子的記憶體大小來驗證我們的方法,同時在ImageNet對象分類上保留前1個準确度76.1,并通過壓縮大小預算大約6 MB的Mask R CNN。

VarGNet: Variable Group Convolutional Neural Network for Efficient Embedded Computing

Authors Qian Zhang, Jianjun Li, Meng Yao, Liangchen Song, Helong Zhou, Zhichao Li, Wenming Meng, Xuezhi Zhang, Guoli Wang

在本文中,我們提出了一種新穎的高效嵌入式計算網絡設計機制。受有限計算模式的啟發,我們建議在組卷積中修複通道數,而不是修複總組數的現有做法。我們的基于解決方案的網絡,名為Variable Group Convolutional Network VarGNet,可以在硬體方面更容易地進行優化,因為層之間的計算方案更加統一。各種視覺任務的廣泛實驗,包括分類,檢測,像素分析和人臉識别,已經證明了我們的VarGNet的實用價值。

Deep Model Compression via Filter Auto-sampling

Authors Daquan Zhou, Xiaojie Jin, Kaixin Wang, Jianchao Yang, Jiashi Feng

最近的WSNet 1是一種新的模型壓縮方法,它通過從緊湊集合中對濾波器重量進行采樣,并證明對一維卷積神經網絡CNN有效。然而,WSNet的權重抽樣政策是手工制作和修複的,可能會嚴重限制所得CNN的表達能力并削弱其壓縮能力。在這項工作中,我們提出了一種新的自動采樣方法,适用于1D和2D CNN,與WSNet相比具有顯着的性能改進。具體來說,我們提出的自動采樣方法端到端地學習采樣規則,而不是獨立于網絡架構設計。利用這種可微分的權重采樣規則學習,優化了緊湊集合中的采樣步幅和信道選擇,以便在模型壓縮率和性能之間實作更好的折衷。我們說,在相同的壓縮比下,我們的方法在1D卷積上優于WSNetby6.5。此外,在ImageNet上,我們的方法在分類精度為25.4 FLOPsreduction時優于MobileNetV2完整模型1.47。使用與基線模型相同的骨幹架構,我們的方法優于某些神經架構搜尋基于NAS的方法,如AMC 2和MNasNet 3。

AVD: Adversarial Video Distillation

Authors Mohammad Tavakolian, Mohammad Sabokrou, Abdenour Hadid

在本文中,我們提出了一種簡單而有效的視訊表示方法,稱為Adversarial Video Distillation AVD。關鍵思想是通過以逼真圖像的形式壓縮視訊來表示視訊,這些圖像可用于各種基于視訊的場景分析應用。将視訊表示為單個圖像使我們能夠通過圖像分析技術解決視訊分析的問題。為此,我們利用3D卷積編碼器解碼器網絡通過最小化重建誤差将輸入視訊編碼為圖像。此外,對編碼器的輸出施加對抗性訓練過程的弱監督以産生語義上逼真的圖像。編碼器通過将3D輸入映射到2D潛在表示來學習從給定輸入視訊提取語義上有意義的表示。所獲得的表示可以簡單地用作在用于視訊分類的圖像上預訓練的深度模型的輸入。我們評估了我們提出的基于視訊的活動識别方法在三個标準和具有挑戰性的基準資料集上的有效性,即UCF101,HMDB51和Kinetics。實驗結果表明,AVD實作了有趣的性能,優于最先進的視訊分類方法。

++文字識别Boosting Scene Character Recognition by Learning Canonical Forms of Glyphs

Authors Yizhi Wang, Zhouhui Lian, Yingmin Tang, Jianguo Xiao

作為文檔分析中的基本問題之一,場景字元識别近年來引起了相當大的興趣。但由于許多無法控制的因素,包括字形轉換,模糊,背景噪音,光照不均等,這個問題仍被認為極具挑戰性。在本文中,我們提出了一種通過學習标志形式的字形來提升場景字元識别的新方法,基于這樣的事實,即出現在場景圖像中的角色都是從它們相應的規範形式中得出的。我們的關鍵觀察是,與傳統的基于分類的特征學習架構相比,通過解決特殊設計的生成任務可以學習更多的判别特征。具體地,我們設計基于GAN的模型以使得所學習的給定場景角色的深度特征能夠以多種标準字型樣式重建相應的字形。通過這種方式,我們獲得了場景角色的深度特征,這些特征在識别上更具辨識力并且對上述因素不太敏感。我們在幾個公開可用的資料庫上進行的實驗證明了我們的方法與現有技術相比的優越性。

Dual Adversarial Semantics-Consistent Network for Generalized Zero-Shot Learning

Authors Jian Ni, Shanghang Zhang, Haiyong Xie

廣義零射擊學習GZSL是一類具有挑戰性的視覺和知識轉移問題,其中在測試過程中出現了看不見的類和看不見的類。現有的GZSL方法要麼遭受語義上的損失,要麼在嵌入階段丢棄判别資訊,或者不能保證視覺語義互動。為了解決這些局限性,我們提出了雙重對抗語義一緻網絡DASCN,它在GZSL的統一架構中學習原始和雙生成對抗網絡GAN。特别地,原始GAN學習合成類間判别和語義,從觀察到的看不見的類的語義表示和由雙GAN重構的語義表示中保留視覺特征。雙GAN強制合成視覺特征通過語義一緻的對抗性學習很好地表示先前的語義知識。據我們所知,這是第一個采用GZSL新型雙GAN機制的工作。大量實驗表明,我們的方法比現有技術方法有了顯着的改進。

Tiny-Inception-ResNet-v2: Using Deep Learning for Eliminating Bonded Labors of Brick Kilns in South Asia

Authors Usman Nazir, Numan Khurshid, Muhammad Ahmed Bhimra, Murtaza Taj

本文提出采用一種名為Tiny Inception ResNet v2的Inception ResNet靈感深度學習架構,通過識别南亞磚窯帶内的磚窯來消除債役工。該架構是通過在由11個不同類别的南亞地區組成的衛星圖像上教育訓練網絡而開發的。在此過程中開發的資料集包括磚窯,房屋,道路,網球場,農場,稀疏樹木,茂密樹木,果園,停車場,公園和貧瘠土地的地理參考圖像。該資料集可公開擷取以供進一步研究。我們提出的具有非常少的學習參數的網絡架構優于用于識别磚窯的所有現有技術架構。我們提出的解決方案将實作可持續發展目标的區域監測和評估機制。

+++混合殘差注意力Hybrid Residual Attention Network for Single Image Super Resolution

Authors Abdul Muqeet, Md Tauhid Bin Iqbal, Sung Ho Bae

卷積神經網絡CNN特征的提取和合理利用對圖像超分辨率SR的性能具有顯着影響。盡管CNN特征包含空間和信道資訊,但是由于使用空間或信道資訊,目前SR上的深度技術經常遭受最大化性能。此外,它們将這些資訊內建在深度或寬度網絡中,而不是利用所有可用的功能,最終導緻高計算複雜性。為了解決這些問題,我們提出了一種二值化特征融合BFF結構,該結構以有效的方式利用來自殘餘群RG的提取特征。每個殘差組RG由多個混合殘差注意塊HRAB組成,其在單個塊中有效地內建了多尺度特征提取子產品和信道關注機制。此外,我們使用具有不同擴張因子的擴張卷積來提取多尺度特征。我們還建議采用全局,短和長跳過連接配接和殘餘組RG結構,以便在不丢失重要功能細節的情況下簡化資訊流。在本文中,我們将這種整體網絡架構稱為混合殘留關注網絡HRAN。在實驗中,我們觀察了我們的方法對定量和定性比較的現有技術方法的功效。

Automated Real-time Anomaly Detection in Human Trajectories using Sequence to Sequence Networks

Authors Giorgos Bouritsas, Stelios Daveas, Antonios Danelakis, Constantinos Rizogiannis, Stelios C. A. Thomopoulos

檢測異常軌迹是潛在應用于各種領域的重要問題,例如視訊監控,風險評估,船舶監測和高能實體。利用統計方法對軌迹分布進行模組化是一項具有挑戰性的任務,因為這樣的時間序列通常是非靜止的且高度次元的。然而,現代機器學習技術為資料驅動模組化和關鍵資訊提取提供了強大的方法。在本文中,我們提出了一種序列到序列架構,用于在基于風險的安全性的背景下實時檢測人類軌迹中的異常。我們的檢測方案在ISL iCrowd模拟器生成的各種實際軌迹的合成資料集上進行測試。實驗結果表明,我們的方案準确地檢測出偏離正常行為的運動模式,并且有望用于未來的實際應用。

Robust GPU-based Virtual Reality Simulation of Radio Frequency Ablations for Various Needle Geometries and Locations

Authors Niclas Kath, Heinz Handels, Andre Mastmeyer

目的射頻消融在惡性肝病變的治療中發揮重要作用。針對病變的導航對受訓者和介入醫師都是一個挑戰。方法本出版物提出了一種新的基于GPU的精确方法,用于模拟針尖處的病竈和現有的視覺觸覺4D VR模拟器的射頻消融。該方法使用Nvidia CUDA實時實作。結果與生物熱PDE和體外金标準的單調收斂的理論特征相比,它的表現優于文獻方法,在Pearson相關性方面具有顯着的改善p.0.0。在初始階段10秒後,它沒有顯示故障模式或理論上不一緻的單個模拟結果。在Nvidia 1080 Ti GPU上,它實作了480 Hz的非常高的幀渲染性能。結論我們的方法提供了更加穩健和更安全的實時消融計劃和術中指導技術,特别是避免了對消融組織死亡區的過度估計,這對于患者在惡性良性腫瘤複發方面存在風險。未來的體外測量和優化将進一步改善保守估計。

Virtual Adversarial Lipschitz Regularization

Authors D vid Terj k

生成對抗網絡GAN是培養生成模型時最受歡迎的方法之一,其中Wasserstein GAN的變體在學習穩定性和樣本品質方面被認為優于标準GAN公式。然而,Wasserstein GAN要求批評者為K Lipschitz,這通常通過懲罰其梯度的範數來隐式執行,或者通過權重歸一化技術全局限制其Lipschitz常數。在大多數情況下,發現使用正則化術語明确地懲罰違反Lipschitz限制而不是通過梯度的範數進行訓練是不可行的。通過虛拟對抗訓練的新概括,稱為虛拟對抗性Lipschitz正則化,我們表明使用明确的Lipschitz懲罰确實是可行的,并且當應用于Wasserstein GAN訓練時,在初始得分和Fr chet Inception Distance方面導緻最先進的表現。在CIFAR 10上。

Coupled-Projection Residual Network for MRI Super-Resolution

Authors Chun Mei Feng, Kai Wang, Shijian Lu, Yong Xu, Heng Kong, Ling Shao

磁共振成像MRI通過幫助醫生進行更準确的診斷,已廣泛應用于臨床應用和病理學研究。另一方面,通過MRI的準确診斷仍然是一個巨大的挑戰,因為通過現有MRI技術獲得的圖像通常具有低分辨率。是以,提高MRI圖像品質和分辨率成為一項至關重要的任務。本文介紹了一種用于MRI超分辨率的創新耦合投影殘留網絡CPRN。 CPRN由兩個互補的子網絡組成,即淺網絡和深網絡,在保持低分辨率和高分辨率圖像之間的高頻差異的同時保持内容一緻性。淺子網絡采用耦合投影以更好地保留MRI圖像細節,其中引入新穎的回報機制以指導高分辨率圖像的重建。深子網絡從高頻圖像資訊的殘差中學習,其中多個殘餘塊級聯以放大最後網絡層處的MRI圖像。最後,融合淺層和深層子網絡的特征以重建高分辨率MRI圖像。為了有效地融合來自深和淺子網絡的特征,逐漸連接配接CPRN S被設計為受到從簡單到複雜的人類認知過程的啟發。對三個公共MRI資料集的實驗表明,與現有技術相比,我們提出的CPRN實作了優異的MRI超分辨率性能。我們的源代碼将在公開釋出

Jointly Adversarial Network to Wavelength Compensation and Dehazing of Underwater Images

Authors Xueyan Ding, Yafei Wang, Yang Yan, Zheng Liang, Zetian Mi, Xianping Fu

由光吸收和散射引起的嚴重偏色,低對比度和水下圖像的模糊性導緻探索水下環境的困難任務。與以往大多數通過模糊圖像形成模型沿物鏡相機路徑計算光衰減的水下圖像增強方法不同,我們提出了一種新穎的聯合波長補償和去霧網絡JWCDN,它考慮了沿表面物體路徑的波長衰減和沿物體的散射。相機路徑同時。通過将簡化的水下地層模型嵌入到生成對抗網絡中,我們可以通過不同的網絡子產品聯合估計傳輸圖,波長衰減和背景光,并使用簡化的水下圖像形成模型來恢複退化的水下圖像。特别地,提出了一種多尺度密集連接配接的編碼器解碼器網絡,以利用來自多個層的特征來估計傳輸圖。為了進一步改善恢複的圖像,我們使用邊緣保留網絡子產品來增強恢複圖像的細節。此外,為了訓練所提出的網絡,我們提出了一種新穎的水下圖像合成方法,其産生具有不同水類型的固有光學特性的水下圖像。該合成方法可以同時模拟現實世界水下環境的顔色,對比度和模糊外觀。對合成和現實世界水下圖像的廣泛實驗表明,與幾種現有技術方法相比,所提出的方法在主觀和客觀評估方面産生相當或更好的結果。

R-Transformer: Recurrent Neural Network Enhanced Transformer

Authors Zhiwei Wang, Yao Ma, Zitao Liu, Jiliang Tang

回歸神經網絡長期以來一直是序列模組化的主要選擇。然而,它嚴重地受到兩個無法捕獲非常長期依賴性并且無法并行化順序計算過程的問題。是以,最近提出了許多基于卷積和注意操作的非遞歸序列模型。值得注意的是,具有多頭注意力的模型(例如Transformer)已經證明在捕獲各種序列模組化任務中的長期依賴性方面具有極高的效率。然而,盡管它們取得了成功,但這些模型缺乏必要的元件來對序列中的局部結構進行模組化,并且嚴重依賴于效果有限且需要大量設計工作的位置嵌入。在本文中,我們提出了R變壓器,它既具有RNN的優點,又具有多頭注意機制,同時避免了它們各自的缺點。所提出的模型可以有效地捕獲序列中的局部結構和全局長期依賴性,而無需使用位置嵌入。我們通過對來自各種領域的資料的廣泛實驗來評估R Transformer,并且實驗結果表明R Transformer在大多數任務中大大超過了現有技術方法。我們已在網址上公布了該代碼

MLR (Memory, Learning and Recognition): A General Cognitive Model -- applied to Intelligent Robots and Systems Control

Authors Aras R. Dargazany

本文介紹了智能機器人和系統控制的新視角。提出和提出的認知模型記憶,學習和識别MLR,旨在彌合機器人,AI,認知科學和神經科學之間的差距。目前存在的差距使我們無法整合這四個研究領域的目前進展和成就,這四個研究領域正在積極嘗試以基于應用的方式或以通用方式定義情報。這種認知模型更具體地定義了智能,參數化和詳細。建議的MLR模型幫助我們為機器人和系統建立獨立于其應用領域和平台的通用控制模型,因為它主要基于為機器人和系統控制提供的資料集。本文主要是提出并介紹這一概念,并試圖通過實驗來小規模地證明這一概念。所提出的概念也适用于其他不同平台的實時和模拟。

Graph-Structured Visual Imitation

Authors Maximilian Sieb, Zhou Xian, Audrey Huang, Oliver Kroemer, Katerina Fragkiadaki

我們将視覺模仿作為視覺對應問題。我們的機器人代理在其行為導緻更好地比對在其工作空間和教師示範中檢測到的相應視覺實體的相對空間配置時得到獎勵。我們建立在計算機視覺的最新進展基礎上,例如人類手指關鍵點檢測器,使用合成增強技術進行即時訓練的物體檢測器,以及通過視點變化監督的點檢測器,并且在沒有人類注釋或機器人互動的情況下為每次示範學習多個視覺實體檢測器。我們憑經驗顯示實體的分解視覺表示及​​其空間布置在幾分鐘内成功模仿各種操作技能,使用單個示範并且沒有任何環境儀器。它對背景雜亂很穩健,可以有效地推廣示範者和模仿者之間的環境差異,大大優于以前作品的非結構化非分解全幀CNN編碼。

Accurate Congenital Heart Disease Model Generation for 3D Printing

Authors Xiaowei Xu, Tianchen Wang, Dewen Zeng, Yiyu Shi, Qianjun Jia, Haiyun Yuan, Meiping Huang, Jian Zhuang

3D列印已被廣泛用于先天性心髒病冠心病的臨床決策和介入規劃,而全心髒和大血管分割是3D列印模型生成中最重要但耗時的步驟。雖然文獻中已經開發了各種自動全心髒和大血管分割架構,但是當應用于CHD中的醫學圖像時它們是無效的,其在心髒結構和大血管連接配接方面具有顯着變化。為了應對這一挑戰,我們利用深度學習的能力處理正常結構和圖算法處理大變化的能力,并提出一個結合CHD全心髒和大血管分割的架構。特别是,我們首先使用深度學習來分割四個腔室和心肌,然後是血池,其中變化通常很小。然後,我們提取連接配接資訊并應用圖形比對來确定所有船隻的類别。使用覆寫14種CHD的683D CT圖像的實驗結果表明,與正常解剖結構中的現有技術全心髒和大血管分割方法相比,我們的方法可以使骰子評分平均提高11.9。還使用3D列印機列印分割結果以進行驗證。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩請移步首頁

【今日CV 計算機視覺論文速覽 143期】Mon, 15 Jul 2019

pic from pexels.com

繼續閱讀