天天看點

CVPR2020 | 室内設計師失業?針對語言描述的自動三維場景設計算法

CVPR2020 | 室内設計師失業?針對語言描述的自動三維場景設計算法

近日,計算機視覺頂會CVPR 2020接收論文結果公布,從6656篇有效投稿中錄取了1470篇論文,錄取率約為22%。在《Intelligent Home 3D: Automatic 3D-House Design from Linguistic Descriptions Only》(已開源)這篇由華南理工大學、澳洲阿德萊德大學和酷家樂合作完成的論文中,作者設計了一套能夠針對人類語言描述自動生成室内三維場景的算法模型。

CVPR2020 | 室内設計師失業?針對語言描述的自動三維場景設計算法

p語言描述到三維場景生成樣例

文 | Qi Chen

編 | 賈 偉

CVPR2020 | 室内設計師失業?針對語言描述的自動三維場景設計算法

論文連結:https://arxiv.org/pdf/2003.00397.pdf

代碼連結:https://github.com/chenqi008/HPGM

1

動 機

房屋場景設計是一項十分複雜、繁瑣且重人工的工作,通常由專業的建築設計師來完成。然而,一個專業的建築設計師必須接受數年的設計、規劃和設計工具的教育訓練,并且在實際進行房屋設計時,通常需要花費大量時間收集客戶需求,然後根據其專業知識與過往經驗來進行平面圖的設計,這一般需要幾天到幾周的時間。另一方面,即使花費了大量時間,設計師繪制的設計圖紙也不一定能讓客戶感到滿意。是以,如何快速的繪制出符合要求的設計樣例就顯得十分關鍵。

一個可行的思路是讓客戶自助描繪出想要的設計樣例,然而由于專業知識的局限性,大部分普通人沒有設計相關的知識儲備,并且也不知道如何使用那些複雜的專業設計工具,但是每個人都有使用語言表達想法的能力。是以,為了節省時間并且允許沒有專業知識的人參與設計,作者考慮設計一套能夠針對人類語言描述生成室内三維場景的算法模型(HPGM模型),該模型會自主應用專業的設計常識,通過使用者的語言描述進行戶型和家裝設計。此外,作者還收集了一個新的資料集用以檢驗語言資訊生成三維場景的模型效果。

2

方法架構

HPGM模型架構包含五個主要部分,分别是:1)文本表達子產品(Text Representation);2)基于圖的布局預測網絡(Graph Conditioned Layout Prediction Network,GC-LPN);3)平面圖後處理子產品(Floor Plan Post-processing);4)基于語言的紋理生成網絡(Language Conditioned Texture GAN,LCT-GAN);5)三維場景生成與渲染子產品(3D Scene Generation and Rendering)。

CVPR2020 | 室内設計師失業?針對語言描述的自動三維場景設計算法

算法總體架構圖

首先,為了能夠清晰的提取出客戶描述中的關鍵屬性資訊,作者使用斯坦福提出的文本解析器(Sandford Scene Graph Parser)拆解輸入的文本描述語句,生成半結構化的語義資料。具體可分為:1)針對每間房子的場景圖:其中包含每間房屋的具體類型、方向位置、期望大小以及牆面和地闆的材質與顔色等等;2)房子之間關系的場景圖:通過場景圖中節點(房屋)之間是否有直接連接配接來表示房屋之間相鄰情況。

CVPR2020 | 室内設計師失業?針對語言描述的自動三維場景設計算法

每間房子的場景圖

CVPR2020 | 室内設計師失業?針對語言描述的自動三維場景設計算法

房子之間關系的場景圖

其次,基于提取出的文本資訊,作者建構了一個布局預測網絡(GC-LPN)用以生成房間布局圖。網絡輸入為場景圖

CVPR2020 | 室内設計師失業?針對語言描述的自動三維場景設計算法

,圖中節點表示每間房屋的特征,包括房屋的類型、方位和大小;邊則表示房屋之間的連接配接情況,有連接配接為1,反之為0。為保證生成布局圖空間資訊與描述中所包含的語義一緻,并且能夠進行端到端的訓練,作者引入圖結構并用圖卷積網絡(Graph Convolutional Network)進行更新。圖卷積網絡更新後的節點即包含自身的特征,也包含鄰接節點的資訊。緊接着,用一個邊框回歸網絡(Bounding Box Regression)分别根據每個節點特征預測相應的房屋邊框,最後組合成房屋的布局圖。

然後,為了将所預測的房間布局圖轉換成真實世界中的平面圖(Floor Plan),作者提出一個平面圖後處理子產品,該子產品分為五步:(a)提取出圖像中所有線段;(b)将相近的線段合并;(c)沒有封閉的多邊形封閉;(d)判斷并标記每個多邊形屬于的房間類型;(e)根據特定規則加上門和窗。

CVPR2020 | 室内設計師失業?針對語言描述的自動三維場景設計算法

後處理步驟

CVPR2020 | 室内設計師失業?針對語言描述的自動三維場景設計算法

紋理生成模型

另一方面,為了生成不同的房間風格,作者提出一個紋理生成網絡(LCT-GAN),該網絡能根據輸入的語義資訊生成地闆和牆面的紋理圖案。基于生成對抗網絡的原理,紋理生成網絡包含一個紋理生成器G和一個判别器D,除了生成對抗網絡中基礎的對抗損失函數

CVPR2020 | 室内設計師失業?針對語言描述的自動三維場景設計算法

CVPR2020 | 室内設計師失業?針對語言描述的自動三維場景設計算法

外,文章針對紋理圖案的材質和顔色,提出兩種不同的對抗損失輔助生成器的優化,分别是材質感覺損失

CVPR2020 | 室内設計師失業?針對語言描述的自動三維場景設計算法

(Material-aware Loss)和顔色感覺損失

CVPR2020 | 室内設計師失業?針對語言描述的自動三維場景設計算法

(Colour-aware Loss),用以評估生成紋理圖像中材質樣式和顔色是否與描述中的一緻。值得注意的是,作者使用全卷積網絡(Fully Convolutional Network, FCN)來構造紋理生成器G,該網絡能夠通過調節輸入的大小來得到任意大小的輸出紋理圖像。

最後,作者提出了一個三維場景生成與渲染子產品(3D Scene Generation and Rendering),該子產品可以根據上述模型生成的房屋二維平面圖和對應的紋理圖案,合成相應的三維場景模型。

CVPR2020 | 室内設計師失業?針對語言描述的自動三維場景設計算法

三維渲染圖合成

3

實驗結果

1、資料集

為驗證所提出模型的有效性,文章收集了一個新的資料集(Text-to-3D House Model dataset),其中包含完整的語言描述和對應的二維平面圖以及紋理圖案,資料集總共包含2000個平面圖資訊,共13478間房屋資訊,另外有873張紋理圖檔,每段語言描述平均長度為173.73,全部描述共包含193個不同的單詞。值得注意的是,由于某一些房間具有相同的紋理圖案,是以紋理圖檔的數目小于房間的總數。

CVPR2020 | 室内設計師失業?針對語言描述的自動三維場景設計算法

資料集樣例

CVPR2020 | 室内設計師失業?針對語言描述的自動三維場景設計算法

資料集詞雲

2、平面圖生成

為測試GC-LPN算法生成二維平面圖的效果,作者使用目标檢測中普遍用到檢測評價函數Intersection-over-Union(IoU)作為量化對比名額,并且展示可視化效果,其中Text1和Text2表示輸入的描述。由于二維平面圖生成是一個全新的任務,沒有現成的已有算法,是以作者建構了幾種所提出算法的變種來進行對比,其中包括:(1)MLG:針對輸入文本中的房屋大小與位置資訊,根據随機抽取的長寬比生成平面圖;(2)C-LPN:将提出的網絡模型中圖卷積部分去掉,使用剩餘模型來進行平面圖生成;(3)RC-LPN:将圖卷積部分換成LSTM模型來生成平面圖。

CVPR2020 | 室内設計師失業?針對語言描述的自動三維場景設計算法

‍‍p‍GC-LPN與不同模型結果對比

由不同模型的數值結果與可視化結果對比表明,相較于其他網絡模型,GC-LPN網絡能生成更加合理且接近真實世界資料的平面圖結構,同時也很好地契合了輸入文本中關于房間相關位置以及各種屬性的需求。

3、紋理圖檔生成

其次,測試LCT-GAN紋理圖案生成效果時,作者使用生成對抗網絡中常用的FID和MS-SSIM名額進行量化比較,并展示可視化效果。文章對比經典的生成對抗網絡算法ACGAN和StackGAN-v2,此外還考慮了專門生成紋理圖像的PSGAN算法。無論從名額還是視覺結果,LCT-GAN都能達到令人滿意的效果。

CVPR2020 | 室内設計師失業?針對語言描述的自動三維場景設計算法
CVPR2020 | 室内設計師失業?針對語言描述的自動三維場景設計算法

LCT-GAN與不同模型結果對比

除此之外,為了讨論LCT-GAN的泛化能力,作者設計了一個內插補點圖像生成實驗和一個新紋理圖像生成實驗。內插補點實驗對兩個不同屬性之間的輸入特征進行線性內插補點,并把中間的內插補點特征輸入到LCT-GAN網絡中去。實驗結果顯示,不同屬性間內插補點生成的圖像能平滑過度,有效證明了LCT-GAN的泛化能力。而生成新紋理圖像的實驗中,作者嘗試讓LCT-GAN生成現實中不可能存在的屬性組合,例如“花崗岩”+“粉紅色”,結果表明,針對這類組合屬性,LCT-GAN仍然能很好的生成相應的紋理。

CVPR2020 | 室内設計師失業?針對語言描述的自動三維場景設計算法

內插補點結果

CVPR2020 | 室内設計師失業?針對語言描述的自動三維場景設計算法

構造新紋理

4、三維場景結果

最後,基于上述生成的平面圖以及紋理圖像,建構最終的三維場景圖,并将其與真實世界中的場景圖相比較,為驗證生成場景圖的合理程度,作者考慮使用類似“圖靈測試”的方法,讓人類來分辨生成的場景圖與真實的場景圖。結果顯示,測試者将HPGM生成的設計場景判斷為人類設計師繪制的機率為39.41%,并且還有12.65%的樣例測試者不能明确的區分出來。這些結果表明,在一定程度上人類并不能分辨出生成的場景圖是人工設計的還是HPGM算法設計的。

CVPR2020 | 室内設計師失業?針對語言描述的自動三維場景設計算法

HPGM v.s 人類(“Tie”表示不确定)

此外,文章最後還提供了一些完整的從輸入到中間結果平面圖,再生成最終三維場景的樣例。從樣例中可以看到,HPGM能較好的根據輸入文本的語義資訊生成相應的二維平面圖和三維場景圖,并且與人類設計師繪制的真實平面圖和場景圖也十分相似。

CVPR2020 | 室内設計師失業?針對語言描述的自動三維場景設計算法

從語言到三維場景生成完整例子展示

4

總結和展望

文章中,作者嘗試用人工智能算法模型解決真實世界應用需求,根據人類語言描述生成對應的戶型與室内場景,将學術研究與實際産品落地相結合,通過解決一個新穎的、實際的問題,探索算法的可用性及可行性,希望能借此推動深度學習模型在多模态、圖像生成等領域的發展進步。同時,建構自動三維場景生成模型能更好的緩解家居版塊中複雜、繁瑣的任務流程,減輕人工成本的消耗,有助于實際過程中的降本增效。