雖然計算機視覺在工業維護、制造、物流和消費應用中起着重要作用，但它的應用受到了手動建立的訓練資料集的限制。在工業環境下建立标簽圖檔主要是通過手動方式完成的，這使得識别功能不能縮放，給業務價值的實作造成了人工成本和遲延。這種狀況與産品設計、産品工程和産品配置中通過快速疊代提供業務靈活性的做法相悖。

這個流程也不能放大用于汽車、飛機或現代建築等複雜産品，因為在這些場景下每一個标簽項目都具有唯一性（與獨特的産品有關）。是以，如果不進行充分的資料準備工作（有時會限制用例傳遞），計算機視覺技術就不能很容易地應用在具有獨特性的大規模項目上。

在本帖文中，我們将介紹一種新穎方法，借助設計檔案和CAD檔案建立高度專用的計算機視覺系統。我們先建立視覺上正确的數字孿生并生成人工标簽圖像。接着我們将這些圖像推送到Amazon Rekognition自定義标簽，訓練自定義對象檢測模型。通過将現有的知識産權與軟體結合使用，我們使計算機視覺具有可負擔性，并與多種工業環境相關。

定制視覺系統有利于提升業務成效

借助數字孿生生成的專用計算機視覺系統擁有确鑿的優勢，主要展現在下列用例中：

可追溯獨特産品 – 空客、波音和其他飛機制造商給他們生産的每架飛機配置設定唯一的制造商序列号（MSN）。對該序列号的管理貫穿整個生産流程，以生成适航檔案并獲得準飛許可。根據每個MSN的配置衍生出數字孿生（表達實物産品的虛拟3D模型），同時生成分布式計算機視覺系統，友善在所有工業設施上跟蹤這個MSN的進展。定制的識别功能自動向航空公司提供透明度，并取代了航空公司手動執行的大多數檢查點。獨特産品的自動化品質保證可以應用于飛機、汽車、建築物，甚至是工藝産品。
情景化增強現實 – 專業級計算機視覺系統能專注于有限的視野，提供更強的分辨能力。例如在工業維護中，發現圖檔中的螺絲刀是沒有用的；還需要分辨螺絲刀的型号甚至是它的序列号。在這樣的有限場景下，定制識别系統的性能優于通用識别系統，因為他們能提供相關性更強的識别結果。定制識别系統可通過人機界面或移動裝置中提供的專用增強現實來實作精确的回報環路。
端到端品質控制 – 依托系統工程，可以為部分構造建立數字孿生，生成适應制造生産流程各個階段的計算機視覺系統。視覺控制可以與制造工位交織在一起，實作端到端檢驗，盡早發現缺陷。端到端檢驗使用的定制識别功能能夠有效防止缺陷波及裝配生産線。終極目标是降低廢品率，同時最大化生産産能。
柔性質檢 – 現代質檢必須适應設計變化和柔性制造。設計變化來自關于産品用途和産品維護的回報環路。柔性制造是按訂單制造戰略的一項關鍵功能，它符合成本優化的精益制造原則。通過在數字孿生中內建設計變化與設計配置選項，定制識别功能就能讓計算機視覺系統動态地适應生産計劃和設計變化。

3DEXCITE在Amazon Rekognition的支援下強化計算機視覺

達索系統多年來深耕數字孿生領域，是歐洲第二大軟體開發商，其3DEXCITE團隊正在另辟蹊徑。正如Karl Herkt解釋道，“如果用人工圖像訓練的神經模型能夠識别實物産品，情況會怎樣？”3DEXCITE将自己的技術與AWS基礎設施相結合，解決了這個問題，進而證明了這種别緻方法的可行性。這也被稱為跨域對象檢測。檢測模型從源域（人工圖像）提取的标簽圖像中學習，并對未标記的目标域（實體元件）做出預測。

達索系統3DEXCITE團隊和AWS原型制作團隊攜手合作，共同開發出能夠識别工業齒輪箱部件的示範系統。這個原型的制作耗時3個星期，訓練後的模型98%得到F1評分。識别模型完全采用軟體流水線訓練。這個流水線不提供任何真實部件的圖像。依據工業齒輪箱的設計檔案和CAD檔案，3DEXCITE團隊已經建立出視覺正确的數字孿生。此外，3DEXCITE團隊還通過數字孿生生成了數千幅人工标簽圖像。接着，他們使用Rekognition自定義标簽對采用上述圖像建立的高度專用神經模型進行訓練，并提供相關的識别API。他們設立了一個網站，友善從任何網絡攝像頭識别齒輪箱的某個真實部件。

Amazon Rekognition是一項AI服務。它運用深度學習技術賦予使用者從圖像和視訊中提取有意義的中繼資料的能力，包括識别物體、人物、文本、場景、活動以及潛在的不适當内容，且不需要具備機器學習（ML）專業知識。此外，Amazon Rekognition還提供十分準确的人臉分析與人臉搜尋功能，供使用者檢測、分析和比較人臉，适用于多種類型的使用者認證、人員點數和安全用例。最後，使用Rekognition自定義标簽，使用者能夠使用自己的資料建構對象檢測和圖像分類模型。

達索系統人工标簽圖像生成技術與面向計算機視覺的Rekognition自定義标簽的強強聯合，為識别系統提供了一種可擴充的工作流。易用性在這裡是一個關鍵的有益因素，因為向整個軟體流水線添加Rekognition自定義标簽難度不大，就相當于向工作流中內建API一樣簡單。無需成為機器學習科學家，隻需将捕獲的幀發送給AWS，就能獲得可錄入資料庫或在網絡浏覽器中顯示的結果。

這進一步強調了與手動建立的訓練資料集相比的顯著改進。使用者能以更快速度、更高準确性獲得更優質的結果，且無需投入成本高且不必要的工時。依托如此豐富的潛在用例，将達索系統技術與Rekognition自定義标簽相結合，有望向今天的企業提供顯著且立竿見影的投資回報。

解決方案概述

該解決方案的第一步是渲染用于建立訓練資料集的圖像。這一步在3DEXCITE平台上完成。可以使用腳本，用程式設計方式生成标簽資料。Amazon SageMaker Ground Truth提供的注釋工具可以友善地為分類任務和對象檢測任務标記圖像和視訊。要在Amazon Rekognition中訓練模型，标簽檔案需要符合Ground Truth格式。這些标簽采用JSON格式，内含圖像大小、邊界框坐标和類别ID等資訊。

接着将标簽圖像和清單檔案上傳到Amazon簡單存儲服務（Amazon S3）。在這裡可以将Rekognition自定義标簽當作訓練資料集的元件導入。

為了讓Rekognition自定義标簽按照一組真實的元件圖像測試模型，我們提供了一系列用攝像頭拍攝的真實發動機部件的圖像，并上傳到Amazon S3用作測試資料集。

最後，通過使用人工訓練資料集和真實物體圖像構成的測試資料集，Rekognition自定義标簽訓練出最佳的對象檢測模型，然後用這個模型建立在我們的應用中運作對象識别的終端。

下圖是我們解決方案工作流的圖示：

3DEXCITE與Amazon Rekognition強化計算機視覺實作人工智能資料集

建立人工圖像

生成人工圖像采用了同為達索系統産品的3DEXPERIENCE平台。該平台允許使用者基于對象的計算機輔助設計（CAD）檔案建立和渲染逼真的圖像。在這個平台上改變圖像轉換配置，可以在幾個小時内生成數千種變體。

在這個原型中，我們選擇了下面五種視覺迥異的齒輪箱部件，用于對象檢測。它們分别是齒輪箱體、齒數比、軸承蓋、法蘭和蝸輪。

下列資料增強方法用來增加圖像多樣性，使人工資料更加逼真。這有助于降低模型的一般化誤差。

放大/縮小 – 這種方法對圖像中的物體進行随機縮放。
旋轉 – 這種方法對圖像中的對象進行旋轉，看上去如同虛拟攝像頭從360度對物體進行随機拍攝。
提升材料觀感 – 我們發現，對于某些齒輪部件，材料的外觀在首次渲染後逼真度下降。為改進人工圖像，我們添加了金屬效果。
使用不同的光照設定 – 在這個原型中，我們仿真了兩種光照條件：倉庫 – 逼真的光線分布。可以顯示陰影和反射。工作室 – 在物體周圍包裹單色光。這種做法不夠逼真，但不産生陰影或反射。
使用實時觀察物體時的實際位置 – 在真實條件下，法蘭和軸承蓋等物體一般放置在一個表面上。這個模型根據上下小面檢測對象。是以，我們删除了顯示部件較薄邊緣的訓練圖像（也稱為邊緣位置），增加了物體平面位置的圖像。
在一副圖像中添加多個物體 – 在現實場景中，多個齒輪部件可能同時出現在一個視圖中，是以我們準備了含有多個齒輪部件的圖像。

在3DEXPERIENCE平台上，我們可以對圖像應用不同背景，這能夠幫助我們進一步提高圖像的多樣性。因為時間限制，我們沒有把這個方法用在這個原型中。

導入人工訓練資料集

在機器學習中，标簽資料意味着訓練資料經過注釋以提示目标，也就是要求機器學習模型預測的答案。可供Rekognition自定義标簽使用的标簽資料應符合Ground Truth清單檔案要求。清單檔案由一行或多行JSON代碼行構成。每行包含單幅圖像的資訊。對于人工訓練資料，可以在我們上文提及的CAD檔案和圖像轉換配置的基礎上，用程式設計方式生成标記資訊，進而大幅節省手動标記工作的工作量。

在準備好清單檔案後，我們将它上傳到S3存儲桶，然後選擇“采用Amazon SageMaker Ground Truth标記導入圖像”選項，在Rekognition自定義标簽中建立訓練資料集。

在導入清單檔案後，我們可以很直覺地在Amazon Rekognition控制台上看到标記資訊。這有助于我們确認清單檔案是否已成功生成和導入。更具體地說，邊界框應與圖像内的物體對齊。對象的類别ID也應正确地對應。

建立測試資料集

測試圖像是在現實生活中用手機或攝像頭從不同的角度在不同的光照條件下拍攝而成，因為我們想驗證我們用人工資料訓練的模型相對于現實場景的準确性。使用者可以将這些測試圖像上傳到S3存儲桶，然後在Rekognition自定義标簽中将它們當作資料集導入。或者也可以直接将它們上傳到來自您本地計算機的資料集。

Rekognition自定義标簽提供内置的圖像注釋功能，其體驗與Ground Truth近似。在導入測試資料後，使用者就可以開始标記工作。對于對象檢測用例，邊界框應嚴格圍繞目标物體建立。這有利于模型準确地擷取屬于目标對象的區域和像素。此外，使用者應标記所有圖像中目标對象的每個執行個體（即使物體一部分在視野外或被其他物體遮擋），否則模型會做出更多錯誤的“假”預測。

建立跨域對象檢測模型

Rekognition自定義标簽是一項完全有管理的服務。使用者隻需要提供訓練資料集和測試資料集。它訓練出一組模型，并根據提供的資料選擇性能最佳的一個模型。在這個原型中，我們通過實驗我們前文提到的圖像增強方法的不同組合，疊代地準備人工訓練資料集。在Rekognition自定義标簽中為每個訓練資料集建立一個模型，這友善我們比較和尋找針對這個具體用例表現最優秀的訓練資料集。每個模型都擁有最起碼數量的訓練圖像，具備良好的圖像多樣性并提供最佳模型準确性。經過15次疊代，我們使用約10,000幅人工訓練圖像（相當于平均每個對象2,000幅圖像）實作98%的F1評分。

模型推斷結果

下列圖像是在實時推斷應用中使用Amazon Rekognition模型的結果。所有元件都被正确檢測，且置信度高。

結論

在本帖文中，我們示範了如何用純人工圖像訓練計算機視覺模型，以及這個模型如何持續可靠地識别現實世界的對象。這樣可以大幅節省采集和标記教育訓練資料的手動工作。通過這次探索，達索系統正在提升設計人員和工程師建立的3D産品模型的業務價值，因為現在使用者可以在現實中的圖像識别系統中使用CAD資料、CAE資料和PLM資料。

這是Storm Reply首席技術官Bernard Paques和Dassault Systèmes 3DExcite進階政策師Karl Herkt共同撰寫的一篇文章。

3DEXCITE與Amazon Rekognition強化計算機視覺實作人工智能資料集

定制視覺系統有利于提升業務成效

3DEXCITE在Amazon Rekognition的支援下強化計算機視覺

解決方案概述

建立人工圖像

導入人工訓練資料集

建立測試資料集

建立跨域對象檢測模型

模型推斷結果

結論

繼續閱讀

小i機器人受邀赴韓交流，CFO首爾亞洲金融論壇演講

吳恩達deeplearning

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

吳恩達機器學習筆記（3）

吳恩達j機器學習之過拟合

吳恩達機器學習(一) 介紹

深度學習模型分析人類複雜疾病的準确性

疾病研究：重症肌無力

人工智能如何有效地運用于自然語言處理

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

無人機--飛控科普