科學家研發自動駕駛新子產品，讓自動駕駛場景了解更接近人類認知

近日，清華大學碩士生徐冬陽和所在團隊，為了助力自動駕駛技術的進一步發展，他們提出一款名為 LVAFusion 的子產品，旨在更高效、更準确地融合多模态資訊。

圖 | 徐冬陽（來源：徐冬陽）

自動駕駛在路上應該具備學習優秀人類駕駛員的能力，因為人類在面對多數場景的時候，可以迅速地定位在關鍵區域。

為了提高端到端自動駕駛模型的可解釋性，該團隊首次引入人類駕駛員的注意力機制。

通過預測目前上下文中的駕駛員注意區域，他們将其作為一個掩碼來調整原始圖像的權重，進而使自動駕駛車輛能夠像經驗豐富的人類駕駛員一樣，具備有效定位和預測潛在風險因素的能力。

預測駕駛員視覺注視區域的引入，不僅為下遊決策任務提供更具細粒度的感覺特征，進而可以更大程度地保證安全。而且，也讓場景了解過程更加接近人類認知，進而能夠提高可解釋性。

（來源：arXiv）

就潛在應用來說：

其一，本次開發的 LVAfusion 子產品能被用于配有雷射雷達的車上，有望提高多模态大模型的感覺融合能力。

其二，本次模型可以和現有多模态大模型結合。

比如，駕駛員注意力機制可以實時輸出，讓乘客實時觀察目前大模型所認為權重較大的闆塊。

如果乘客認為不合理，可以語音告訴端到端模型，進而實作自動調節，進而實作持續學習和不斷優化。

端到端自動駕駛好在哪裡？

據介紹，自動駕駛包括環境感覺、定位、預測、決策、規劃及車輛控制等關鍵環節，通過協調這些子產品可以對周圍環境進行實時感覺和安全導航。

然而，這種系統架構不但代碼量巨大、後處理邏輯複雜、後期維護成本高。

而且在實際應用過程中容易出現誤差累積的現象，比如前方突然出現行人，由于感覺子產品的漏檢，下遊的預測決策子產品沒有行人的資訊輸入，可能導緻危險的發生。

而端到端自動駕駛則有望解決這個問題。端到端自動駕駛，是指使用深度學習模型直接從原始輸入資料（如攝像頭圖像，雷射雷達點雲），到控制指令（如方向盤轉角、油門和刹車）的轉換過程。

該方法試圖簡化傳統的多子產品自動駕駛系統，将整個駕駛任務看作是一個從感覺到行為的映射問題。

端到端學習的關鍵優勢在于它可以降低系統的複雜性，并有潛力提高泛化能力，因為模型可以被訓練來直接處理多種不同的駕駛情況。

并且，多模态端到端自動駕駛通過整合來自攝像頭、雷射雷達和雷達等多種傳感器的資料，有望提高系統對複雜環境的了解和反應能力，增強決策的準确性和魯棒性，進而提升自動駕駛車輛的安全性和可靠性。

然而，端到端自動駕駛基于黑盒化的深度學習模型，是以如何提高模型的駕駛性能、以及提高模型的可解釋性，是一個急需解決的問題和痛點。

現有的大量方法都是端到端自動駕駛，徐冬陽和所在團隊詳細分析模型結構之後發現，此前人們并沒有很好地利用多模态資訊。

攝像頭具有豐富的語義資訊，但是缺乏深度資訊。雷射雷達可以提供很好的距離資訊。是以，二者具有很好的互補特性。

但是，現有端到端學習方法大部分采用骨幹網絡分别提取模态資訊之後，在高維空間裡面進行拼接，或采用 Transformer 針對多模态資訊進行融合。

其中，查詢 Query 是随機初始化的，這個過程可能導緻在采用注意力機制進行融合的過程中，無法利用埋藏在多模态特征中的先驗知識。

進而可能會導緻跨多種模态的同一個關鍵對象的錯位，最終導緻模型學習的收斂速度變慢和次優。

中關村的雪天冬夜裡，敲着代碼做實驗

研究中，随着徐冬陽專業技能的積累、以及端到端自動駕駛的發展，在閱讀文獻時他發現了端到端領域仍然存在一些不足。

比如，沒有充分探究是否融合了多模态資訊，如何在保證精度的前提下提高模型的可解釋性。一番研究之後，徐冬陽選擇了端到端自動駕駛作為研究課題。

端到端自動駕駛是一個很大的系統，包括感覺、跟蹤、預測、決策、規劃、控制等多個子產品。是以，要設計一個可以有效串通上述子產品的方法。

确定好方法之後，則需要采集大量的資料。因為端到端模型都是基于深度學習，是以需要大量資料進行訓練。

還得确定模型需要什麼輸入和輸出，以及去自動駕駛仿真平台 Carla 采集多種天氣、多種工況之下的資料，同時還要檢查資料的完整性。

完成資料采集之後，則要分析模型在結構設計上，能否對本次任務起到幫助。

實驗中，在導入預訓練權重的時候，徐冬陽把權重導錯了一個。但是，由于經過了權重比對，是以系統并沒有報錯，然而跑出來的實驗結果總是不盡人意。

進行大量的模型調試之後，也依舊沒有找到問題所在。一天晚上徐冬陽在中關村散步的時候，天上飄着大雪，他忽然想到自己還沒有檢視訓練代碼，會不會是訓練過程的問題呢？

于是，他立馬跑回電腦旁，看了一下訓練過程，最終确定問題出在預訓練權重導入上。

調整之後，實驗結果非常符合預期。“這種發現帶來的不僅是對于問題的了解，更有一種深刻的滿足感和成就感。”徐冬陽說。

而由于訓練時間比較長，徐冬陽每天晚上都會将多個任務送出到訓練叢集上。有一天晚上由于交的實驗較多，有些任務由于優先級的原因被停了。

第二天來看的時候，他發現少了一些實驗結果，于是隻得再次仔細分析結果，并将缺失的實驗重新送出。

就在這樣繁複的過程之中，他終于完成了研究。最終，相關論文以《M2DA：融合駕駛員注意力的多模式融合 Transformer》（M2DA：Multi-Modal Fusion Transformer Incorporating Driver Attention for Autonomous Driving）為題發在 arXiv 上[1]。

圖 | 相關論文（來源：arXiv）

後續，課題組會圍繞進一步優化模型、拓展應用場景、提高系統魯棒性和安全性開展。

具體來說：

首先，要深化多模态融合技術。

繼續探索和開發更加高效的算法，借此改進不同傳感器資料之間的融合方式。比如，采用圖網絡針對不同模态進行比對，而且尤其要關注在處理高動态和複雜環境下的交通場景。

其次，要增強駕駛員的注意力模型。

即進一步地研究駕駛員注意力的模拟機制，探索如何更加精确地預測和模拟人類駕駛員的注意焦點，以及探究這些焦點對于駕駛決策的影響。

再次，要開展安全性和魯棒性的驗證。

即将現有模型部署到實體世界的小車中，通過更多的實體實驗，驗證模型在真實世界條件下的性能。

進而将研究擴充到惡劣天氣、夜間駕駛等更廣泛、更多樣的駕駛場景和環境條件之中，借此驗證和提高系統的通用性和适應性。

最後，要開展人機互動的研究。

即探索如何将這一技術與人機互動更緊密地結合，例如通過提供給駕駛員更直覺的風險警告和輔助決策支援，增強自動駕駛車輛與人類駕駛員之間的互動。

通過這些後續研究計劃，徐冬陽希望不僅可以提升自動駕駛技術的性能，也能確定其更加貼近人類駕駛行為的了解，為實作更安全、更智能的自動駕駛技術打下基礎。

參考資料：

1.https://arxiv.org/pdf/2403.12552.pdf

營運/排版：何晨龍

科學家研發自動駕駛新子產品，讓自動駕駛場景了解更接近人類認知

繼續閱讀

斯坦福李飛飛團隊釋出Wild2Avatar！在遮擋物後面渲染人類

為什麼猶太人非要行割禮？人類學視角透視猶太教割禮之謎

“鋼鐵俠”馬斯克放話：30年火星建城，咱們人類有戲了！

高認知窮人“七宗罪”

一旦人類實作曲速技術，就可在宇宙中随意穿線？是福是禍？

印度的大麻煩來了，這更是對全人類的一個警訊

新業态新場景帶動文化産業高品質發展

科學家：除地球外太陽系還有6個星球或有生命，這下太陽系熱鬧了

人類已知的最小的恒星有多小？居然比木星還小，跟土星大小相當

炸裂！AI本是造福人類，如今與色情挂鈎？淪落為龌龊的“透視眼”

索尼HT-AX7積木音響體驗：可移動多場景音效的臨場享受

成為巨人的奧秘，被封在人類的17号染色體中，能否打開基因鎖？

2050年左右，地球人口将突破100億，人類需要移民其他星球？

大新聞！李昌平領銜頂尖科學家聯名上書，誓要調查轉基因食品問題

柔光人像不止明亮，vivo S17 Pro讓人物融進場景裡

如果你是世界上僅存的一個人類，你應該如何生存在地球上？