天天看點

董玮:大模型賦能智能物聯網的技術與願景 | CNCC專家談

在即将于今年10月24-26日在浙江橫店舉辦的CNCC2024上,138個技術論壇覆寫了人工智能、安全、AI+、網絡、計算+、系統軟體、教育、晶片等34個專業領域,推動不同領域的交叉融合,為各界專業人士提供了廣泛的專業内容。包括國際知名學者、兩院院士、産學研各界代表在内的800餘位報告嘉賓将着力探讨計算技術與未來宏觀發展趨勢,為參會者提供深度的學術和産業交流機會,當中不乏在各領域深具影響力的重磅學者專家親自擔綱論壇主席。

本專題力邀CNCC2024技術論壇主席親自撰稿,分享真知灼見,歡迎走進CNCC,領略計算領域專業大觀魅力!

董玮:大模型賦能智能物聯網的技術與願景 | CNCC專家談

本期特别嘉賓:

董玮 浙江大學教授

作者:CNCC2024【第二屆大模型時代的智能物聯網研究前沿論壇:如何讓大模型了解實體世界?】論壇主席 董玮

智能物聯網簡介

什麼是智能物聯網?維基百科的定義是:智能物聯網是人工智能(AI)技術與物聯網(IoT)基礎設施的結合,以實作更高效的物聯網營運,改善人機互動,提高資料管理與分析能力。通俗地講,就是物聯網裝置或物聯網基礎設施具有類人的能力,包括感覺、記憶、推理以及學習等能力。

從物聯網到智能物聯網,在學術界研究了20餘年。2017年左右就已經提出了智能物聯網的概念,後來逐漸形成了TinyML這個研究領域,得到研究界和工業界的廣泛關注。今年,物聯網領域已經出現了類似IMUGPT[1]、LocGPT[2]、Penetrative AI[3]、ChatIoT[4]等非常相關的工作。今年5月份的時候,劉雲浩教授在CCCF的卷首語中指出:“不在實體世界裡進行直接感覺和實踐,等于把AI裝在套子裡,哪能獲得真正的智能呢?”。真正的智能應該是物聯網與AI的有機結合,實作資訊世界與實體世界的深度融合。

智能物聯網有沒有類似自動駕駛一樣的分級呢?目前學術界和産業界還沒有标準的答案。我們針對智能物聯網提出了一種可能的分級,歡迎大家探讨和指正。

  • L1級:物聯網可以聯網并執行指令,可以通過物聯網感覺環境、控制裝置。
  • L2級:其關鍵是具備系統能力自動發現。比如系統有許多API,并具有不同的調用參數。L2級智能可以自動發現這些API有什麼功能,如何調用,能自動将使用者的自然語言描述的任務,準确映射到這些API調用。
  • L3級:其關鍵是系統能力的自動建構,其中也包含感覺能力的建構。
  • L4級: 其關鍵是長期高效的記憶以及上下文感覺能力。以智能攝像頭為例,L4級智能可以使它能夠長期高效的記憶它所看到、聽到的事情,并且能夠結合曆史以及目前上下文做出準确的感覺推斷。
  • L5級: 接近或達到人類的智能,實作自主、可靠、實時的決策。

大模型賦能物聯網的挑戰和技術

我們認為,AI大模型将在推進物聯網智能化程序中發揮十分重要的作用。例如,在系統能力自動建構方面,國内外在大模型賦能的代碼生成方面取得了積極的進展。2023年1月,前Harvard大學教授Matt Welsh在CACM上發表了一篇文章《the end of programming》,指出程式設計終将終結,大多數的軟體将由AI生成,或其本身就是一個AI系統。

董玮:大模型賦能智能物聯網的技術與願景 | CNCC專家談

Matt Welsh的觀點引起了廣泛的關注。在未來,人們隻需用自然語言描述想要做的事情,通過大模型以及multi-agents技術,就能自動生成想要的結果。從這個意義上講,傳統的程式設計語言可能會被取代。發表在MobiCom 2024年上的Autodroid[5],它通過大模型實作自然語言到自動化執行腳本的轉化,實作在智能手機上複雜任務的自動化執行。發表在IMWUT/UbiComp 2024上的ChatIoT[4]通過大模型,在無需大量标注的情況下,準确地将自然語言描述的任務轉化為HomeAssistant系統定義的IFTTT規則并自動執行。上述工作在推進L2級乃至L3級智能化程序中起到了重要的作用。

另一方面,在推進大模型與物聯網深度融合過程中仍然面臨一系列挑戰。在系統層面,如何在資源極其受限的物聯網裝置上支援AI模型部署?如何與雲端模型進行高效的協同推理?

在感覺層面,如何讓大模型更好地了解視覺、聲音、無線信号、IMU等感覺資訊及其跨模态關聯?如何解決建構“物聯網感覺大模型”的資料稀缺問題?如何兼顧可泛化和高精度的雙重目标,讓AI大模型能夠真正超越現有感覺算法?在應用層面,面向工業制造等重要場景,如何解決AI大模型幻覺,滿足工業物聯網場景下的精确性、可靠性、實時性的需求?

學術界針對上述挑戰進行了積極的探索。

在系統層面,業界聞名的開源AI大模型,如Llama 3.2,Qwen2.5等都開始針對資源受限的移動和物聯網裝置進行優化。其目标是提供具備較小模型尺寸的輕量級文本模型,但依然具有強大的文本生成和處理能力。開源社群也在投入設計輕量級AI模型為邊緣裝置和移動裝置提供了強大的AI能力,如MiniCPM-V, MobileLLM等。還有一些工作,如Deja Vu等,通過選擇性地執行模型中的一些重要的計算來減少計算量。此外,還可以通過對語言模型推理過程中的KV Cache進行量化或選擇性存儲,來進一步優化推理資源占用以及響應時間。

在感覺層面,Penetrative AI[3]基于IMU、無線信号等傳感器資料,結合注入的專家知識,輸出基礎感覺任務的文本化描述(例如步數、步頻等);在此基礎上利用大模型的文本了解能力,實作更高語義感覺任務(例如是不是在室外跑步等)。再例如,Meta團隊在2023年9月提出了AnyMAL[6],它通過兩步驟的方式來訓練得到了一個可以直接處理IMU資料的大模型。首先是模态對齊步驟,通過将傳感器資料,如IMU以及其對應的文本描述輸入到當機的LLM中,使用得到的結果訓練投影層。這一步驟確定了不同模态的資料能夠在LLM中得到統一的表達。第二步驟就是利用一些指令資料集對投影層以及LLM本身進行微調,使得LLM的輸出能夠根據使用者的意圖正确的做出響應。通過這樣兩階段的訓練,就可以得到了一個能夠直接處理傳感器資料,然後可以按照使用者的指令進行問答的感覺大模型。

董玮:大模型賦能智能物聯網的技術與願景 | CNCC專家談

在應用層面,大量相關的領域大模型釋出,包括海爾的智能家居HomeGPT、百川智能的工業大模型、MIT研究團隊提出的健康大模型Health-LLM[7]等。他們通過在通用語言模型上用特定任務的資料進行模型結構與參數的微調,進而提高專業領域大模型的準确度和專業性。在智慧家居應用中,利用大模型可以進行語音識别,提供智能音箱等裝置的語音互動服務,如Amazon Alexa、Apple Siri和Google Assistant。智能家居中的智能攝像頭可以通過大模型進行圖像識别,識别家庭成員和陌生人,甚至檢測異常行為并發出警報。在工業物聯網領域中,中國的科技企業如百度、華為等也正在不斷突破創新。例如,華為的盤古大模型為生産運維全鍊條提供了智能化服務,全面提升了業務效能和經濟效益。

智能物聯網的願景

在《流浪地球2》中,描繪了這麼一個場景,當使用者下達進行流浪地球計劃的指令後,MOSS量子計算機自主決策,驅動大量機器建設了行星發動機、地下城和月球發動機。智能物聯網的目标和願景,應該是成為人們的數字實體助理,能夠與人類智能互動,最終實作對實體世界的智能感覺、決策與控制。

【參考文獻】

[1] Leng Z, Bhattacharjee A, Rajasekhar H, et al. IMUGPT 2.0: Language-based cross modality transfer for sensor-based human activity recognition[J]. Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies, 2024, 8(3): 1-32.

[2] Zhao X, Wang G, An Z, et al. Understanding Localization by a Tailored GPT[C]//Proceedings of the 22nd Annual International Conference on Mobile Systems, Applications and Services. 2024: 318-330.

[3] Xu H, Han L, Yang Q, et al. Penetrative AI: Making LLMs comprehend the physical world[C]//Proceedings of the 25th International Workshop on Mobile Computing Systems and Applications. 2024: 1-7.

[4] Gao Y, Xiao K, Li F, et al. ChatIoT: Zero-code Generation of Trigger-action Based IoT Programs[J]. Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies, 2024, 8(3): 1-29.

[5] Wen H, Li Y, Liu G, et al. Autodroid: LLM-powered task automation in android[C]//Proceedings of the 30th Annual International Conference on Mobile Computing and Networking. 2024: 543-557.

[6] Moon S, Madotto A, Lin Z, et al. AnyMAL: An efficient and scalable any-modality augmented language model[J]. arXiv preprint arXiv:2309.16058, 2023.

[7] Kim Y, Xu X, McDuff D, et al. Health-LLM: Large language models for health prediction via wearable sensor data[J]. arXiv preprint arXiv:2401.06866, 2024.

敬請關注本年度CNCC大會組織的“第二屆大模型時代的智能物聯網研究前沿”論壇。本論壇邀請近年來具有代表性成果的傑出學者進行分享,在系統層面、感覺層面、應用層面,深入探讨資源受限系統的模型推理優化、可泛化的智能物聯網、大模型賦能工業物聯網等多個技術領域的趨勢和最新進展,促進交流與合作,共同推動智能物聯網技術的創新和發展。論壇日程資訊如下:

董玮:大模型賦能智能物聯網的技術與願景 | CNCC專家談

想了解更多關于CNCC2024技術論壇資訊,歡迎觀看CCF公衆号【CNCC專家談】專題及CCF視訊号【CNCC會客廳】直播,我們将陸續邀請本屆CNCC技術論壇的論壇主席或重磅嘉賓,圍繞今年CNCC涉及到的熱門話題進行研讨交流,親自帶觀衆走進CNCC,敬請随時關注。歡迎一鍵預約,準時觀看!

繼續閱讀