AI分析手機實作精準扶貧：伯克利研究登上Nature

機器之心報道

機器之心編輯部

通過你用手機的方式看你的财力，扶貧準确率最高能提升 21%。

新冠大流行摧毀了許多低收入和中等收入國家，導緻廣泛的糧食不安全以及生活水準的急劇下降。為了應對這場危機，世界各國政府和人道主義組織已向超過 15 億人分發了社會援助。但是，他們正面臨着一個關鍵的挑戰：在現有資料的情況下，快速确定最需要援助的目标人群仍是一項艱巨的任務。

在近日發表在 Nature 上的論文《Machine Learning and Phone Data can Improve Targeting of Humanitarian Aid》中，來自加州大學伯克利分校、德國曼海姆大學、美國西北大學的研究者展示了利用手機網絡的資料可以提升人道主義救援的針對性。

他們使用傳統調研資料來訓練機器學習算法，以識别使用者手機資料中的貧困狀況。然後，經過訓練的算法可以優先向那些最貧困的手機使用者提供援助。

研究者通過研究西非國家多哥（Togo）的一個旗艦緊急現金轉移項目（Novissi）對方法進行了評估，這項計劃使用算法配置設定了價值數百萬美元的新冠救濟援助金。他們在分析中比較了不同目标确定機制下的結果，包括排除誤差（exclusion errors，真正的窮人被錯誤地認為沒有資格）、總體社會福利和公平性衡量。

相較于多哥政府采用的地理位置目标确定方法，研究者使用機器學習方法将排除誤差減少了 4–21%。而相較于需要全面社會登記（一種假設，多哥并不存在這種登記）的方法，機器學習方法将排除誤差增加了 9–35%。這些結果強調了新資料源在确定人道援助方面能夠對傳統方法做出補充，尤其是在傳統資料缺失或過時的危機環境中。

研究背景

我們先來了解一下多哥的旗艦緊急現金轉移項目 Novissi。2020 年 4 月，在首批新冠病例出現不久，多哥政府推出了這一項目。由于經濟限制指令導緻很多多哥人停工，并引發了廣泛的糧食安全問題。Novissi 項目旨在為受影響最重的人提供生存現金援助。

項目位址：https://publicadministration.un.org/zh/Themes/Digital-Government/Good-Practices-for-Digital-Government/Compendium/CompendiumID/472

但是，當多哥政府剛開始推出 Novissi 項目時，沒有可用來評估獲援資格的傳統社會登記系統，也抽不出時間或資源在新冠流行期間建構這類登記系統。最近的一次人口普查完成于 2011 年，沒有包含家庭富裕或貧困資訊。最近的國家生活水準調查僅僅涵蓋了一部分家庭。

在這種情況下，Novissi 項目的援助資格根據 2019 年末更新的國家選民登記系統中包含的資料來确定。但遺憾的是，這種方法無法将多哥最貧困家庭納入 Novissi 項目的援助範圍。

該研究旨在幫助多哥政府将 Novissi 項目的援助範圍從首都洛美的非正式工作者擴充到鄉村地區的更貧困人群，在實作過程中還要滿足多哥政府的兩個既定政策目标：将援助引向該國最貧困的地理區域；優先向這些地理區域的最貧困手機使用者配置設定援助。

基于此，研究者使用機器學習算法分析了從衛星到手機網絡上的非傳統資料，并最終提升了最貧困手機使用者人群的目标确定。

對手機使用者進行調查，确定使用者财富和消費水準

第一步将機器學習算法用于高分辨率衛星圖像，以獲得多哥每 2.4 公裡 × 2.4 公裡區域财富微觀估計。這些估計提供了每個小網格單元中所有家庭相對财富，之後對這些網格單元進行人口權重平均，進而得出多哥最小行政單元财富估計。

第二步通過機器學習算法對多哥兩家行動電話營運商提供的行動電話中繼資料進行處理，以估計每個行動電話使用者的平均日消費。

具體而言，該研究從多哥兩家移動網絡營運商那裡獲得了 2018-2021 年特定時間段的手機中繼資料（呼叫詳細記錄 (CDR)）。該研究重點關注移動網絡資料的三個分段片：2018 年 10 月至 12 月、2019 年 4 月至 6 月和 2020 年 3 月至 9 月。CDR 資料包含以下資訊。通話：來電者電話号碼、接收者電話号碼、通話日期和時間、通話時長、撥打電話的基站 ID；SMS 消息：發送方電話号碼、接收方電話号碼、消息的日期和時間、發送消息的天線 ID；移動資料使用：電話号碼、交易日期和時間、資料消耗量（上傳和下載下傳相結合）；移動貨币交易：發送方電話号碼、接收方電話号碼（如果是點對點）、交易日期和時間、交易金額以及交易類型的廣泛類别（現金、現金、點對點或賬單支付）。

該研究對具有代表性的手機使用者進行了調查，并用這些調查來衡量每個使用者的财富或消費，然後将基于調查的估計與每個使用者使用手機曆史的詳細中繼資料相比對，采用有監督機器學習算法對樣本資料進行訓練，通過手機使用來預測使用者财富和消費水準。這第二步與傳統的代理生活狀況調查 ( proxy means test，PMT) 類似，但有兩個主要差別：該研究使用手機特征的高維向量而不是資産的低維向量來估計财富；該研究使用旨在最大化樣本外預測能力的機器學習算法，而不是最大化樣本内拟合優度的傳統線性回歸。

大家比較關心資料隐私問題，為了保護擷取到的資料機密性，該研究在分析之前通過将每個電話号碼哈希編碼為唯一 ID 來對 CDR 進行化名。這些資料存儲在大學伺服器上，設定了通路權限。在将 CDR 記錄與調查回複進行比對之前，該研究在電話調查中獲得了所有研究對象的知情同意。

精準評估

該研究對這種将機器學習和手機資料相結合方法稱為基于手機的方法。通過比較該方法與反事實方法下的定位誤差：政府在 2020 年夏天試行的一種地理定位方法（多哥 admin-2 極，即多哥各縣的貧困地圖，40 個縣），貧困州（多哥 admin-3 級，397 個州）；基于職業的定位（包括 Novissi 針對非正式勞工的最初定位方法，以及針對該國最貧窮職業類别的最佳方法）。

該研究想要實作幫助 100 個最窮州的最窮的人，研究發現，相對于多哥政府的其他可行目标定位方法，基于電話的目标定位方法大大減少了排除誤差和包容錯誤（errors of inclusion）（非窮人被錯誤地認為有資格），如圖 1a 和表 1 所示。

使用 PMT 作為真實貧困狀況的衡量标準，基于電話的定位（曲線下面積 (AUC) = 0.70）優于針對農村 Novissi 援助的其他可行方法（例如，地域範圍定位的 AUC = 0.59-0.64）。

圖 1：Novissi 目标與替代目标的比較

表 1。

更多細節内容請閱讀原論文。

AI分析手機實作精準扶貧：伯克利研究登上Nature

繼續閱讀

MotorNerve：一種使用機器學習的角色動畫系統【GDC 2024】

用Python預測黃金期貨價格走勢,原來機器學習這麼簡單!(内含代碼)

利用機器學習模型，建構量化擇時政策（附全流程代碼）

盤點量化交易領域10大常用高效機器學習算法（附執行個體源碼）

重整化群遇見機器學習：多尺度視角探索複雜系統内在的統一性

中金 | 機器學習系列（1）：使用深度強化學習模型探索因子建構範式

AI幻覺：機器學習中的視覺錯覺與認知挑戰，對創新的協同中作用

大資料、人工智能和機器學習：競選活動的範式轉變

瑞士生物科技公司Bionomous創新結合微工程設計與機器學習，開發全自動微型生物實體篩選分類和配置設定裝置 | 瑞士創新署中國營

2024中國網際網路發展創新與投資大賽（開源）登陸2024全球機器學習技術大會

機器學習與人力資源管理碰撞

機器學習之K近鄰算法基本原理

機器學習之支援向量機算法

機器學習算法在移動遊戲充值監控的應用

技術應用 | 機器學習模型可解釋性在銀行智能營銷場景的應用實踐

最高170W的性能！聯想頂級移動圖站上新啦近日，聯想ThinkPadP系列終于更新——ThinkPadP16AI2024