天天看點

人工智能訓練師:讓機器更“懂”人類

作者:光明網
人工智能訓練師:讓機器更“懂”人類

圖為付聰在路邊采集聲音資料。

張嘉幸/攝

打開電腦,将采集的風聲、雨聲、溪流聲等聲音資料輸入,“清洗”掉夾雜其間的噪音,對助聽器資料模型進行“訓練”,測試模型在真實場景的靈敏度……伴随着手指敲擊鍵盤的“啪嗒啪嗒”聲,騰訊天籁實驗室人工智能訓練師付聰一天的工作就此開始。

近幾年,随着人工智能技術不斷發展,這個被稱為人工智能訓練師的職業逐漸壯大。作為“數字職業”之一,人工智能訓練師的出現,加速了人工智能由技術研發走向行業應用的過程,将産生較高的經濟價值和社會價值。

為模型不斷“喂”資料

每次出門時,付聰總會在耳朵上戴一個大“耳環”。

這個“耳環”其實是一個測試版的助聽器。“耳環”裡的聲音各式各樣,有呼呼的噪聲,有尖銳刺耳的吵鬧聲……這些經過助聽器放大後産生的噪聲,是很多佩戴助聽器的聽障人士長期面臨的困擾。

付聰和他的團隊正在嘗試利用算法設計、通過人工智能技術“訓練”資料模型,讓助聽器更加“智慧”地降低噪聲,讓聽障人群聽得清、聽得懂、聽得舒服。

付聰解釋說,助聽器資料模型很小,是以需要針對不同場景進行優化,很多場景充滿挑戰,“比如一個聽障人士在餐廳吃飯,周圍有很多人說話,他想跟對面的人聊天,四周聲音特别嘈雜,作為一個正常人都可能聽不清楚,更何況一個有聽力障礙的人?我們希望利用模型,把需要的聲音提取出來,降低噪聲,幫助更多聽障人群”。

理想很豐滿,但是實際的模型算法研發過程卻像是一場反複進行的“戰役”。

模型的研發過程大緻分為以下幾步:資料采集、資料“清洗”、模型訓練、場景測試、調整算法,經過幾次疊代之後再測試、調整,“如果測試結果不理想,需要把這個過程再走一遍,直到得到最優效果”。付聰說。

資料采集要有針對性。為了讓模型更“聰明”,需要針對不同場景采集各種特殊資料。付聰和團隊成員不僅需要到早晚高峰的地鐵、熱鬧喧天的餐廳、人來人往的馬路等場景,采集數百個小時的聲音資料,還要戴上助聽器體驗這些聲音的差别,“比如風聲,正常人聽到是呼呼聲,但戴上助聽器以後,是很吵的噗噗聲,像是去KTV唱歌,聲音使勁砸到麥克風上”。道路騎行、海邊風浪……為了采集各種風噪資料,付聰錄制了多種場景的風聲。

資料“清洗”是将不需要的資料“洗掉”。付聰舉了一個例子——風聲,真實場景下會夾雜汽車鳴笛、人交談等聲音。在整理時要把這些資料剔除出來,保留一個比較純粹的風聲,這樣模型才會“認識”風。

模型訓練是将“清洗”好的資料“喂”給模型。除了采集的特殊資料,付聰和他的同僚們還會加入諸如世界各國的語言和一些非語音聲音等資料,“基本涵蓋了人們生活中遇到的所有噪聲和語音”。

和人類不同,人工智能模型在訓練過程中,不會疲憊、煩躁、發脾氣,它們的“智慧”取決于模型參數、訓練政策、資料量等。“它們就像一個‘孩子’,會越來越‘聰明’,識别到越來越多的聲音,我特别有成就感。”付聰說。

考驗耐心、細緻和忍受力

模型訓練完成後,并不意味立刻能應用到聽障人群的助聽器上,還要經曆較長時間的疊代、調整過程。

比如,為了讓聽障人群适配到合适的助聽器,傳統方式是患者反複到線下的驗配店去試戴,過程繁雜。付聰解釋說,一般情況下,根據發病原因不同可以将聽力下降分為三類:感音神經性、傳導性、混合性耳聾;根據聽力下降的程度不同,分為輕度、中度、重度及極重度耳聾。針對不同的類型,助聽器的适配方式有所不同。

有沒有可能把适配過程搬到“線上”,利用人工智能算法和深度學習能力,讓聽障人群線上上就能做準确的聽力驗配?帶着這個疑問,付聰開始研發适配算法。他将這個過程比喻為做應用題,需要查詢國内外文獻、檢索現有方案,根據具體的使用環境,利用現有知識開展合理想象、設計實驗、尋找答案。

這個過程考驗人工智能訓練師的耐心、細緻。在測試助聽器音質時,不同的佩戴方式,對應不同的測試結果。付聰和同僚需要以“N×N”排列組合設計不同的佩戴方式,并且不斷重複試驗,來研究其對音質産生的影響。

這個過程十分考驗人工智能訓練師的忍受力。“一個人工智能訓練師的基本素養,就是強迫自己聽很多次刺耳的聲音。”付聰表示,這是因為訓練師需要定量衡量聽障患者能正常聽到的聲音極限點,而這些聲音的分貝數是正常人耳難以忍受的,“很多時候恨不得把耳機摔掉。經過一天測試,整個腦袋都感覺疼”。

經過不斷疊代、調整,内置了算法的助聽器終于完成了。最讓付聰難忘的是他們第一次到廣東韶關捐贈産品,他們把助聽器挨個交到聽障老人手上,開機、戴裝置、調整增益……“雖然我對模型很有信心,但當時還是感覺心提到了嗓子眼,因為在此之前,老人們是無法正常交流的。”付聰說。

他小心地詢問一個老人:“您能聽到我在說什麼嗎?”

“可以了。”老人緩慢而又堅定地從口中說出3個字。

“那時候我覺得,我們做的這個事情挺有意義的。”付聰說。

用技術解決人類需求

人工智能訓練師是一個需要忍受孤獨的職業,因為他們大量的時間是在設計方案、寫代碼、采集資料、訓練模型中度過的。

“我戰勝孤獨的秘密是興趣。”付聰的專業是通信,其中很多課程和信号處理相關,他平時比較喜歡音樂,是以就将自己的興趣和專業、工作結合起來,聚焦音頻領域,大學畢業後參與了很多有關音頻信号處理的工作,經曆了音頻算法從傳統算法到人工智能算法,再到大規模深度學習的各個階段。

在付聰看來,人工智能技術是一個很好的工具,目的是将人類從很多腦力勞動中解放出來,用規模化的方式去替代目前成本較高的個體勞動。對整個社會而言,這是一種生産力的進步,有着巨大的社會價值和商業價值。

成熟的人工智能技術是什麼樣?付聰認為需要經過3個階段:一是感覺智能,核心在于模拟人的視覺、聽覺和觸覺等感覺能力,比如人臉識别、語音識别等;二是認知智能,具有人類思維了解、知識共享、行動協同或博弈等特征,“能夠真正了解人在說什麼,根據一些提示,提供相對完整的回答”;三是行為智能,也就是像自動駕駛一樣,真正可以在實體世界發揮作用。

達到這樣的目标,需要對人工智能模型不斷進行訓練。付聰表示,首先需要針對問題準備足夠多的資料,“多到盡量涵蓋解決這個問題時所遇到的所有情形”;其次需要設計很好的算法,并根據使用者回報不斷優化。

“人工智能技術領域日新月異,要求人工智能訓練師有廣闊的視野、深厚的人文情懷和社會責任感,用業界最新想法、理念和正确的倫理觀來幫助人類解決生産生活中遇到的問題。”付聰說。(彭訓文 張嘉幸)

來源: 人民日報海外版

繼續閱讀