天天看點

百度NLP | 智能寫作機器人:不搶人類飯碗,我們隻想人機協作

2016 年,百度全面發力内容生态領域,借助人工智能 (ai)、自然語言處理 (nlp)、深度學習 (deep learning) 等技術和百萬級别的使用者标簽,推出個性化資訊資訊流,與此同時,百度戰略級産品「百家号」2017 年預計将向内容生産者分成 100 億,以此鼓勵個人和機構入駐參與内容創作。

而在衆多内容生産者之中,一位特殊的「作者」顯得格外引人矚目——那就是在去年上線的百度智能寫作機器人(writing-bots)。據了解,目前百度智能寫作文章可涵蓋社會、财經、娛樂等 15 個大類,并可實作體育新聞、熱點新聞等多領域全機器創作。

百度NLP | 智能寫作機器人:不搶人類飯碗,我們隻想人機協作

圖 1:百度智能寫作機器人文章示例

而從目前寫作的文章來看,百度智能寫作機器人在語言組織、文法和邏輯處理方面都已具備了相當的能力,甚至可以熟練地使用專業術語對新聞事件進行分析,寫作品質幾乎可以貼近人類的水準。

那麼,百度智能寫作機器人究竟是如何寫稿的?未來機器寫作是否有望取代人類?帶着對這位「神秘作者」的好奇,我們與百度智能機器寫作團隊展開了一次對話,試圖揭開機器人寫作背後的奧秘。

q1. 為什麼會想到讓機器人寫稿?百度智能寫作機器人的研發背景是怎樣的?

答:2016 年,百度确立了「搜尋+資訊流」雙向智能适配的資訊分發 2.0 模式,由于資訊流産品和百家号的迅速發展,使用者資訊閱讀需求呈現出了較大的增長,與此同時,我們發現,一些使用者感興趣的内容,比如彩票、股票、旅遊等話題,卻很少有資訊文章涉及,因而存在着大量資源的短缺,于是我們就希望結合百度自然語言處理、大資料分析、人工智能等技術優勢,通過機器寫作的方式,聚合全網資訊和百度優質資源,快速生産文章滿足使用者的需求,實作使用者興趣點的快速(分鐘級快訊)、高效(省時省力)、高覆寫(中長尾)滿足和資訊内容的深度定制以及個性化推薦,進而在内容生态裡面幫助生态自建。

q2. 目前百度智能寫作機器人可以寫作哪些類型的文章?是否可以實作原創?

答:目前我們的智能寫作機器人産出的文章主要有三種類型:速報類、知識類和資訊聚合類。速報類,如比賽資訊、股訊快報等,對時效性要求比較高,需要瞬時将結果生成文章。知識類主要是科普類的文章,如教育(詩詞、曆史知識)、生活(菜單,保健知識)、旅遊等。知識類文章的資料内容主要來自百度的知識庫和全網優質資源,通過對優質資料資源的組織聚合和計算推理,為使用者提供更加豐富的知識和資訊。而資訊聚合類是基于全網實時資訊資料,根據使用者關注點,生成使用者感興趣的、以話題為中心的資訊文章,比如某一個電影熱映,我們會對電影的主演、之前的作品等資訊做一些擴充和盤點;對于熱點事件,我們會對事件的發展過程和關鍵資訊進行分析聚合,形成事件脈絡,便于使用者了解事件全貌等。這類文章是在現有的資訊資訊基礎上,重新智能聚合生成新的文章。

從技術方案上看,主要分為兩類:

一類是基于結構化資料、知識庫或優質資源直接生成的文章。速報和大部分知識類文章是基于這類技術方案。這類文章因為直接從資料通過分析聚合或知識推理生成原始稿件,是以可以說是原創。

另一類是在已有稿件的基礎上通過内容分析聚合生成的新的文章。大部分資訊聚合類文章,如話題盤點、事件脈絡、熱門要聞回顧等都屬于此類。因為是基于已有稿件内容創作新的稿件,是以可以看作是二次創作。當然,我們也可以在一篇文章的生成中結合上述兩種技術,進行混合創作。

q3. 百度智能寫作在技術上是如何實作的,基本的創作流程是什麼?

答:我們的智能寫作整體是基于大資料分析、内容了解和自然語言生成等技術得以實作的,基本創作流程主要分為資料采集、資料分析、自動寫稿、稽核簽發等環節。其中核心流程「自動寫稿」部分通常還包括文檔規劃(document planning)、微觀規劃(micro-planning)和表層實作 (surface realization) 三個階段,分别解決稿件寫什麼、怎麼寫以及如何潤色呈現的問題。比如文檔規劃,需要确定寫什麼内容,采用什麼結構來寫,微觀規劃則更加細緻化,具體要确定怎麼來寫每個段落、每個句子、每個标題以及内部的結構組織等。表層生成,則是對文章整體的潤色和改寫,比如如何調整文章格式、給文章配圖等。

百度NLP | 智能寫作機器人:不搶人類飯碗,我們隻想人機協作

圖 2:百度智能文章生成過程

q4. 百度智能寫作有哪些特點和優勢?實際應用情況如何?

答:目前媒體報道的寫作機器人大多面向體育、财經等特定領域,我們的智能寫作文章類型更加多樣,覆寫的領域更為廣泛,并且可以實作個性化的推薦和訂閱。總體來說,實際的使用者需求、大規模資料資源,先進的技術積累,以及産品應用中的回報疊代,形成了百度智能寫作的獨特價值和優勢。

我們的智能寫作的文章類型和話題源于實際的使用者和産品需求。根據對資訊流産品内容分布和使用者興趣點分布的分析,我們确定了三類文章類型:速報類、知識類和資訊聚合類,分别用于改善産品中三類需求滿足問題:高時效性需求,中長尾需求,和熱點話題資訊的高效擷取需求。在具體話題的選擇上,我們根據使用者興趣點分布确定話題覆寫優先級。目前百度智能寫作的文章已經涵蓋電影,美食、旅遊、汽車、創業、房地産等 50 多個話題,涉及社會、财經、娛樂等 15 個領域。

百度在資料資源和人工智能技術方面的積累為智能機器寫作的研發提供了有力支援。

在資料方面,除了海量的全網優質資料,百度擁有大量的自建高品質資料,包括百度阿拉丁(優質資源開放平台)、百度知道、百度百科、知識圖譜等,不僅可以支援基于結構化資料的文章生成,還可以支援基于内容聚合方式的文章生成。百度阿拉丁的時效性結構化資料,如體育比賽、彩票、股票資訊、惡劣天氣預警等,是速報類文章生成的資料基礎。百度百科、百度知道和知識圖譜是知識類文章生成的重要資料來源。以百度百科中的城市百科為例,城市百科中包含了大部分城市的景點、美食、文化排行榜資料,這些資料與對應景點、美食的描述資料相結合就可以生成城市旅遊、美食、文化的介紹文章。同時,基于海量的使用者行為日志資料,可以準确地捕捉對這些内容感興趣的使用者,就可以實作生成内容的個性化推薦和滿足。

在技術方面,百度在内容了解、語言生成、知識推理、機器學習等方面的技術積累,是智能機器寫作的重要技術基礎。以資訊聚合類文章生成為例: 首先,聚合類文章的話題選擇和資訊内容擷取是基于内容了解和使用者了解技術。利用百度自建的關注點圖譜(主題、實體、事件标簽以及标簽間的關系)和标簽預測技術,我們為每篇資訊内容打上關注點标簽,同時根據使用者的搜尋或閱讀行為可以獲得使用者的關注點标簽,即使用者的興趣點。這樣就獲得了使用者感興趣的話題,同時基于内容标簽可以獲得相關話題的資訊内容。其次,基于内容了解和生成技術對于同一話題的内容進行壓縮和聚合,相關技術包括:事件分析,話題聚類,事件脈絡抽取,自動摘要,标題生成、結構生成等,而機器學習和知識推理是這些技術實作的基本方法。圖 3 以事件脈絡型文章的生成為例說明聚合類文章寫作中所依賴的主要技術。可以看到,百度深厚的技術積累為智能機器寫作提供了有力的技術支撐。

百度NLP | 智能寫作機器人:不搶人類飯碗,我們隻想人機協作

圖 3 事件脈絡型文章生成主要技術

目前,我們的智能寫作機器人在百家号和百度資訊流産品中已累計發文近萬篇,閱讀量超過千萬。圖 4 是智能機器人寫作的新聞執行個體,包括通用領域新聞,生活新聞,體育新聞等。随着産品的應用,我們可以積累更多資料和使用者回報,不斷實作技術的更新疊代。

百度NLP | 智能寫作機器人:不搶人類飯碗,我們隻想人機協作

圖 4:百度智能機器人寫作應用執行個體

q5. 智能寫作技術上最大的難點是什麼?百度未來是否會嘗試深度文章的撰寫?

答: 人類作者在撰寫文章時通常會對資料、内容和話題進行深入了解,并可以進行演繹、推理和聯想,進而完成更深入的報道,充分表達自己的觀點和立場。而相比之下,機器則更長于資料分析和規範的寫作,在自然語言深入了解,以及讓稿件具有觀點和立場等方面還有很大的提升空間。

在深度文章寫作方面,我們也在做一些探索和嘗試,比如情感分析等研究,力圖讓機器寫作更貼近人類,甚至希望有一天它能有自己的立場和觀點,更加人性化。但就目前而言,我們的智能寫作機器人會更聚焦使用者需求,偏重資料分析和客觀文章的撰寫,緻力于幫助内容創作者減少重複勞動,節省更多精力去撰寫更加優質的深度内容。

q6. 百度智能寫作機器人背後的團隊構成是怎樣的?

答:我們的智能機器寫作研發團隊成員來自百度阿拉丁團隊、nlp 團隊、知識圖譜團隊、網際網路資料研發團隊以及品質保證團隊等不同部門。研發初期主要通過小規模資料樣本和簡單的人工處理實作技術探索和原型設計,随着技術的進展和使用者需求的增長,産品、技術、資源、平台等多個團隊展開關聯,着手推進更加成熟的産品落地。

q7. 在内容創業迎來了新風口的當下,百度推出了戰略級産品百家号,并以百億分成鼓勵内容原創,如何看待智能寫作機器人與内容生産者的關系?百度智能寫作下一步的發展目标是什麼?

答:我們認為智能寫作機器人與内容生産者之間主要有兩層關系:一是「代替」,将作者的重複性、規範性寫作和客觀資料聚合類勞動用機器進行替代,讓作者可以更好的投入到深度文章的創作。二是「服務」,人工智能可以通過大資料幫助編寫深度文章的作者,進行語料、素材的高效率搜集與初級加工工作,同時也可以基于行業的深度結構化資料完成基礎資料分析及文章生成工作,服務于内容生産者,提升他們的寫作效率。而這也正是我們智能寫作的未來的發展目标——人機混合編輯。

q8. 百度智能寫作機器人與人類有哪些差異?未來是否會完全取代人類?

答:智能寫作機器人和人類相比可以說是各有所長,智能寫作首先肯定是速度快,可以在短時間内搜集大量資料和資訊完成創作,其次是有特别強的資料分析、收集能力。人一天看一百篇文章就很多了,但是機器則可以不知疲倦不停學習,随時随地收集和生産内容。盡管人類寫作相對機器而言,時間較長,成本也較高,但人可以對一個事件進行演繹、聯想,從更加豐富的層面上進行創作,表達自己的觀點和立場,因而在深度撰寫方面具有難以替代的優勢,是以在可預見的未來,我們認為機器完全取代人類的可能性不大,智能寫作機器人對于能夠深耕文章内容、有獨立觀點見解的内容創作者而言,不僅不會成為「搶飯碗」的替代者,反而會成為幫助作者生産優質内容的貼心助理。

本文來源于"中國人工智能學會",原文發表時間" 2017-04-12 "

繼續閱讀