天天看點

ACL2023 | 賠了?引入GPT-3大模型到智能客服,竟要賠錢?

作者:夕小瑤科技說
作者 | 小戲、Python

關于大模型的商業落地,一個非常容易想到的場景就是智能客服,作為不止是大模型也是 NLP 領域的一個最主要的應用場景,由于人工客服的高昂成本,AI 客服伴随着模型技術的發展也逐漸走進我們的生活,在手機裡各種主要的 APP 幾乎都配備了一個智能客服。

而以 Chat 命名的大規模語言模型(LLMs)似乎天然的适配智能客服的應用場景,大模型驅動的智能客服也是一個非常具有想象力的落地方向。但是,在今年的 ACL 2023 中,來自對話式 AI 科技公司 LivePerson 的研究人員針對大模型“取代”客服工作算了一筆經濟賬,結果發現,用 GPT-3 等大模型做智能客服的 Backbone 反而有可能要賠錢?

ACL2023 | 賠了?引入GPT-3大模型到智能客服,竟要賠錢?

大模型的壁壘,也是大模型當下一個不可回避的問題,可能就是它高昂的訓練與響應成本,使用 GPT-2 與 Nvidia A100 GPU 進行單次響應的成本約為 0.0011 美分,而如果這個模型換為基于 GPT-3 的 Davinci 模型,使用 OpenAI 的 API 的單次響應成本則将會變為 1.1 美分。而這種成本測算方式的一個突出問題就在于,顯然這種粗略的 API 成本可能與企業商業使用的成本具有明顯差別,同時這個成本也必然會伴随着大模型的高速發展而不斷發生變化。并且,在許多大模型的應用場景中,并非是直接調用原始的大模型 API,而是需要在落地場景下對大模型進行比如 Prompt 調用層面的“微調”,是以針對大模型使用成本的測算将會成為一個突出的問題。

也是以,這篇論文提出了一個期望淨成本節約(Expected Net Cost Savings,ENCS)的架構,期望測算各種 LLMs 與不同品牌下大模型部署者節省的成本與花費的成本的綜合關系,也正是通過這個 ENCS 架構,作者團隊通過一個案例研究發現,使用一些較小的模型,比如 GPT-2 完成推理與響應的任務,其成本節約效果要優于 GPT-3,其核心原因在于盡管損失了一部分“響應品質”,但是卻大大降低了其“響應成本”,這表明,目前這些大模型的響應成本對于實際使用的客戶而言還是過高,無法真正實作成本的節約。

ENCS

首先來看一下這個期望淨成本節約 ENCS 是如何進行測算的,ENCS 的整體測算流程可以從下圖中看出,更一般的說,ENCS 測算的是大模型生成的每個響應生效或被使用的機率 P(U) 乘以每個對大模型響應的使用帶來的費用節省 SU,減去生成該響應的成本,即:

而如果再細化一點,如果對大模型生成的響應不直接使用而是進行編輯或是“忽略”時(忽略一般可能帶來負的費用節省),可以将上式修正為:

此處的 SU,SE,SI 等均可以從人類客服的每小時費用 R 與人類客服響應時間 Tr 與接受、編輯與忽略響應時所花費的時間進行估計:

一個簡單的面對大模型的響應有可能的三種動作接受、編輯與忽略計算 ENCS 值的小例子如下圖所示:

ACL2023 | 賠了?引入GPT-3大模型到智能客服,竟要賠錢?

案例研究

論文針對一家匿名零售商(AR)展開了案例研究,AR 的客戶群體主要由在 AR 平台進行買賣的商家與消費者組成,AR 雇傭的專業人類客服會接受專業的教育訓練,可以就不同的客戶及各種不同的問題做出專業的回複。AR 共計雇傭約 350 名客服,平均每月發送 100000 條消息,約進行 15000 輪對話。

通過該零售商提供的對話資料,論文建構了一個針對 AR 零售商的定制訓練資料集(Brand)與一個問題的通用資料(General),采用三種主流的訓練政策——Prompt Engineering, Fine-tuning 以及知識蒸餾,對 11 種主流模型進行了訓練:

ACL2023 | 賠了?引入GPT-3大模型到智能客服,竟要賠錢?

為了擷取針對這些“智能客服”回答響應的“有用程度”,論文采用專家打分的方式,對這些模型的每個對話進行了接受、編輯與忽略的評分判斷,哪怕對于人工客服,人們也并不總是接受他們的回複,而在智能客服中,基于 GPT-3 的模型表現最佳。

ACL2023 | 賠了?引入GPT-3大模型到智能客服,竟要賠錢?

假設一個人工客服每小時的成本為 10$,即 SU=SE=SI=10,每條消息平均需要 30 秒,而使用 LLMs 可以節省 25 秒,GPT-2 的模型生成成本為 0.002 美分,使用 Distilled GPT-2 需要 0.0011 美分,使用 OpenAI 的 API 成本為 1.09 美分,使用微調模型的成本為 6.54 美分,使用 Cohere 的 API 的成本為 0.25 美分,使用微調模型的成本為 0.5 美分。通過使用 ENCS 評估各個模型的“成本節約力度”,結果如下圖所示,可以看出具有更高響應品質的 GPT-3 反而會造成負的 ENCS 值,即不僅不會為企業帶來成本的節約,甚至還會加重企業成本的負擔。

ACL2023 | 賠了?引入GPT-3大模型到智能客服,竟要賠錢?

具體而言,AR 零售商使用 GPT-2 BFT BD 單條消息可以節省 4.47 美分,根據 AR 每年的消息數量 1200000 條來計算,使用 GPT-2 模型可以節約 53653 美元,而使用 GPT-3 模型則可能要虧損約 18691 美元。

針對計算得到的 ENCS,可以為每個模型計算得到一個盈虧平衡點,如下圖所示,當綠色線(勞動力成本節約)與紅色線(模型建設投入)相交時達到盈虧平衡,可以得到,對于一個每年消息總量約 500000 條的小企業而言,使用大模型建構智能客服必須快速的降低前期的研發成本,而對于一個每年約有 2000 萬條消息的大企業而言,使用大模型建構智能客服才會真正帶來成本節約。

ACL2023 | 賠了?引入GPT-3大模型到智能客服,竟要賠錢?

總結與讨論

這篇論文針對大模型應用在智能客服領域的商業場景進行了細緻深入的研究,同時提出了一種評估大模型響應到底帶來了多少“成本節約”問題的分析架構 ENCS,給出了一個有點反直覺但是又十分合理的結論——在當下大模型的應用成本仍然較高,隻有大企業的大體量帶來的規模效應才有可能有動力去完成大模型的實際部署,對于小企業而言大模型的應用成本仍然過高。不過這些分析也主要試圖提供一些管理、決策之上的洞見,在更細緻的成本測算之上還有許多工作需要去做,當然,最後,這些洞見不僅呼喚着大模型的技術進步為我們帶來成本的降低,也呼喚着一些第三方平台企業的出現解決一些小企業用不起大模型的現實問題,且讓我們期待一下大模型未來的進步吧!

論文題目:

The economic trade-offs of large language models: A case study