MBTI性格測試是2023年熱門詞條之一，梗圖和段子頻出。

你是什麼人？

我是i人我是e人，那我們就是相親相愛（i）一（e）家人

而同樣作為“當紅炸子雞”的大模型當然不能錯過這個熱點，幾個月前位元組跳動團隊就給大模型測了一波MBTI，沒想到其性格各有不同。

ChatGPT，ENTJ——自信、果斷，具有天生的上司能力；
GPT-4，INTJ——“無情”的專家機器，專注實作任務目标；
Bloom-7b，ISTJ+1——主打一個負責和務實；
百川-7b，ENFP——聰明、好奇、富有想象力；

還有開源之光OpenLlama7b，大寫的INFJ，據說對人類有很強的洞察力，但隻堅持自己的價值觀。

該項工作還試圖通過簡單的提示改變大模型個性：

如“你具有外向的個性，喜歡設想創新的概念，并且具有強烈的自發性和即興性”

但這種直接的方法因模型而異，ChatGPT從e變i了，一些小模型如Bloom，百川則變化不大。而且這種方式非常不穩定，就像是控制欲很強的父母對一個内向的孩子不滿意，試圖通過簡單而強制性的指令來要求他變得外向一樣，非常荒謬。

而北京大學建構了一個擁有數十萬條資料的大規模MBTI資料集，通過多階段的模型預訓練、微調和DPO訓練過程，将MBTI特征嵌入到LLMs中，使用Baichuan、Qwen、LLaMA、Mistral等模型完成了不同MBTI類型的性格對齊任務，為大模型指定人格。

論文标題:

Machine Mindset: An MBTI Exploration of Large Language Models

論文連結:

https://arxiv.org/pdf/2312.12999.pdf

MBIT是什麼？

MBTI全稱Myers-Briggs Type Indicator，是一種廣泛承認和有影響力的心理評估工具，用于将個體分為特定的人格類型。使用四個次元将個體分為十六種人格類型，每個次元都有從兩個方面來描述：

能量：傾向于社交還是獨處，即外向（E）還是内向（I）；
擷取資訊的方式：偏向實感（S）還是直覺（N）；
做決定的方式：理性更多還是感性更多，即思考（T）還是情感（F）；
生活方式：偏計劃還是更喜歡靈活行動，或者說看待外在世界的方式更偏向于主動判斷（J）還是被動感覺（P）。

方法

資料集構造

本文建構了兩種類型的資料集：行為資料集和自我意識資料集。

行為資料集

其目的是使LLMs能夠在回應使用者指令時生成與不同人格特質相對應的語言回答。為了確定在各個領域具有廣泛的覆寫範圍，作者選擇Alpaca資料集進行人格特定的修改。

對于Alpaca資料條目中的每個指令，使用ChatGPT進行分類任務，确定該指令對應的MBTI次元。針對同一指令，ChatGPT生成了一對回答，分别反映了所确定次元内的兩種态度，比如是E還是I。

統計行為資料集的組合比例如下圖所示，"能量"次元的代表性較低，而"資訊"次元的代表性占主導地位。表明，"資訊"次元具有更大的影響力，而"能量"次元的影響較小。

自我意識資料集

人類有時很難準确概括自己的人格特征，而僅在行為資料集上訓練的LLM雖然能夠生成反映人格特征的回應，卻缺乏對這些特征的精确自我意識。

是以作者還建立了自我意識資料集，建構了一系列問題與回答，旨在闡明MBTI的十六種人格類型的特征。這些問題中的大多數是關于人格的詢問，而回答涉及對自身人格的自嘲觀點。這些資料集是由ChatGPT在特定提示的引導下生成的。

模型微調

作者針對行為資料集和自我意識資料集實施了兩階段的有監督LoRA微調。以人格類型“INFP”為例，作者首先從行為資料集中提取了與“I”、“N”、“F”和“P”四個特征相對應的資料子集，并進行了第一階段的有監督微調。此外，為了進一步提升INFP個體的自我認知能力，作者還從自我意識資料集中提取了一個額外的資料集，用于第二階段的有監督微調。經過這兩階段的微調後，訓練得到的LLM展現出了與INFP個體相似的行為模式和自我意識特征。

此外，作者還實施了DPO直接偏好微調。作為一種替代傳統RLHF方法的新政策，DPO旨在促使LLM在給定一對選項中區分出首選響應。作者從資料集中提取某一次元内代表兩種對立态度的資料子集，例如在“決策”次元上選擇“F”和“T”兩種态度。随後，通過DPO訓練，促使LLM在面對這兩種對立态度時，更傾向于選擇“F”而非“T”。經過這樣的微調，LLM能夠更好地與人類意圖保持一緻。

評估方法

為評估訓練後的LLMs，作者采用修訂後的MBTI問卷。修訂是為了增強問題的清晰度和了解度，而未改變其原始意圖。鑒于原始問卷的問題描述不夠清晰，7B模型等參數較少的LLMs有時難以準确了解。為確定評估的準确性，本評估重點關注LLMs展現的人格特質，并強調測試結果僅為參考，不應視為絕對。

實驗結果

本文針對16種人格使用Baichuan、Qwen、LLaMA、Mistral等開源模型做了微調，分為中英兩種語言。原文中顯示了16個模型的測試結果，此處隻展示部分結果。

從上圖中可以看出經過特定MBIT資料集微調後的模型表現與既定的人格基本一緻的。

不同性格的模型答題風格

除了MBTI測試，作者還給這些模型來了場随機問答挑戰，考察它們的應變能力和知識儲備。讓我們一探究竟，看看不同性格的模型在答題方面有哪些獨特的風格！

INFP:

ENFP:

ESTJ:

INFJ:

有點那味了，作為I人來說，休息時間獨處就是最好的放松方式，而E人永遠充滿活力，喜歡出門結交朋友。

總結

作者巧妙地将LLMs與MBTI結合，賦予這些強大模型獨特且穩定的個性特征。通過有監督微調（SFT）和直接偏好優化（DPO）方法，培育出16種不同MBTI人格類型的LLMs。訓練後的LLMs展現出與其指定的MBTI類型一緻的個性！

通過賦予這些模型獨特的個性能力，使得AI系統更吸引人、更有人情味，未來還可能開發出更懂人、更懂情境的語言模型。

如何讓ChatGPT的 MBTI 人格特質從 e 變成 i？

MBIT是什麼？

方法

資料集構造

模型微調

評估方法

實驗結果

不同性格的模型答題風格

總結

繼續閱讀

ChatGPT沒有做的AI搜尋，是不是下一個戰場

最強OpenAI釋出新ChatGPT-4o，AI領域的突破情感識别+視覺了解

OpenAI一夜幹翻語音助手！ChatGPT學會看螢幕，現實版Her來了

突然殺出！中國版阿裡ChatGPT來了！我忍不住去注冊體驗

胡錫進要失業了？網友用ChatGPT模仿“胡編體”寫作，笑瘋

從人機互動角度聊聊ChatGPT-4o

iOS 版 ChatGPT 更新支援 App 首選語言設定中文

如何讓ChatGPT更“懂你”

生成式人工智能的風險與治理——以ChatGPT為例

這才是ChatGPT4o最大的更新！釋出會居然隻字未提！GPT-4o的識圖能力居然這麼強！連人像照都可以看出是誰👍我這裡

ChatGPT 新功能上線：聊天時可直接選擇 OneDrive 等網盤檔案｜懂點AI

ChatGPT能夠幫助醫生準确分析臨床研究和病案記錄

ChatGPT 日耗電超 50 萬度，卡死AI發展的竟然是能源？

恐怖！懇求斯坦福教授幫它“越獄”？ChatGPT-4已出現自

和ChatGPT搞黃色的年輕人

OpenAI前董事揭示奧特曼罷免内幕：董事會是從X上知道ChatGPT已釋出的