大語言模型能否識别假新聞？一項研究對ChatGPT等模型進行了評估

作者：科技時壇 2023-07-18 13:59:00

近年來，假新聞和網絡謠言成為了一個嚴重的社會問題，不僅影響了公衆的認知和判斷，也威脅了社會的穩定和安全。為了應對這一挑戰，許多研究者和開發者嘗試利用人工智能（AI）技術來輔助事實核查和資訊驗證。

美國威斯康星州立大學的研究者Kevin Matthe Caramancion最近進行了一項研究，評估了目前最知名的四個LLM，即Open AI的Chat GPT-3.0和Chat GPT-4.0、谷歌的Bard/LaMDA和微軟的Bing AI，在檢測新聞真假方面的表現。

他的研究結果發表在預印本伺服器arXiv上，為未來利用這些先進的模型來對抗網絡謠言提供了寶貴的參考。

Caramancion在接受Tech Xplore采訪時表示：“我最近的論文靈感來源于了解各種LLM在對抗網絡謠言方面的能力和局限性的需求。我的目标是嚴格地測試這些模型在區分事實與虛構方面的熟練程度，使用一個受控的模拟實驗和已建立的事實核查機構作為基準。”

他說：“我們使用了一個由100個經過獨立事實核查機構核實過的新聞項目組成的測試套件，來評估這些大語言模型的性能。我們在受控條件下向這些模型呈現每一個新聞項目，然後将它們的回應分為三類：真、假、部分真/假。我們根據這些模型與獨立機構提供的核實事實相比較的準确度來衡量它們的有效性。”

Caramancion發現，在100個測試項目中，四個LLM中隻有Bing AI能夠正确地識别出所有真實新聞，并且沒有将任何假新聞誤判為真實新聞。而其他三個LLM則表現出不同程度的錯誤率，其中Chat GPT-4.0是最差的一個，隻能正确識别出67%的真實新聞，并且将23%的假新聞誤判為真實新聞。

Caramancion認為，這些結果表明，目前的LLM還不能完全取代人類在事實核查方面的作用，而且需要更多的改進和優化。他建議，在使用這些模型時，應該結合其他來源和方法來驗證資訊，并且要注意它們可能存在的偏見和局限性。

他說：“我希望我的研究能夠引起人們對LLM在識别假新聞方面潛力和挑戰的關注，以及對它們在社會中的影響和責任的思考。我也希望我的研究能夠激發更多的研究者和開發者來探索和改進這些模型，使它們能夠更好地服務于人類的福祉。”

#人工智能 #大語言模型 #假新聞 #事實核查 #ChatGPT

繼續閱讀