天天看點

OpenAI多模态模型的破解。OpenAI的多模态模型能夠将不同的資訊來源或形式統一在一起,實作模态之間的轉換和統一,包

作者:機器人産業随想錄

OpenAI多模态模型的破解。

OpenAI的多模态模型能夠将不同的資訊來源或形式統一在一起,實作模态之間的轉換和統一,包括觸覺、聽覺、視覺、嗅覺等。這些資訊的媒介可以是語音、視訊、文字等。多模态模型能夠實作圖檔生成文字、圖檔相關推理、圖檔推理和數學推理、視訊推理等多種功能。它适用于故事生成、網頁、開發、圖檔稽核、視訊識别、作業答案生成等場景。

OpenAI的多模态模型采用了clip模型進行文本編碼和圖像編碼,并通過對齊它們的編碼向量實作統一。與開源模型相比,OpenAI的模型在訓練資料、算力和模型規模上具有優勢,整體效果更好。

OpenAI自用的視覺提取模型采用了更多高品質的資料進行訓練。訓練和對齊視覺與語言之間關系的幾個階段,主要包括預訓練和指令微調。在預訓練階段視覺和語言模态進行對齊,指令微調階段通過使用者自然方式提問問題來回答使用者問題。

訓練多模态模型需要使用英偉達的顯示卡,如A100或H100訓練一個約70,e 參數的模型通常需要使用多張顯示卡進行大約三天的訓練。在預訓練階段需要大量算力,而微調階段因為社群中有許多開源模型可用,所需算力較低。在推理階段可以使用一些成本較低的推理卡,例如英偉達的t4a20和A40。紫光展銳和寒武紀的推理卡也适用于語言模型或多模态模型的部署。

OpenAI多模态模型在處理圖檔了解和識别、圖檔推理和數學推理、視訊識别等場景中具有優勢。在圖檔相關推理方面,模型可以識别人物、評論圖檔、識别電影等。在數學推理方面,模型可以解答複雜問題,如數學題和作業題。

在視訊推理方面,模型通過提取視訊中的每一幀圖檔進行整體提取和訓練,可以了解視訊内容并給出回答。

OpenAI多模态模型的優勢包括模型體量更大、有更強大的推理能力、視覺提取能力更強等。然而由于視覺提取子產品的限制,模型在一些細節、文字和标記等方面仍然有識别困難。

OpenAI多模态模型的破解。OpenAI的多模态模型能夠将不同的資訊來源或形式統一在一起,實作模态之間的轉換和統一,包
OpenAI多模态模型的破解。OpenAI的多模态模型能夠将不同的資訊來源或形式統一在一起,實作模态之間的轉換和統一,包
OpenAI多模态模型的破解。OpenAI的多模态模型能夠将不同的資訊來源或形式統一在一起,實作模态之間的轉換和統一,包
OpenAI多模态模型的破解。OpenAI的多模态模型能夠将不同的資訊來源或形式統一在一起,實作模态之間的轉換和統一,包

繼續閱讀