一、前言
Meta AI 近期的重磅動作頻頻不斷,短短一個多月的時間接連釋出了一系列開源大模型,下面我們看看都有哪些有影響力的産品。
2023 年 7 月 14 日
Meta AI 隆重推出 CM3leon,這是一款首個多模态模型,可實作最先進的文本到圖像生成性能,計算效率是競争模型的 5 倍。
2023 年 7 月 18 日
Meta 和 Microsoft 推出下一代 Llama,Llama 2 可免費用于研究和商業用途。
Llama 2 是 Meta 的開源大語言模型 (LLM)。這基本上是 Facebook 母公司對 OpenAI 的 GPT 模型和 Google 的 AI 模型(如 PaLM 2)的回應,但有一個關鍵差別:它幾乎可以免費供任何人用于研究和商業目的。2023 年 8 月 16 日
2023 年 8 月 2 日
Meta 的母公司 Facebook 推出了一款名為 AudioCraft 的新型生成式人工智能工具,該工具允許使用者使用文本提示建立高品質的音頻和音樂。該工具包括音頻模型MusicGen、AudioGen和EnCodec,可以根據文本提示生成音樂和音頻。
AudioCraft 由三個模型組成:MusicGen、AudioGen 和 EnCodec。 MusicGen 使用 Meta 擁有且專門授權的音樂進行訓練,根據文本提示生成音樂,而 AudioGen 使用公共音效進行訓練,根據文本提示生成音頻。
2023 年 8 月 23 日
Meta AI 隆重推出 SeamlessM4T,這是第一個一體化多語言多模式翻譯模型。這個單一模型可以根據任務執行多達 100 種語言的語音到文本、語音到語音、文本到文本翻譯和語音識别任務。
同日,MetaAI 的新 SeamlessM4T 模型現已在 Hugging Face 上提供!
2023 年 8 月 24 日(計劃)
據The Information報道,Meta計劃于本周四(8月24日)釋出開源代碼生成AI模型 Code Llama。該模型旨在幫助開發人員在編寫代碼時自動推薦代碼片段,以提升開發效率,同時也旨在使公司更便于建立AI助手。
今天,我們将主要介紹 SeamlessM4T 多語言多任務的模型。
二、關于 SeamlessM4T
Meta AI 于 2023年8月23日釋出了一款名為SeamlessM4T的AI開源語言翻譯模型,它可以幫助使用者将近100種語言進行轉錄和翻譯。這款模型是基于Meta的AI技術開發的,可以幫助使用者更快、更準确地翻譯各種語言。 Meta AI 聲稱,經過數十億個句子和數百萬小時的語音資料的訓練,它在嘈雜的轉錄和不太常見的語言方面優于現有模型。
SeamlessM4T 通過解決有限語言覆寫範圍和依賴單獨系統的挑戰,代表了語音到語音和語音到文本領域的重大突破。
SeamlessM4T 大型模型可以在Google Colab 提供的免費 T4 VRAM上運作,在 T4 上占用大約 6GB VRAM,感興趣的可以快速體驗一下,Colab位址在文末處。
SeamlessM4T是一種基礎的多語言和多任務模型,可以無縫翻譯和轉錄語音和文本。 SeamlessM4T 支援:
- 自動語音識别近百種語言
- 近 100 種輸入和輸出語言的語音到文本翻譯
- 語音翻譯,支援近100種輸入語言和35種(+英語)輸出語言
- 近 100 種語言的文本到文本翻譯
- 文本轉語音翻譯,支援近100種輸入語言和35種(+英語)輸出語言
與級聯方法相比,SeamlessM4T 的單一系統方法減少了錯誤和延遲,提高了翻譯效率和品質,提供了最先進的結果。
關于SeamlessM4T 模型,使用多任務UnitY模型架構,它能夠直接生成翻譯後的文本和語音。這種新架構還支援自動語音識别、文本到文本、文本到語音、語音到文本和語音到語音翻譯,這些功能已經成為普通 UnityY 模型的一部分。多任務 UnitY 模型由三個主要的順序元件組成。文本和語音編碼器的任務是識别近 100 種語言的語音輸入。然後,文本解碼器将該含義轉換為近 100 種文本語言,然後使用文本到單元模型将其解碼為 36 種語音語言的離散聲學單元。對自監督編碼器、語音到文本、文本到文本翻譯元件和文本到單元模型進行預訓練,以提高模型的品質和訓練穩定性。然後将解碼的離散單元轉換為使用多語言 HiFi-GAN 單元聲碼器進行語音。
SeamlessM4T是一款非常先進的AI翻譯模型,它采用了最新的深度學習技術,可以實作高精度的翻譯。這款模型還具有很強的自适應能力,可以根據使用者的需求進行自動調整和優化,進而提供更好的翻譯效果。
除了翻譯外,SeamlessM4T還可以幫助使用者進行語音轉錄和文字轉錄。這意味着使用者可以通過該模型将語音或文字轉換為任何一種支援的語言。這對于那些需要跨語言溝通的人來說非常有用。
SeamlessM4T的應用場景非常廣泛。例如,在國際貿易、旅遊、教育等領域,SeamlessM4T可以幫助人們更好地進行跨語言交流。此外,在政府、醫療等領域,SeamlessM4T也可以發揮重要作用。
三、總結
總之,SeamlessM4T是一款非常強大、先進的AI翻譯模型,它可以幫助使用者更好地進行跨語言交流。如果你需要進行跨語言溝通,那麼SeamlessM4T絕對是一個值得嘗試的工具。
四、References
SeamlessM4T GitHub Repo
https://github.com/facebookresearch/seamless_communication
SeamlessM4T Pager
https://ai.meta.com/research/publications/seamless-m4t/
SeamlessM4T News
https://ai.meta.com/blog/seamless-m4t/
Hugging Face Space
https://huggingface.co/models?search=facebook/seamless-m4t
SeamlessM4T Demo
https://seamless.metademolab.com/demo
SeamlessM4T Colab
https://github.com/camenduru/seamless-m4t-colab