AI July 22, 2024

Llama 3.1 是什麼


post-thumb
  • Meta 致力於開放可存取的人工智慧。閱讀Mark Zuckerberg 的信,其中詳細介紹了為什麼開源有利於開發人員、有利於 Meta、也有利於世界。
  • 我們的最新模型將開放智慧帶給所有人,將上下文長度擴展至 128K,增加了對八種語言的支持,並包括 Llama 3.1 405B——第一個前沿級開源 AI 模型。
  • Llama 3.1 405B 獨樹一幟,具有無與倫比的靈活性、控制力和最先進的功能,可與最好的閉源模型相媲美。我們的新模型將使社群能夠解鎖新的工作流程,例如合成資料生成和模型蒸餾。
  • 我們將繼續透過提供更多與模型配合使用的組件(包括參考系統)來將 Llama 建構成一個系統。我們希望為開發人員提供創建自己的自訂代理程式和新型代理行為的工具。我們透過新的安全工具(包括 Llama Guard 3 和 Prompt Guard)來支援這一點,以幫助負責任地建造。我們也發布了對 Llama Stack API 的評論請求,我們希望這是一個標準接口,能讓第三方專案更輕鬆地利用 Llama 模型。
  • 該生態系統已做好準備,並準備與超過 25 個合作夥伴合作,包括 AWS、NVIDIA、Databricks、Groq、戴爾、Azure、Google Cloud 和 Snowflake,第一天就提供服務。
  • 在美國,透過 WhatsApp 和meta.ai提出具有挑戰性的數學或編碼問題,嘗試 Llama 3.1 405B。
  • 直到今天,開源大型語言模型在功能和效能方面大多落後於封閉的同行。現在,我們正在迎來一個以開源為引領的新時代。我們公開發布 Meta Llama 3.1 405B,我們認為這是世界上最大、功能最強大的公開基礎模型。迄今為止,所有 Llama 版本的總下載量已超過 3 億次,我們才剛開始。

集仕多ChoozMo公司開發人工智慧AI客服,24/7 可用性:AI客服系統可以全天候運行,無需休息,確保客戶無論何時需要幫助都能得到即時回應。高效處理:AI能夠迅速處理大量的客戶詢問,減少等待時間,提高服務效率。一致性:AI系統能提供一致的回應,確保每位客戶都能得到相同質量的服務。成本效益:相較於人力客服,AI客服可以降低企業的運營成本,尤其是在處理簡單、重複性問題時。數據分析:AI可以收集和分析客戶互動數據,提供有價值的洞見,幫助企業改進產品和服務。多語言支持:AI系統可以輕鬆支持多種語言,服務全球客戶。無人值守學習:通過機器學習,AI客服可以不斷學習和改進自身性能,提供越來越優質的服務。個性化服務:AI能夠根據客戶的歷史互動記錄和偏好,提供個性化的服務和建議,增強客戶體驗。

駱駝 3.1 簡介

Llama 3.1 405B 是第一個公開可用的模型,在常識、可操縱性、數學、工具使用和多語言翻譯方面的最先進功能方面可與頂級人工智慧模型相媲美。隨著 405B 型號的發布,我們準備好加強創新,並提供前所未有的成長和探索機會。我們相信最新一代的 Llama 將激發新的應用程式和建模範式,包括合成資料生成以實現較小模型的改進和訓練,以及模型蒸餾——這種能力在開源中從未實現過這種規模。

作為最新版本的一部分,我們將推出 8B 和 70B 型號的升級版本。它們是多語言的,並且具有顯著更長的上下文長度(128K)、最先進的工具使用以及整體更強的推理能力。這使得我們的最新模型能夠支援高級用例,例如長文本摘要、多語言會話代理程式和編碼助理。我們還對許可證進行了更改,允許開發人員使用 Llama 模型(包括 405B)的輸出來改進其他模型。秉承我們對開源的承諾,從今天開始,我們將向社區提供這些模型,供社區在llama.meta.comHugging Face上下載,並可在我們廣泛的合作夥伴平台生態系統上立即開發。

模型評估

對於此版本,我們評估了 150 多個跨多種語言的基準資料集的效能。此外,我們還進行了廣泛的人類評估,將 Llama 3.1 與現實場景中的競爭模型進行了比較。我們的實驗評估表明,我們的旗艦模型在一系列任務上與領先的基礎模型具有競爭力,包括 GPT-4、GPT-4o 和 Claude 3.5 Sonnet。此外,我們的較小模型與具有相似參數數量的封閉式和開放式模型具有競爭力。

模型架構

作為我們迄今為止最大的模型,使用超過 15 兆個代幣訓練 Llama 3.1 405B 是一項重大挑戰。為了實現這種規模的訓練運行並在合理的時間內獲得結果,我們顯著優化了整個訓練堆棧,並將模型訓練推向了超過16,000 個H100 GPU,使405B 成為第一個在此規模上訓練的Llama 模型。

為了解決這個問題,我們做出了設計選擇,重點是保持模型開發過程的可擴展性和簡單性。

  • 我們選擇了僅進行少量調整的標準解碼器變壓器模型架構,而不是專家混合模型,以最大限度地提高訓練穩定性。
  • 我們採用了迭代後訓練程序,其中每一輪都使用監督微調和直接偏好優化。這使我們能夠為每輪創建最高品質的合成數據並提高每種功能的性能。

與先前版本的 Llama 相比,我們提高了用於訓練前和訓練後的資料的數量和品質。這些改進包括為訓練前資料開發更仔細的預處理和管理管道、開發更嚴格的品質保證以及訓練後資料的過濾方法。

正如根據語言模型的縮放定律所預期的那樣,我們的新旗艦模型優於使用相同程序訓練的較小模型。我們也使用 405B 參數模型來提高較小模型的訓練後品質。

為了支援 405B 規模模型的大規模生產推理,我們將模型從 16 位元 (BF16) 量化為 8 位元 (FP8) 數字,有效降低了所需的計算要求,並允許模型在單一伺服器節點。

指令和聊天微調

透過 Llama 3.1 405B,我們努力提高模型響應用戶指令的實用性、品質和詳細指令遵循能力,同時確保高水準的安全性。我們最大的挑戰是支援更多功能、128K 上下文視窗和增加的模型大小。

在訓練後,我們透過在預訓練模型的基礎上進行幾輪對齊來產生最終的聊天模型。每輪都涉及監督微調(SFT)、拒絕採樣(RS)和直接偏好優化(DPO)。我們使用合成資料產生來產生絕大多數 SFT 範例,並多次迭代以在所有功能上產生越來越高品質的合成資料。此外,我們還投資了多種數據處理技術,以過濾這些合成數據以達到最高品質。這使我們能夠跨功能擴展微調資料量。

我們仔細平衡數據,以產生涵蓋所有功能的高品質模型。例如,我們在短上下文基準上保持模型的質量,即使擴展到 128K 上下文也是如此。同樣,即使我們添加了安全緩解措施,我們的模型仍會繼續提供最有幫助的答案。

駱駝系統

Llama 模型始終旨在作為整個系統的一部分,可以協調多個元件,包括呼叫外部工具。我們的願景是超越基礎模型,讓開發人員能夠存取更廣泛的系統,使他們能夠靈活地設計和創建符合其願景的客製化產品。這個想法始於去年,當時我們首次引入了核心法學碩士之外的組件的合併。

作為我們持續努力在模型層之外負責任地開發人工智慧並幫助其他人這樣做的一部分,我們發布了一個完整的參考系統,其中包括多個範例應用程式以及新元件,例如Llama Guard 3、多語言安全模型和Prompt Guard,一個提示注入過濾器。這些範例應用程式是開源的,可以由社群建立。

Llama System 願景中組件的實作仍然是支離破碎的。這就是為什麼我們開始與產業、新創公司和更廣泛的社群合作,幫助更好地定義這些組件的介面。為了支持這一點,我們在 GitHub 上發布了針對我們所謂的「Llama Stack」的評論請求。 Llama Stack 是一組標準化和固執己見的接口,用於如何建立規範的工具鏈組件(微調、合成資料生成)和代理應用程式。我們希望這些能夠在整個生態系統中被採用,這應該有助於更輕鬆地實現互通性。

我們歡迎提供回饋和改進提案的方法。我們很高興能夠圍繞 Llama 發展生態系統,並降低開發者和平台提供者的障礙。


回到上一頁