首頁 > 新聞 > 緊湊型AI的推理能力:挑戰GPT?

緊湊型AI的推理能力:挑戰GPT?

作者:Kristen 更新日期:May 02,2025

近年來,AI社區對大語言模型(LLM)的非凡成就著迷。這些模型最初是針對自然語言處理的,已轉變為複雜的推理工具,能夠通過類似於人類推理的逐步思考過程來解決複雜的問題。但是,儘管具有高級功能,但LLMS仍具有顯著的缺點,包括高計算成本和緩慢的部署速度,這使得它們對於資源有限設置(例如移動設備或Edge Computing)中現實世界應用程序的可行性降低了。這引起了人們對開發較小,更高效的模型的濃厚興趣,這些模型可以提供可比的推理能力,同時最大程度地減少成本和資源需求。本文深入研究了這些小推理模型的出現,探討了它們對AI景觀的潛力,挑戰和未來的影響。

觀點的轉變

在最近的AI歷史上,該領域遵守“縮放定律”的原則,該原則認為,隨著數據,計算功率和模型大小的增加,模型性能可以預見。儘管這種方法確實產生了強大的模型,但它也導致了相當大的權衡,例如高基礎設施成本,環境影響和延遲問題。並非所有應用都需要具有數百億個參數的大型模型的全部功能。在許多實際情況下,例如在設備助理,醫療保健和教育等方面,如果他們可以有效地推理,那麼笨拙的模型就可以實現可比的結果。

了解AI中的推理

AI中的推理涵蓋了模型遵循邏輯序列,理解因果關係,推論含義,計劃程序步驟並確定矛盾的能力。對於語言模型,這不僅涉及檢索信息,還涉及通過結構化的逐步方法來操縱和推斷數據。達到這種推理水平通常需要微調LLM在得出結論之前執行多步推理。儘管有效,但這些方法是資源密集的,部署可能會緩慢且昂貴,從而引起人們對它們的可及性和環境影響的擔憂。

了解小推理模型

小推理模型旨在復制大型模型的推理能力,但在計算能力,內存使用和延遲方面具有更高的效率。這些模型經常利用一種稱為知識蒸餾的技術,其中較小的模型(“學生”)從較大的預訓練模型(“老師”)中學習。蒸餾過程涉及對較大數據生成的數據培訓較小的模型,旨在轉移推理能力。然後,對學生模型進行微調以提高其性能。在某些情況下,採用特定領域特定獎勵功能的強化學習來進一步完善模型執行特定於任務推理的能力。

小推理模型的興起和進步

DeepSeek-R1的釋放標誌著小型推理模型的發展中的關鍵時刻。 DeepSeek-R1接受了相對較舊的GPU群的培訓,其性能水平與較大模型(如MMLU和GSM-8K)上的OpenAI的O1(例如Openai的O1)相當。這種成功促使對傳統縮放方法進行了重新評估,該方法假設較大的模型本質上是優越的。

DeepSeek-R1的成功可以歸因於其創新的培訓過程,該過程將大規模的強化學習結合在一起,而無需在早期階段依靠監督的微調。這項創新導致了DeepSeek-R1-Zero的創建,該模型與大型推理模型相比展示了令人印象深刻的推理能力。進一步的增強功能,例如使用冷啟動數據,改善了模型的連貫性和任務執行,尤其是在數學和編碼等領域。

此外,蒸餾技術已證明有助於從較大的模型開發較小,更有效的模型。例如,DeepSeek發布了其型號的蒸餾版本,規模從15億到700億參數不等。使用這些模型,研究人員培訓了一個明顯較小的模型,DeepSeek-R1-Distill-Qwen-32b,該模型在各種基準測試中的表現優於OpenAI的O1-Mini。這些模型現在可以在標準硬件上部署,使其成為廣泛應用程序的更可行的選擇。

小型型號可以匹配GPT級別的推理嗎?

為了確定小型推理模型(SRMS)是否可以匹配大型模型(LRM)(例如GPT)的推理能力,評估其在標準基準測試上的性能至關重要。例如,在MMLU測試中,DeepSeek-R1模型在0.844左右得分,與大型模型(例如O1)相當。 DeepSeek-R1的蒸餾型在GSM-8K數據集(GSM-8K數據集)上,達到了頂級性能,超過了O1和O1 Mini。

在編碼任務(例如LiveCodeBench和CodeForces上的任務)中,DeepSeek-R1的蒸餾模型的執行方式類似於O1-Mini和GPT-4O,在編程中表明了強大的推理能力。但是,較大的模型仍然具有需要更廣泛的語言理解或處理長上下文窗口的任務,因為較小的模型往往更為特定。

儘管有優勢,但小型模型仍可能在擴展的推理任務或面對分發數據時掙扎。例如,在LLM國際象棋模擬中,DeepSeek-R1比大型模型犯了更多的錯誤,這表明其在長時間保持專注和準確性的能力限制。

權衡和實踐意義

將SRM與GPT級LRMS進行比較時,模型大小和性能之間的權衡至關重要。較小的模型需要更少的內存和計算能力,使其非常適合邊緣設備,移動應用程序或需要離線推理的情況。這種效率會導致運營成本較低,而諸如DeepSeek-R1之類的型號比O1等大型型號便宜96%。

但是,這些效率提高帶來了一些妥協。較小的模型通常用於特定任務,與較大的型號相比,這可能會限制其多功能性。例如,儘管DeepSeek-R1在數學和編碼方面表現出色,但它缺乏多模式功能,例如解釋圖像的能力,例如GPT-4O(例如GPT-4O)可以處理的圖像。

儘管存在這些限制,但小推理模型的實際應用是廣泛的。在醫療保健方面,它們可以為分析標準醫院服務器的醫療數據提供動力。在教育方面,它們可用於開發個性化的輔導系統,向學生提供逐步的反饋。在科學研究中,他們可以在數學和物理等領域進行數據分析和假設檢驗。諸如DeepSeek-R1之類的模型的開源性質也促進了協作並使對AI的訪問權限,使較小的組織能夠從先進的技術中受益。

底線

語言模型中較小的推理模型的演變代表了AI的重大進步。儘管這些模型可能尚未完全匹配大語言模型的廣泛功能,但它們在效率,成本效益和可訪問性方面具有關鍵優勢。通過在推理能力和資源效率之間達到平衡,較小的模型有望在各種應用程序中發揮關鍵作用,從而使AI更實用和可持續,可用於現實世界中。