99久久精品久久久久久清纯,亚洲ⅴ国产v天堂a无码二区,欧美肥老妇视频九色

快捷導(dǎo)航

ai動態(tài)

DeepSeek-R1 最新發(fā)布，劍指 OpenAI o1

　　而這次的 R1 模型一出，不僅反駁了之前蒸餾 OpenAI o1 的說法，官方更是直接下場表示：

　　值得一提的是， R1 突破了以往的模型訓(xùn)練形式，完全沒有使用任何 SFT 數(shù)據(jù)，僅通過純粹的 RL 來訓(xùn)練模型，這一點說明 R1 已經(jīng)學(xué)會了自己思考問題——這實則更符合人類的思維規(guī)則。

　　并且在數(shù)學(xué)、代碼、自然語言推理上更是和 o1 正式版不相上下，在多個基準測試中展現(xiàn)了卓越的性能。

　　如果你仍未真切領(lǐng)略到它的強大，那么請注意：它只需付出 o1 五十分之一的成本，卻能收獲 o1 百分之百的效能。

　　除了 R1 在幾乎所有的基準測試中性能都優(yōu)于 o1 的硬實力，再其發(fā)布即開源的訓(xùn)練數(shù)據(jù)集和優(yōu)化工具，讓不少網(wǎng)友直呼：這才是真正的 Open AI。

　　深度賦智 CEO 吳承霖向雷峰網(wǎng)(公眾號：雷峰網(wǎng))AI 科技評論評價： DeepSeek R1 確實厲害，但方法非常簡單，核心其實就三點。

　　先說 DeepSeek-R1-Zero，這個模型完全沒有使用任何 SFT 數(shù)據(jù)，僅通過純粹的 RL 來訓(xùn)練模型，突破了以往模型在提升推理能力時常依賴于 SFT 作為預(yù)訓(xùn)練步驟的形式。這是大模型訓(xùn)練中首次跳過監(jiān)督微調(diào)，是此次DeepSeek的核心創(chuàng)新。

　　通俗一點講，就是我們不直接告訴模型“應(yīng)該如何解題”，而是讓它通過自主試錯并從中學(xué)習(xí)正確的方法，即 Self play。這就像不讓孩子死記硬背公式，而是直接提供題目和評分標(biāo)準，讓他們在實踐中自行摸索解法。這樣的方式不僅能激發(fā)模型的自主學(xué)習(xí)能力，還可能在探索過程中發(fā)現(xiàn)更具創(chuàng)新性的思路。

　　但是DeepSeek-R1-Zero這個孩子一直做試錯練習(xí)的話，就會有可讀性差和語言混合問題。于是團隊研發(fā)推出了 DeepSeek-R1，這個模型在訓(xùn)練過程中引入了少量的冷啟動數(shù)據(jù)，即cold-start data，并通過多階段 RL 優(yōu)化模型，在僅有極少標(biāo)注數(shù)據(jù)的情況下，極大提升了模型的推理能力。

　　具體來說，冷啟動數(shù)據(jù)包含數(shù)千條高質(zhì)量的長思維鏈（CoT）示例，通過人工標(biāo)注和格式過濾（如使用<reasoning>和<summary>標(biāo)簽），強制模型生成結(jié)構(gòu)清晰、語言一致的內(nèi)容。其核心優(yōu)勢在于：

　　1、穩(wěn)定性：為強化學(xué)習(xí)（RL）訓(xùn)練提供高質(zhì)量的初始策略，有效避免早期探索階段輸出的混亂無序，確保訓(xùn)練過程平穩(wěn)起步。

　　2、可讀性：借助模板化輸出（如總結(jié)模塊），顯著提升生成內(nèi)容的用戶友好性，使用戶能夠更直觀地理解和接受輸出結(jié)果。

　　這么說吧，雖然孩子做錯題集可以有效提高分數(shù)，但是他的答案可能寫得亂七八糟。通過先教模型如何規(guī)范地寫步驟和總結(jié)，再讓它自由發(fā)揮，最終答案既正確又容易看懂。

　　除此之外，DeepSeek-R1 Zero還創(chuàng)新了一種很厲害的算法 GRPO，通過采樣一組輸出并計算獎勵的均值和標(biāo)準差來生成優(yōu)勢函數(shù)，從而優(yōu)化策略。這種方法避免了傳統(tǒng) PPO 中需要額外訓(xùn)練價值模型的高成本，讓模型能夠自主探索復(fù)雜的推理行為，比如長思維鏈、自我驗證和反思。

　　這種純強化學(xué)習(xí)訓(xùn)練方式在數(shù)學(xué)（AIME 2024 的 Pass@1 從 15.6% 提升至 71.0%）和代碼任務(wù)中取得了顯著提升。簡單來說，就像讓機器人通過“試錯”學(xué)習(xí)解題，而不是依賴例題，最終讓它學(xué)會了復(fù)雜的解題步驟，表現(xiàn)非常出色。

　　最后，團隊還分享了他們在實驗中遇到的很多失敗嘗試，并表示雖然在過程獎勵模型以及蒙特卡洛樹搜索算法上團隊都沒有取得研究進展，但這并不意味著這些方法無法開發(fā)出有效的推理模型。

　　值得一提的是， R1 在訓(xùn)練時甚至還出現(xiàn)了“頓悟時刻”，就像我們在解難題時突然“靈光一閃”，模型在訓(xùn)練過程中也自發(fā)地學(xué)會了“回頭檢查步驟”。這種能力并非程序員直接教授，而是在算法通過獎勵正確答案的機制下，自然涌現(xiàn)的。

上一篇：中傳聯(lián)合新浪發(fā)布《中國智能媒體發(fā)展報告》展
下一篇：GPT未竟的革命，由o1接棒：或是LLM研究最重要的發(fā)