AV无码AⅤ在线,风间中文字幕亚洲一区,8X老汉免费视频在线播放,理论视频在线观看影片,亚洲色国产AV天堂,成人免费A级黄毛片,Av一级特黄毛片在线,费国产高清在线精品一区,嗯~啊~网站视频,国模私拍福利精品视频

快手Klear-Reasoner登頂8B模型 GPPO算法雙效強化穩(wěn)定性與探索能力

每日快訊

2025

08/21

17:57

評論

在大語言模型的競爭中，數(shù)學與代碼推理能力已經(jīng)成為最硬核的“分水嶺”。從 OpenAI 最早將 RLHF 引入大模型訓練，到 DeepSeek 提出 GRPO 算法，我們見證了強化學習在推理模型領域的巨大潛力。然而，想要復現(xiàn)這些頂尖成果，并不只是“多喂點數(shù)據(jù)、跑幾輪訓練”這么簡單?，F(xiàn)實是，很多中小規(guī)模的開源推理模型，在 AIME 這樣的高難數(shù)學競賽題、或 LiveCodeBench 這樣的復雜代碼評測中，依然與閉源 SOTA 存在明顯差距。

最近，快手 Klear 語言大模型團隊推出了全新的 Klear-Reasoner 模型，基于 Qwen3-8B-Base 打造，在數(shù)學與代碼的多個權威基準測試中達到同規(guī)模模型的 SOTA 水平，并完整公開了訓練細節(jié)與全流程 pipeline。

論文鏈接：https://arxiv.org/pdf/2508.07629

Hugging Face：https://huggingface.co/Suu/Klear-Reasoner-8B

GitHub：https://github.com/suu990901/KlearReasoner/tree/main

Klear-Reasoner 在 AIME2024、AIME2025、LiveCodeBench V5 和 V6 等基準測試中，不僅全面超越同規(guī)模的強力開源模型（包括 DeepSeek 蒸餾版 DeepSeek-R1-0528-8B），更是在 AIME2024 上取得了 90.5%、AIME2025 上取得了 83.2% 的驚人成績，直接登頂 8B 模型榜首。

在這些成果的背后，最核心的技術創(chuàng)新是Klear團隊提出的 GPPO（Gradient-Preserving Clipping Policy Optimization）算法 ——一種在保留訓練穩(wěn)定性的同時，大幅提升探索能力的強化學習優(yōu)化方法。

傳統(tǒng)clip的隱性代價

在PPO和GRPO等常用的策略優(yōu)化方法中，clip是控制訓練穩(wěn)定性的重要手段，它通過限制策略更新幅度，避免模型一步走得太遠而導致崩潰。Klear團隊在實踐中發(fā)現(xiàn)，clip 機制在保護穩(wěn)定性的同時，也切斷了模型獲取最有價值學習信號的通道，模型變得保守，不敢嘗試新路徑，遇到錯誤也修正遲緩。

GPPO方法：保留梯度的“溫和”方案

為解決以上問題，Klear團隊提出的 GPPO（Gradient-Preserving Clipping Policy Optimization）算法，GPPO的核心思想很直接：不丟棄任何梯度，并且對其進行溫和回傳。通過 GPPO，推理模型可以在穩(wěn)定性與探索力之間找到新的平衡點，讓它們既敢于嘗試，也能迅速糾錯。

在與現(xiàn)有方法的對比中（包括DAPO的clip-higher以及MiniMax-M1的CISPO方法），GPPO在數(shù)學和代碼任務上都表現(xiàn)出優(yōu)勢。

數(shù)學強化學習訓練中GPPO、GRPO（帶Clip Higher策略）與CISPO的對比。

實驗洞察

除了提出GPPO算法外，Klear團隊在論文中對訓練流程的多個關鍵環(huán)節(jié)進行了深入實驗與分析，揭示了長思維鏈推理模型成功背后的幾個核心要素，為社區(qū)貢獻了一條可復現(xiàn)、可推廣的推理模型監(jiān)督學習和強化學習路線：

·SFT階段：質(zhì)量優(yōu)先，數(shù)據(jù)可靠性比數(shù)量更重要

實驗表明，與數(shù)據(jù)量大但質(zhì)量參差的數(shù)據(jù)源相比，來自少數(shù)高質(zhì)量數(shù)據(jù)源的樣本更具訓練效率和效果優(yōu)勢。

高質(zhì)量數(shù)學數(shù)據(jù)Top-K子集組合對監(jiān)督微調(diào)（SFT）性能的影響。

·SFT階段：高難樣本容錯反而能促進學習

對于簡單任務，錯誤樣本的引入會明顯影響性能，但對于高難度任務，保留部分帶瑕疵的推理路徑，反而能夠提升模型表現(xiàn)。

通過三組實驗分析了數(shù)據(jù)正確性對模型性能的影響，分別在簡單（Easy）、困難（Hard）和整體（Overall）任務集上對比了純正確數(shù)據(jù)（Only True）與含錯誤數(shù)據(jù)的混合數(shù)據(jù)（Mixed）的表現(xiàn)差異。表格中加粗數(shù)值標識了各組內(nèi)的最優(yōu)性能結果。

·RL階段：軟獎勵優(yōu)于硬獎勵

在代碼任務的強化學習階段，使用軟獎勵（根據(jù)通過測試用例的通過率）比硬獎勵（完全通過得分，否則為零）更有效

代碼強化學習中軟獎勵與硬獎勵策略的對比。在軟獎勵設置中，獎勵值等于測試用例通過率；而在硬獎勵設置中，僅當所有測試用例均通過時給予正向獎勵，否則給予負向獎勵。

·RL階段：代碼數(shù)據(jù)測試用例過濾

在代碼RL數(shù)據(jù)準備階段，Klear團隊調(diào)用DeepSeek-R1-0120為每個prompt生成了16條回復，只有pass@16大于0.5的數(shù)據(jù)會被保留

在LiveCodeBench V5基準（avg@4指標）上，使用過濾與未過濾數(shù)據(jù)的代碼強化學習性能對比。Filter表示使用過濾數(shù)據(jù)的強化學習結果，而w/o Filter代表使用原始未過濾數(shù)據(jù)集的結果。

Klear-Reasoner 的推出，不僅是一份性能亮眼的開源權重，更為社區(qū)貢獻了一條可復現(xiàn)、可推廣的推理模型監(jiān)督學習和強化學習路線。通過 GPPO，推理模型可以在穩(wěn)定性與探索力之間找到新的平衡點，讓它們既敢于嘗試，也能迅速糾錯。這對于未來的數(shù)學、代碼，甚至其他RLVR任務，都有著重要的參考價值。

THE END

廣告、內(nèi)容合作請點擊這里尋求合作

免責聲明：本文系轉載，版權歸原作者所有；旨在傳遞信息，不代表砍柴網(wǎng)的觀點和立場。

AV无码AⅤ在线,风间中文字幕亚洲一区,8X老汉免费视频在线播放,理论视频在线观看影片,亚洲色国产AV天堂,成人免费A级黄毛片,Av一级特黄毛片在线,费国产高清在线精品一区,嗯~啊~网站视频,国模私拍福利精品视频

快手Klear-Reasoner登頂8B模型 GPPO算法雙效強化穩(wěn)定性與探索能力

相關熱點

最新文章

相關推薦

“特斯拉又割了我 7 萬塊”

用 eSIM 取代手機卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級新功能”？網(wǎng)友：炒華為冷飯！

谷歌Pixel 6真機曝光：最美安卓屏幕沒跑了！

iPhone 13機模曝光：值得等！

蘋果計劃在美國生產(chǎn) Apple Car 汽車電池

關注我們

AV无码AⅤ在线,风间中文字幕亚洲一区,8X老汉免费视频在线播放,理论视频在线观看影片,亚洲色国产AV天堂,成人免费A级黄毛片,Av一级特黄毛片在线,费国产高清在线精品一区,嗯~啊~网站视频,国模私拍福利精品视频

快手Klear-Reasoner登頂8B模型 GPPO算法雙效強化穩(wěn)定性與探索能力

相關熱點

最新文章

相關推薦

“特斯拉又割了我 7 萬塊”

用 eSIM 取代手機卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級新功能”？網(wǎng)友：炒華為冷飯！

谷歌Pixel 6真機曝光：最美安卓屏幕沒跑了！

iPhone 13機模曝光：值得等！

蘋果計劃在美國生產(chǎn) Apple Car 汽車電池

關注我們

用 eSIM 取代手機卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級新功能”？網(wǎng)友：炒華為冷飯！

谷歌Pixel 6真機曝光：最美安卓屏幕沒跑了！