Retour à Deepseek R1
DeepSeek's pure-RL reasoning model trained without SFT — demonstrates emergent chain-of-thought through reinforcement learning alone.
164K tokensGratuit / Poids ouvertsMoEMIT
Aucun score de benchmark disponible pour ce modèle.
DeepSeek's pure-RL reasoning model trained without SFT — demonstrates emergent chain-of-thought through reinforcement learning alone.
Aucun score de benchmark disponible pour ce modèle.