DeepSeek a publié son modèle V3 le mois dernier. L’entreprise a maintenant a dévoilé son modèle de raisonnement, DeepSeek R1. DeepSeek affirme qu’il correspond non seulement au modèle o1 d’OpenAI, mais qu’il le surpasse également, en particulier dans les questions liées aux mathématiques. La bonne nouvelle est qu’un modèle R1 est open source, gratuit et peut même s’exécuter localement. Voyons si R1 est vraiment si bon.
Qu’est-ce que DeepSeek R1 ?
DeepSeek R1 est un modèle de raisonnement, ce qui signifie qu’il ne fournit pas simplement la première réponse trouvée. Au lieu de cela, il « réfléchit » aux problèmes étape par étape, prenant quelques secondes, voire quelques minutes, pour parvenir à une solution. Ce processus délibéré de chaîne de pensée le rend beaucoup plus précis que les modèles d’IA traditionnels et particulièrement utile dans des domaines comme les mathématiques, la physique et le codage, où le raisonnement est crucial.
DeepSeek atteint cette capacité de raisonnement grâce à une combinaison de Apprentissage par renforcement (RL) et Réglage fin supervisé (SFT). Quoi? Voici ce que signifient ces deux termes :
- Apprentissage par renforcement (RL) : En RL, un agent apprend en interagissant avec un environnement et en recevant des récompenses ou des pénalités pour ses actions. L’objectif est de maximiser la récompense cumulée au fil du temps.
- Réglage fin supervisé (SFT) : SFT implique de prendre un modèle de langage pré-entraîné et de le former davantage sur un vaste ensemble de données de texte et de code de haute qualité. Ce processus affine les capacités du modèle, améliorant ainsi sa précision et ses performances sur des tâches spécifiques.
Au départ, DeepSeek s’appuyait uniquement sur l’apprentissage par renforcement sans ajustement. Cette phase « DeepSeek R1 Zero » a démontré des capacités de raisonnement impressionnantes, notamment l’auto-vérification, la réflexion et la génération de longues chaînes de pensée. Cependant, il était confronté à des défis tels qu’une mauvaise lisibilité, la répétition et le mélange des langues. Pour résoudre ces problèmes, DeepSeek a combiné RL avec Supervised Fine-Tuning. Cette double approche permet au modèle d’affiner son raisonnement, d’apprendre des erreurs passées et de fournir des résultats constamment meilleurs. Plus important encore, il s’agit d’un modèle open source sous le Licence MIT.
Les chiffres derrière DeepSeek R1
DeepSeek R1 possède un énorme 671 milliards de paramètres. Considérez les paramètres comme les cellules cérébrales qu’une IA utilise pour apprendre de ses données d’entraînement. Plus un modèle comporte de paramètres, plus sa compréhension est détaillée et nuancée. Pour mettre cela en perspective, bien qu’OpenAI n’ait pas divulgué les paramètres de o1, les experts l’estiment à environ 200 milliardsce qui rend R1 nettement plus grand et potentiellement plus puissant.
Malgré sa taille, R1 n’active que 37 milliards de paramètres par jeton pendant le traitement. DeepSeek affirme que cela est fait pour garantir que le modèle reste efficace sans compromettre les capacités de raisonnement.
Le modèle R1 est construit avec le modèle DeepSeek V3 comme base, donc l’architecture et les autres statistiques sont pour la plupart similaires. Voici les statistiques du modèle DeepSeek R1 :
Architecture | Transformateur avec mélange d’experts (MoE) |
Paramètres totaux | 671 milliards |
Paramètres activés | 37 milliards |
Jetons d’entraînement | 14,8 billions |
Fenêtre contextuelle | 128 000 jetons |
Limite de sortie | 8 000 jetons |
Vitesse | 60 jetons par seconde |
Source ouverte | Oui |
Comment R1 se compare-t-il à o1 d’OpenAI ?
En ce qui concerne les benchmarks, DeepSeek R1 est à égalité avec le modèle o1 d’OpenAI et le surpasse même légèrement dans des domaines comme les mathématiques. Sur des tests mathématiques comme AIME, il a obtenu un score de 79,8 %, légèrement meilleur que les 79,2 % de o1. Pour les tâches de programmation sur Codeforces, il a surpassé 96,3 % des programmeurs humains, ce qui montre qu’il s’agit d’un concurrent sérieux. Cependant, il est légèrement en retard sur o1 dans les tests de codage.
Pour les développeurs, le modèle est moins cher à intégrer dans les applications. Alors que le modèle o1 coûte 15 $ par million de jetons d’entrée et 60 $ par million de jetons de sortie, R1 ne coûte que 0,14 $ par million de jetons d’entrée (Cache Hit), 0,55 $ pour un million de jetons d’entrée (Cache Miss) et 2,19 $ pour les jetons de sortie, soit 90 %. 95% moins cher.
Une autre caractéristique remarquable de R1 est qu’il montre son tout le processus de réflexion pendant le raisonnement, contrairement à o1, qui est souvent vague sur la manière dont il arrive à des solutions.
Versions distillées pour un usage local
DeepSeek a également publié modèles distillés allant de 1,5 milliard à 70 milliards de paramètres. Ces modèles plus petits conservent une grande partie de la puissance de raisonnement du R1 mais sont suffisamment légers pour fonctionner même sur un ordinateur portable.
Modèles distillés :
DeepSeek-R1-Distill-Qwen-1.5B | Qwen2.5-Math-1.5B | 1,5 milliards |
DeepSeek-R1-Distill-Qwen-7B | Qwen2.5-Math-7B | 7B |
DeepSeek-R1-Distill-Llama-8B | Lama-3.1-8B | 8B |
DeepSeek-R1-Distill-Qwen-14B | Qwen2.5-14B | 14B |
DeepSeek-R1-Distill-Qwen-32B | Qwen2.5-32B | 32B |
DeepSeek-R1-Distill-Llama-70B | Lama-3.3-70B-Instruire | 70B |
Ces modèles plus petits facilitent le test local des capacités avancées d’IA sans avoir besoin de serveurs coûteux. Par exemple, les modèles 1,5B et 7B peuvent fonctionner sur des ordinateurs portables. Tandis que les modèles 32B et 70B offrent des performances proches du niveau R1 mais nécessitent des configurations plus puissantes. Mieux encore, certains de ces modèles surpassent le o1-mini d’OpenAI sur les benchmarks.
Lire aussi :
Comment accéder à DeepSeek R1
DeepSeek R1 est facile d’accès. Visite chat.deepseek.com et activer Réflexion profonde mode pour interagir avec le modèle complet de 671 milliards de paramètres.
Alternativement, vous pouvez accéder au modèle Zero ou à toute version distillée via le Application Câlins Visageoù vous pouvez télécharger des modèles légers à exécuter localement sur votre ordinateur.
Pourquoi DeepSeek R1 est important
En dehors du modèle Phi 4 de Microsoft, il n’existe aucun autre modèle de raisonnement open source disponible. Phi 4, cependant, ne possède que 14 milliards de paramètres et ne peut pas rivaliser avec les modèles fermés o1 d’OpenAI. DeepSeek R1 offre une alternative gratuite et open source qui rivalise avec les options fermées telles que o1 et Gemini 2.0 Flash Thinking. Pour les développeurs, la rentabilité et l’accessibilité ouverte de R1 le rendent particulièrement attrayant.
Le seul inconvénient est que, en tant que modèle développé en Chine, DeepSeek doit se conformer aux réglementations du gouvernement chinois. Cela signifie qu’il ne répondra pas à des sujets sensibles comme la place Tiananmen ou l’indépendance de Taiwan, car l’Administration chinoise du cyberespace (CAC) garantit que toutes les réponses s’alignent sur les « valeurs socialistes fondamentales ».