IA 2026 06 05 | News Makertronic

IA - 05/06/2026

NVIDIA Nemotron 3 Ultra : Un MoE hybride Mamba-Attention conçu pour les agents longue durée

Date : 18/06/2026
Catégorie : LLM / Agent IA
Résumé technique : NVIDIA publie Nemotron 3 Ultra, un modèle open-source de 550 milliards de paramètres (55B actifs par token) utilisant une architecture Mixture-of-Experts (MoE) hybride Mamba-Attention. Contrairement aux Transformers purs, les couches Mamba maintiennent un coût de décodage constant quelle que soit la longueur de la séquence, tandis que quelques couches Attention assurent la précision contextuelle. Le modèle bénéficie d'un contexte étendu à 1 million de tokens, d'un entraînement sur 20T de tokens et d'un pipeline post-training innovant : la Multi-teacher On-Policy Distillation (MOPD), qui distille les connaissances de plus de 10 enseignants spécialisés via des rollouts asynchrones et des récompenses denses au niveau token. Il supporte un contrôle d'effort de raisonnement (reasoning-off, regular, medium-effort) et est quantifié en NVFP4 pour un déploiement natif sur Blackwell ou W4A16 sur Hopper.
Pourquoi c’est intéressant : C'est actuellement l'un des modèles open les plus optimisés pour les agents autonomes qui doivent planifier, utiliser des outils et raisonner sur de nombreuses itérations. Le gain de débit d'inférence (~6x vs LLMs ouverts comparables) combiné à la réduction drastique du coût par token rend viable le déploiement d'agents longue durée sans exploser la facture cloud. L'ouverture totale des poids, données et recettes (OpenMDW-1.1) en fait une référence technique pour la communauté.
Angle possible pour une vidéo YouTube : "NVIDIA vient de tuer le Transformer pur ? Comment Nemotron 3 Ultra fait tourner des agents IA 6x plus vite grâce à Mamba-Attention (Test & Benchmarks)"
Source originale : NVIDIA Research / MarkTechPost
URL directe : https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Ultra-Technical-Report.pdf 30

OpenJarvis : Framework open-source pour exécuter des agents IA entièrement en local

Date : 17/06/2026
Catégorie : Agent IA / Automatisation / Outil
Résumé technique : Développé par Stanford et Lambda Labs, OpenJarvis est un framework Apache 2.0 qui décompose un système d'IA personnel en 5 primitives interchangeables : Intelligence (modèle/quantisation), Engine (runtime Ollama/vLLM/llama.cpp), Agents (boucles ReAct/CodeAct), Tools & Memory (25+ connecteurs, 32+ canaux, MCP natif) et Learning (optimisation via LoRA, DSPy ou GEPA). L'innovation majeure est la "LLM-guided spec search" : un modèle cloud frontier agit comme teneur uniquement en phase de recherche pour lire les traces, diagnostiquer les clusters d'erreurs et proposer des éditions transversales aux 5 primitives. Une fois validé (porte de tolérance 1%), le spec optimisé s'exécute à 100% sur l'appareil local, sans appel cloud à l'inférence. Testé sur 11 modèles locaux, il atteint 80,3% de précision moyenne (seulement 3,2 points de pourcentage derrière Claude Opus 4.6) pour ~800x moins cher en coût API marginal et ~4x de latence réduite.
Pourquoi c’est intéressant : Résout le principal frein à l'adoption des agents locaux : la perte de capacité lors du passage du cloud au device. En optimisant conjointement le modèle, le runtime, les prompts et les outils via un spécification TOML unique, OpenJarvis permet aux développeurs, indépendants et entreprises de déployer des agents productifs, sécurisés et extrêmement économiques sans réécrire leur stack.
Angle possible pour une vidéo YouTube : "Arrêtez de payer les API cloud ! J'ai testé OpenJarvis (Stanford) : des agents IA locaux qui surpassent 90% des modèles premium à 0,001$ par requête"
Source originale : Stanford University & Lambda Labs / arXiv
URL directe : https://arxiv.org/pdf/2605.17172v1

BigSet par TinyFish : Système multi-agents open-source pour la collecte structurée de données web

Date : 18/06/2026
Catégorie : Automatisation IA / Outil / Workflows
Résumé technique : BigSet est un pipeline d'automatisation web sous licence AGPL-3.0 qui transforme une requête en langage naturel en un dataset structuré exportable (CSV/XLSX). L'architecture repose sur un système à deux niveaux : 1) Inférence de schéma via Claude Sonnet (définition des colonnes, types, clés primaires et sources sans accès web), 2) Orchestrateur (Qwen) qui lance des sous-agents parallèles munis de TinyFish Search/Fetch pour extraire les données, gérer la déduplication par clé primaire et attribuer les sources. Le système s'exécute en self-hosted via Docker, utilise Mastra + Vercel AI SDK pour l'orchestration, et propose des rafraîchissements programmés (30 min à hebdo) pour maintenir les tables à jour sans intervention manuelle.
Pourquoi c’est intéressant : Élimine le travail fastidieux et brisant de la création de scrapers custom, de la maintenance de sélecteurs et du nettoyage de données. Idéal pour les marketeurs, les lead generators, les chercheurs et les développeurs qui ont besoin de données fraîches et structurées en continu. La transparence du code et la séparation claire entre inférence de schéma et exécution d'agents en font un workflow reproductible et scalable.
Angle possible pour une vidéo YouTube : "Ne codez plus jamais un scraper : J'automatise la collecte de données web avec BigSet (Multi-Agents Open Source) en 5 minutes"
Source originale : MarkTechPost / TinyFish
URL directe : https://github.com/tinyfish-io/bigset.git 29

NVIDIA Alpamayo & Plateforme Rubin : IA physique et conduite autonome de niveau 4

Date : 18/06/2026
Catégorie : Agent IA / Tendance / LLM
Résumé technique : Lors de l'ouverture du CES 2026, Jensen Huang a dévoilé la plateforme Rubin (6 puces co-conçues, 50 petaflops NVFP4, networking NVLink 6 & Spectrum-X) qui divise par 10 le coût d'inférence par token. S'appuyant sur ce matériel, NVIDIA lance Alpamayo, une famille ouverte de modèles VLA (Vision-Language-Action) de raisonnement pour la conduite autonome. Alpamayo R1 est le premier modèle open de raisonnement VLA capable d'interagir avec des simulateurs haute fidélité (AlpaSim), de traiter les entrées capteurs, de raisonner sur l'action suivante et de piloter direction, freinage et accélération. La stack s'intègre directement à la plateforme DRIVE pour des véhicules de niveau 4, avec un premier déploiement passager prévu sur la nouvelle Mercedes-Benz CLA.
Pourquoi c’est intéressant : Marque un tournant vers l'IA "physique" ouverte. Contrairement aux modèles black-box de conduite, Alpamayo fournit des blueprints de simulation et des modèles de raisonnement accessibles, accélérant la recherche en robotique et véhicules autonomes tout en réduisant drastiquement les coûts d'entraînement via Rubin. Une ressource stratégique pour les ingénieurs automotive, les startups robotiques et les chercheurs en IA embarquée.
Angle possible pour une vidéo YouTube : "NVIDIA ouvre le code de l'IA de conduite autonome (Niveau 4) : Comment Rubin & Alpamayo changent la robotique et l'auto"
Source originale : NVIDIA / CES 2026 Press Kit
URL directe :