IA 2026 05 30 | News Makertronic

Release de Step 3.7 Flash : Un MoE 198B params optimisé pour les agents IA 32

Date : 28/11/2024
Catégorie : LLM / Agent IA
Résumé technique : StepFun publie Step 3.7 Flash, un modèle multimodal sparse Mixture-of-Experts de 198B paramètres (196B langage + 1.8B Vision Transformer). Seuls ~11B paramètres sont activés par token, préservant le coût d'inférence d'un modèle dense 11B. Le modèle introduit un support vision natif, trois niveaux de raisonnement ajustables, et un "Advisor Mode" inspiré d'Anthropic : l'agent gère la boucle complète et n'escalade vers un grand modèle advisor qu'aux points d'inflection (planification, récupération d'échecs). En coding agent, il atteint 56.26% sur SWE-Bench Pro et réduit la variance inter-scaffold de 30 points de pourcentage par rapport à la v3.5.
Pourquoi c’est intéressant : Le mode Advisor offre un ratio coût/performance stratégique pour les entreprises : 97% des performances d'un modèle flagship pour 1/9 du coût. L'architecture MoE vision-langage avec routing dynamique et la cohérence accrue sur des scaffolds hétérogènes en font une cible directe pour les pipelines d'agents autonomes et d'assistants de développement en production.
Angle possible pour une vidéo YouTube : "Step 3.7 Flash & Advisor Mode : Comment faire fonctionner des agents IA complexes en divisant les coûts par 9"
Source originale : MarkTechPost / StepFun
URL directe :

Date : 28/11/2024
Catégorie : Automatisation / Agent IA / Méthode
Résumé technique : Hexo Labs open-source SIA (Self-Improving AI) sous licence MIT. Contrairement aux approches classiques qui optimisent soit le prompt/outils (scaffold), soit les poids du modèle, SIA boucle les deux dans une seule boucle fermée. Un Meta-Agent génère le scaffold initial, un Task-Agent exécute la tâche, et un Feedback-Agent analyse la trajectoire complète pour décider dynamiquement de : 1) réécrire le scaffold (logs, retry, extraction), ou 2) lancer un fine-tuning LoRA (rank 32) sur les poids. Le choix de l'algorithme RL (PPO, GRPO, DPO, REINFORCE) est conditionné par la forme du signal de reward observé.
Pourquoi c’est intéressant : Brise le silo historique entre ingénierie de prompt et test-time training. Les benchmarks montrent des gains structurels : +20pp d'accuracy sur LawBench, réduction de runtime CUDA de 91.9% sur TriMul, et découverte automatique d'étapes de post-traitement (arrondi d'entiers) sur le débruitage génomique. Ouvre la voie à des agents qui s'auto-optimisent sans intervention humaine sur la boucle complète.
Angle possible pour une vidéo YouTube : "SIA : Le premier agent IA qui réécrit ses propres prompts ET ses poids de modèle en autonomie"
Source originale : Hexo Labs / arXiv
URL directe : https://arxiv.org/pdf/2605.27276

Date : 28/11/2024
Catégorie : Méthode / Outil
Résumé technique : Perplexity AI open-source sa réimplémentation from scratch du tokenizer Unigram en Rust dans le repo pplx-garden. L'optimisation cible le hot path CPU des petits modèles (rerankers, embeddings, classifieurs) où la tokenization devient le goulot d'étranglement. Trois leviers matériels/algo : remplacement du HashMap trie par un double-array trie, inline packing avec bitmap par nœud (1 cache line de 64B par étape), et allocation via huge pages Linux pour saturer le TLB L1. Résultat : p50 latency à ~63 µs (5x plus rapide que le crate HF), 0 allocation heap sur le chemin critique, et réduction de l'utilisation CPU en prod de 5 à 6x.
Pourquoi c’est intéressant : Démontre que l'optimisation inference ne se limite pas aux GPUs/KV-caches. Pour les architectures de retrieval/reranking à haut débit, chaque milliseconde CPU économisée se traduit directement en gain de QPS et de coût infra. Le code Rust est directement exploitables dans les stacks d'inférence modernes.
Angle possible pour une vidéo YouTube : "Pourquoi la tokenization tue vos GPUs : comment Perplexity a divisé la latence CPU par 5 en Rust"
Source originale : Perplexity AI Research
URL directe :

Date : 28/11/2024
Catégorie : Workflow IA / Méthode
Résumé technique : Tutoriel technique détaillé pour exploiter open-thoughts/AgentTrove, une des plus grandes collections open-source de trajectoires d'interaction agentic. Le workflow utilise le streaming Hugging Face pour éviter le téléchargement local, normalise les schémas de rôles (user/assistant/system/tool), parse les commandes shell depuis les sorties JSON des assistants, et filtre les traces réussies via des heuristiques de reward/résultat. Le pipeline exporte en JSONL ShareGPT optimisé pour du supervised fine-tuning, avec unDataFrame analytique pour visualiser la distribution des turns et l'usage des outils.
Pourquoi c’est intéressant : Fournit un pipeline reproductible et scalable pour préparer des datasets de raisonnement agentique réels. L'extraction automatique des commandes et le filtrage par succès permettent de générer proprement des corpus de SFT sans nettoyage manuel lourd, accélérant le cycle de développement d'agents spécialisés.
Angle possible pour une vidéo YouTube : "Fine-tune ton agent IA sur des trajectoires réelles : pipeline complet avec AgentTrove (sans tout télécharger)"
Source originale : Open Thoughts / Hugging Face Community
URL directe :