IA 2026 06 23 | News Makertronic

FAPO : Optimisation entièrement automatisée des pipelines LLM multi-étapes

Date : 20/01/2026
Catégorie : automatisation / outil
Résumé technique : Cisco AI a open-sourcé FAPO (Fully Automated Prompt Optimization), un framework Apache 2.0 piloté par des agents Claude Code. Le système prend un prompt de base et un dataset, puis exécute une boucle fermée : évaluation, attribution des échecs par étape (récupération, cascade, format, raisonnement), proposition de variants, validation par un reviewer indépendant, et itération jusqu'à l'atteinte d'un score cible. FAPO escalade intelligemment à trois niveaux : modification du prompt, ajustement des paramètres, puis refonte de la topologie de la chaîne (ex: ajout de nœuds de réflexion, basculement en ReAct).
Pourquoi c’est intéressant : Résout le goulot d'étranglement majeur du développement d'agents IA : l'optimisation manuelle et fragile des prompts. Surpasse l'état de l'art GEPA sur 15/18 comparaisons modèles/benchmarks (+14.1pp en moyenne). Les garde-fous (fichiers immuables, séparation stricte train/val/test, reviewer autonome) préviennent le surapprentissage et les fuites de données. Idéal pour les équipes produisant des workflows multi-hops ou des agents de raisonnement complexes.
Angle possible pour une vidéo YouTube : "Finis les prompts cassés : comment FAPO optimise vos pipelines LLM automatiquement (et bat l'état de l'art)"
Source originale : Cisco AI Blog
URL directe :

Date : 20/01/2026
Catégorie : agent IA / outil
Résumé technique : Nous Research ajoute le mode Blank Slate à son framework d'agent self-improving Hermes. Contrairement aux setups par défaut qui activent web, vision, mémoire, exécution de code, MCP et plugins, Blank Slate démarre avec zéro capacité activée. Seuls le provider/modèle, l'accès fichiers et le terminal sont autorisés. Les décisions de désactivation sont persistantes sur disque (agent.disabled_toolsets + platform_toolsets.cli), garantissant qu'aucune mise à jour ne réactive silencieusement des outils non explicitement approuvés.
Pourquoi c’est intéressant : Répond à une demande critique de sécurité, reproductibilité et conformité dans les déploiements enterprise ou éducatifs. Permet de construire un agent "zero-trust" où chaque nouvelle capacité (web, vision, délégation) doit être opt-in explicite. Le séparateur strict entre secrets (~/.hermes/.env) et configs (~/.hermes/config.yaml) renforce le gouvernance. Un changement de paradigme pour les équipes fatiguées du "bloat" fonctionnel des agents grand public.
Angle possible pour une vidéo YouTube : "L'agent IA minimaliste qui change la donne : pourquoi moins de permissions = plus de sécurité (Hermes Blank Slate)"
Source originale : Nous Research (X/Twitter & Blog officiel)
URL directe :

Date : 19/01/2026
Catégorie : outil / méthode technique
Résumé technique : MoonMath.ai publie un kernel forward attention bf16 open-source (MIT) spécifiquement pour le GPU AMD MI300X (gfx942). L'astuce centrale repose sur des wrappers __device__ __forceinline__ encapsulant une seule instruction asm (v_mfma_f32_16x16x16_bf16), permettant de choisir l'opcode tout en laissant le compilateur gérer l'allocation des registres. L'architecture utilise 8 waves par bloc en deux groupes décalés pour saturer les cœurs matriciels sans temps mort. Le placement mémoire est optimisé : K en LDS double-tamponné, V résident en L1, Q et accumulateurs en VGPRs.
Pourquoi c’est intéressant : Déploie 1.18x à 1.26x plus vite que le kernel officiel AMD AITER v3 sur toutes les formes et modes d'arrondi testés, tout en garantissant une détermination numérique bit-identique. Intégré dans SGLang, il accélère la génération vidéo Wan2.1 de 1.23x sans régression qualité. Offre une référence technique atypique pour les devs RoCM/HIP cherchant à contourner les limites des kernels propriétaires.
Angle possible pour une vidéo YouTube : "Battre les kernels officiels AMD sur MI300X : optimiser l'attention LLM avec du code HIP open-source"
Source originale : MoonMath.ai / Communauté ML/HuggingFace
URL directe :

Date : 19/01/2026
Catégorie : outil / infrastructure IA
Résumé technique : Yandex open-source YaFF (Yet another Flat Format) sous Apache 2.0, une bibliothèque C++ offrant un format de sérialisation zero-copy compatible sémantiquement avec Protobuf. Le fichier .proto reste la source de vérité ; YaFF ne modifie que le layout physique en mémoire. Quatre layouts sont proposés : Fixed (schema gelé), Flat (évolution restreinte, +2 octets), Sparse (table meta, évolution libre), et Dynamic (sélection runtime). Des annotations de code généré aident le compilateur LLVM à réutiliser les chaînes d'accès sans ré-itération.
Pourquoi c’est intéressant : Le parsing Protobuf consomme souvent 10-20% du CPU dans les backends haute fréquence. YaFF permet une adoption progressive (conversion bidirectionnelle aux frontières) tout en supprimant l'étape de parsing en lecture. En production chez Yandex, il rapporte 10-20% d'économie CPU. Le layout Flat atteint ~3.8x la vitesse de FlatBuffers et reste à 1.2x d'un struct C++ brut. Idéal pour les systèmes de recommandation, indices mémoire-mappés et pipelines ML read-heavy.
Angle possible pour une vidéo YouTube : "Protobuf est trop lent ? Le format zero-copy de Yandex qui fait craquer FlatBuffers en prod"
Source originale : Yandex / yaff.tech
URL directe :