IA - 18/05/2026
LiteLLM Agent Platform : Infrastructure open source pour le déploiement production d'agents IA stateful
- Date : 08/05/2026
- Catégorie : Agent IA / Automatisation
- Résumé technique : BerriAI open-source une plateforme d'infrastructure self-hosted conçue spécifiquement pour exécuter des agents IA en production sans perte d'état. Le système résout la disparition du contexte lors des redémarrages de pods via une persistance Postgres et isole chaque exécution dans des sandboxes Kubernetes dédiés (
kubernetes-sigs/agent-sandboxCRD). L'architecture sépare clairement le dashboard Next.js, le worker async et le cluster de sandboxes, tout en s'appuyant sur la LiteLLM Gateway pour le routage multi-LLM, la facturation et les guardrails 29. - Pourquoi c’est intéressant : Permet aux équipes techniques de passer du script local au déploiement robuste sans collision d'environnements ni fuite de secrets. Idéal pour les entreprises soucieuses de la résidence des données, le multi-tenancy ou les workflows nécessitant une isolation stricte par projet/contexte.
- Angle possible pour une vidéo YouTube : "Déployer des agents IA en production sans bug : Comment LiteLLM résout la perte de mémoire et l'isolation des sandboxes"
- Source originale : BerriAI / GitHub
- URL directe : https://github.com/BerriAI/litellm-agent-platform
NVIDIA SANA-WM : Modèle de monde vidéo de 2,6B params générant 60 secondes en 720p sur un seul GPU
- Date : 05/2026
- Catégorie : LLM / Nouvelle méthode / Outil
- Résumé technique : Basé sur le codebase SANA-Video, ce Diffusion Transformer intègre une attention linéaire hybride avec Gated DeltaNet (GDN) pour maintenir un état récurrent constant sans dérive temporelle sur les longues séquences. Le contrôle caméra utilise une architecture dual-branch (UCPE pour la trajectoire globale, Plücker mixing pour les mouvements intra-frame) et un pipeline en deux étapes avec un refiner LTX-2 corrige les artefacts. L'inférence du variant distillé génère une minute de vidéo 720p en 34 secondes sur un RTX 5090 avec quantisation NVFP4 30.
- Pourquoi c’est intéressant : Brise le goulot d'étranglement du compute pour la génération vidéo longue et contrôlée métriquement. Ouvre la voie à des simulations réalistes low-cost pour l'embodied AI, le cinéma indépendant et les workflows de création assistée sans infra multi-GPU.
- Angle possible pour une vidéo YouTube : "1 minute de vidéo 720p sur un seul GPU : L'architecture SANA-WM d'NVIDIA qui change la donne pour la gen AI"
- Source originale : NVIDIA Research / arXiv
- URL directe : https://arxiv.org/pdf/2605.15178