Launch HN: IonRouter (YC W26) – High-throughput, low-cost inference
IonAttention offre une inférence à haut débit et à faible coût, avec un moteur capable de multiplexer des modèles sur un seul GPU et de s'adapter au trafic en temps réel. Des flux GPU dédiés assurent zéro démarrage à froid et une facturation à la seconde, permettant de déployer vos modèles finetunés ou LoRA personnalisés sans latence. Votre client OpenAI existant peut pointer vers Ion en une seule ligne de changement, quel que soit le langage ou le framework. Le modèle économique repose sur le paiement par million de tokens, sans coûts inactifs, et propose une variété de modèles open-source et propriétaires avec des débits allant jusqu'à environ 220 tokens/s selon la configuration. Les usages couvrent la robotique, la surveillance vidéo et les pipelines IA, avec des cas d'étude montrant plusieurs VLM sur une seule GPU et un déploiement rapide des flux.