/ Étude de cas · 402.blockvault.ai

Inférence GPU par token.

402.blockvault.ai est un serveur x402 en production qui facture l'inférence LLM (Gemma 4, Llama) par token en USDC sur Base. Ça prouve que x402 fonctionne comme un vrai moyen de paiement. Pas comme une démo.

→ 402.blockvault.ai

/ 01

Authentification : SIWE

Les utilisateurs s'authentifient via Sign-In With Ethereum (SIWE). Le wallet signe un message EIP-4361, le serveur renvoie un JWT. Toutes les requêtes suivantes portent le JWT pour l'identité de session.

/ 02

Facturation par crédits

Les utilisateurs achètent des crédits (USDC vers crédits) via x402. Quand les crédits baissent pendant l'inférence, le serveur renvoie un 402 mid-stream. Le wallet recharge automatiquement si les politiques le permettent. Sinon il pause et demande à l'utilisateur.

/ 03

Streaming SSE

Les réponses d'inférence sont envoyées via Server-Sent Events. Chaque chunk inclut le compteur de tokens et les crédits restants. Le client affiche les tokens au fil de l'eau avec un compteur de coût en temps réel.

/ 04

Gestion des GPU

Le serveur gère les cold-starts de façon transparente. Si aucune instance n'est active, la première requête peut prendre 10 à 30s. Les suivantes dans la même session accèdent au KV cache. Réponse en moins d'1s par token.

/ End-to-end flow

User opens BlockVault
  → Selects "Delegate GPU" inference mode
  → Wallet signs SIWE message (EIP-4361)
  → Server returns JWT session token

User sends prompt
  → POST /inference { model: "gemma-4-e2b", prompt: "..." }
  → Server checks credits
    ├── Credits OK → Stream inference via SSE
    └── Credits LOW → Return 402 + payment-required
        → Wallet auto-signs x402 (EIP-3009 USDC on Base)
        → Retry with payment-signature
        → Credits topped up → Stream continues

← x402 hub Implementation details

Dernière mise à jour:25 mai 2026