/ Caso de estudio · 402.blockvault.ai
Inferencia GPU por token.
402.blockvault.ai cobra inferencia LLM (Gemma 4, Llama) por token vía USDC en Base. Demuestra que x402 funciona como medio de pago real, no como demo.
→ 402.blockvault.ai
Autenticación: SIWE
Los usuarios se autentican con Sign-In With Ethereum (SIWE). La wallet firma un mensaje EIP-4361, el servidor devuelve un JWT. Todas las requests posteriores llevan el JWT para identificar la sesión.
Modelo de facturación por créditos
Los usuarios compran créditos (USDC → créditos) vía x402. Cuando los créditos bajan durante la inferencia, el servidor devuelve 402 mid-stream. La wallet recarga automáticamente si las políticas lo permiten, o pausa y te pregunta.
Streaming SSE
Las respuestas de inferencia se envían vía Server-Sent Events. Cada chunk incluye conteo de tokens y créditos restantes. El cliente renderiza tokens a medida que llegan y muestra un contador de coste en tiempo real.
Gestión de GPU
El servidor gestiona los cold-starts de forma transparente. Si no hay instancia activa, la primera request puede tardar 10-30s. Las siguientes dentro de la misma sesión acceden al KV cache y responden en menos de 1s por token.
/ End-to-end flow
User opens BlockVault
→ Selects "Delegate GPU" inference mode
→ Wallet signs SIWE message (EIP-4361)
→ Server returns JWT session token
User sends prompt
→ POST /inference { model: "gemma-4-e2b", prompt: "..." }
→ Server checks credits
├── Credits OK → Stream inference via SSE
└── Credits LOW → Return 402 + payment-required
→ Wallet auto-signs x402 (EIP-3009 USDC on Base)
→ Retry with payment-signature
→ Credits topped up → Stream continuesÚltima actualización: