/ Caso de estudio · 402.blockvault.ai

Inferencia GPU por token.

402.blockvault.ai cobra inferencia LLM (Gemma 4, Llama) por token vía USDC en Base. Demuestra que x402 funciona como medio de pago real, no como demo.

→ 402.blockvault.ai

/ 01

Autenticación: SIWE

Los usuarios se autentican con Sign-In With Ethereum (SIWE). La wallet firma un mensaje EIP-4361, el servidor devuelve un JWT. Todas las requests posteriores llevan el JWT para identificar la sesión.

/ 02

Modelo de facturación por créditos

Los usuarios compran créditos (USDC → créditos) vía x402. Cuando los créditos bajan durante la inferencia, el servidor devuelve 402 mid-stream. La wallet recarga automáticamente si las políticas lo permiten, o pausa y te pregunta.

/ 03

Streaming SSE

Las respuestas de inferencia se envían vía Server-Sent Events. Cada chunk incluye conteo de tokens y créditos restantes. El cliente renderiza tokens a medida que llegan y muestra un contador de coste en tiempo real.

/ 04

Gestión de GPU

El servidor gestiona los cold-starts de forma transparente. Si no hay instancia activa, la primera request puede tardar 10-30s. Las siguientes dentro de la misma sesión acceden al KV cache y responden en menos de 1s por token.

/ End-to-end flow

User opens BlockVault
  → Selects "Delegate GPU" inference mode
  → Wallet signs SIWE message (EIP-4361)
  → Server returns JWT session token

User sends prompt
  → POST /inference { model: "gemma-4-e2b", prompt: "..." }
  → Server checks credits
    ├── Credits OK → Stream inference via SSE
    └── Credits LOW → Return 402 + payment-required
        → Wallet auto-signs x402 (EIP-3009 USDC on Base)
        → Retry with payment-signature
        → Credits topped up → Stream continues

Última actualización: