/ Case Study · 402.blockvault.ai
GPU-Inferenz pro Token.
402.blockvault.ai rechnet LLM-Inferenz (Gemma 4, Llama) pro Token ab via USDC auf Base. Es beweist, dass x402 als echte Payment-Methode funktioniert, nicht als Demo.
→ 402.blockvault.ai
Authentifizierung: SIWE
User authentifizieren sich via Sign-In With Ethereum (SIWE). Das Wallet signiert eine EIP-4361-Message, der Server schickt ein JWT zurück. Alle nachfolgenden Requests tragen das JWT für Session-Identity.
Credit-Billing-Modell
User kaufen Credits (USDC → Credits) via x402. Wenn Credits während Inferenz niedrig werden, schickt der Server 402 mid-stream. Das Wallet rechargt automatisch, wenn Policies es erlauben, oder pausiert und fragt dich.
SSE streaming
Inferenz-Responses werden via Server-Sent Events gesendet. Jeder Chunk enthält Token-Count und verbleibende Credits. Der Client rendert Token, sobald sie ankommen, und zeigt einen Real-Time-Cost-Counter.
GPU-Management
Der Server handhabt cold-starts transparent. Wenn keine Instanz aktiv ist, kann der erste Request 10 bis 30 Sekunden dauern. Nachfolgende Requests innerhalb derselben Session treffen KV-Cache und antworten in unter 1 Sekunde pro Token.
/ End-to-end flow
User opens BlockVault
→ Selects "Delegate GPU" inference mode
→ Wallet signs SIWE message (EIP-4361)
→ Server returns JWT session token
User sends prompt
→ POST /inference { model: "gemma-4-e2b", prompt: "..." }
→ Server checks credits
├── Credits OK → Stream inference via SSE
└── Credits LOW → Return 402 + payment-required
→ Wallet auto-signs x402 (EIP-3009 USDC on Base)
→ Retry with payment-signature
→ Credits topped up → Stream continuesZuletzt aktualisiert: