/ Case Study · 402.blockvault.ai

GPU-Inferenz pro Token.

402.blockvault.ai rechnet LLM-Inferenz (Gemma 4, Llama) pro Token ab via USDC auf Base. Es beweist, dass x402 als echte Payment-Methode funktioniert, nicht als Demo.

→ 402.blockvault.ai

/ 01

Authentifizierung: SIWE

User authentifizieren sich via Sign-In With Ethereum (SIWE). Das Wallet signiert eine EIP-4361-Message, der Server schickt ein JWT zurück. Alle nachfolgenden Requests tragen das JWT für Session-Identity.

/ 02

Credit-Billing-Modell

User kaufen Credits (USDC → Credits) via x402. Wenn Credits während Inferenz niedrig werden, schickt der Server 402 mid-stream. Das Wallet rechargt automatisch, wenn Policies es erlauben, oder pausiert und fragt dich.

/ 03

SSE streaming

Inferenz-Responses werden via Server-Sent Events gesendet. Jeder Chunk enthält Token-Count und verbleibende Credits. Der Client rendert Token, sobald sie ankommen, und zeigt einen Real-Time-Cost-Counter.

/ 04

GPU-Management

Der Server handhabt cold-starts transparent. Wenn keine Instanz aktiv ist, kann der erste Request 10 bis 30 Sekunden dauern. Nachfolgende Requests innerhalb derselben Session treffen KV-Cache und antworten in unter 1 Sekunde pro Token.

/ End-to-end flow

User opens BlockVault
  → Selects "Delegate GPU" inference mode
  → Wallet signs SIWE message (EIP-4361)
  → Server returns JWT session token

User sends prompt
  → POST /inference { model: "gemma-4-e2b", prompt: "..." }
  → Server checks credits
    ├── Credits OK → Stream inference via SSE
    └── Credits LOW → Return 402 + payment-required
        → Wallet auto-signs x402 (EIP-3009 USDC on Base)
        → Retry with payment-signature
        → Credits topped up → Stream continues

Zuletzt aktualisiert: