/ Кейс-стади · 402.blockvault.ai

GPU-инференс за токен.

402.blockvault.ai тарифицирует LLM-инференс (Gemma 4, Llama) за токен через USDC на Base. Это доказывает, что x402 работает как настоящий платёжный метод, а не демо.

→ 402.blockvault.ai

/ 01

Аутентификация: SIWE

Пользователи авторизуются через Sign-In With Ethereum (SIWE). Wallet подписывает EIP-4361-сообщение, сервер возвращает JWT. Все последующие запросы несут JWT для идентификации сессии.

/ 02

Модель тарификации кредитами

Пользователи покупают кредиты (USDC → кредиты) через x402. Когда кредиты заканчиваются во время инференса, сервер возвращает 402 прямо в потоке. Wallet автоматически пополняет, если политики разрешают, или останавливается и спрашивает вас.

/ 03

SSE-стриминг

Ответы инференса отправляются через Server-Sent Events. Каждый чанк включает количество токенов и остаток кредитов. Клиент рендерит токены по мере прихода и показывает счётчик затрат в реальном времени.

/ 04

Управление GPU

Сервер обрабатывает cold-старты прозрачно. Если ни один экземпляр не активен, первый запрос может занять 10–30 секунд. Последующие запросы внутри той же сессии попадают в KV cache и отвечают меньше чем за 1 секунду на токен.

/ End-to-end flow

User opens BlockVault
  → Selects "Delegate GPU" inference mode
  → Wallet signs SIWE message (EIP-4361)
  → Server returns JWT session token

User sends prompt
  → POST /inference { model: "gemma-4-e2b", prompt: "..." }
  → Server checks credits
    ├── Credits OK → Stream inference via SSE
    └── Credits LOW → Return 402 + payment-required
        → Wallet auto-signs x402 (EIP-3009 USDC on Base)
        → Retry with payment-signature
        → Credits topped up → Stream continues

Последнее обновление: