/ IA sur appareil · LiteRT
Une IA qui tourne sur votre téléphone.
BlockVault embarque des modèles Gemma 4 qui s'exécutent entièrement sur votre appareil. Vos prompts, transactions et clés privées ne quittent jamais votre téléphone. Quand vous avez besoin de plus de puissance, déléguez à un GPU via x402, en ne payant que ce que vous consommez.
/ Qu'est-ce que l'IA sur appareil
Votre IA, votre matériel.
L'IA sur appareil signifie exécuter des modèles de langage directement sur le processeur de votre téléphone, sans internet, sans API cloud, sans serveurs tiers. BlockVault utilise LiteRT (l'évolution de TensorFlow Lite) pour exécuter des modèles Gemma 4 quantifiés avec accélération matérielle. Chaque inférence se fait localement : vos données restent privées par conception, pas par politique.
Modèles inclus
- Gemma 4 E2B — Ultra-rapide pour la revue de transactions, la validation d'adresses et les Q&R rapides. Fonctionne sur tout téléphone avec 4 Go de RAM.
- Gemma 4 E4B — Capacités d'agent complètes : raisonnement multi-étapes, détection d'arnaques, exécution de compétences. Nécessite 6 Go de RAM.
- LM Studio — Connectez-vous à une instance LM Studio locale sur votre réseau local pour des modèles desktop sans latence cloud.
/ Confidentialité par architecture
Aucune donnée ne quitte votre appareil.
La plupart des portefeuilles IA envoient votre historique de transactions, soldes et prompts vers une API cloud. BlockVault fait l'inverse : l'inférence tourne sur votre matériel, les clés privées vivent dans un stockage sécurisé matériel, et le réseau ne voit que les transactions signées que vous approuvez explicitement.
Pas de prompts cloud
Vos questions et le contexte de votre portefeuille restent sur appareil. Rien n'est envoyé à OpenAI, Google ou toute API d'inférence tierce.
Clés sécurisées matériellement
Les clés privées sont stockées dans l'Android Keystore (TEE/StrongBox). Le modèle IA ne peut pas accéder aux clés brutes, seulement signer les requêtes que vous approuvez.
Fonctionne hors ligne
L'inférence sur appareil fonctionne sans internet. Révisez des transactions, détectez du phishing et consultez vos soldes même en mode avion.
/ Inférence locale
Trois runtimes, un seul portefeuille.
BlockVault supporte trois modes d'inférence pour toujours avoir le bon équilibre entre vitesse, confidentialité et capacité, d'un modèle 2B qui répond en millisecondes à un serveur GPU complet qui gère des tâches d'agent multi-étapes complexes.
- → Sur appareil (LiteRT) : latence zéro, totalement hors ligne, confidentialité maximale
- → LM Studio (LAN) : modèles desktop, sans cloud, moins de 100ms
- → GPU délégué (x402) : puissance serveur, paiement par token en USDC
/ GPU délégué via x402
Quand vous avez besoin de plus de puissance.
Pour les tâches d'agent complexes (raisonnement multi-sauts, grandes fenêtres de contexte ou opérations par lots), BlockVault peut déléguer l'inférence à 402.blockvault.ai. Vous payez par token en USDC sur Base via le protocole x402. Pas d'abonnement, pas de clé API, pas de compte requis.
Comment fonctionne le GPU délégué →/ Sur appareil vs cloud
Pourquoi l'inférence locale gagne.
| Dimension | Sur appareil (BlockVault) | IA cloud (typique) |
|---|---|---|
| Confidentialité des données | Les prompts ne quittent jamais le téléphone | Envoyés vers des serveurs tiers |
| Coût | Gratuit (matériel que vous possédez) | Frais API par token |
| Latence | < 50ms premier token | 200-800ms aller-retour réseau |
| Capacité hors ligne | Oui, totalement fonctionnel | Non, nécessite internet |
| Contrôle des données | Auto-garde, vous possédez toutes les données | Conditions d'utilisation du fournisseur s'appliquent |
/ FAQ
Questions sur l'IA sur appareil.
- Quels modèles IA BlockVault exécute-t-il sur appareil ?
- BlockVault embarque Gemma 4 E2B (2 milliards de paramètres) et Gemma 4 E4B (4 milliards de paramètres), tous deux optimisés pour mobile via quantification LiteRT. Vous pouvez aussi connecter une instance LM Studio locale pour des modèles plus grands.
- BlockVault envoie-t-il mes données vers une IA cloud ?
- Non. L'inférence sur appareil tourne entièrement sur le CPU/GPU de votre téléphone. Vos prompts, soldes et historique de transactions ne quittent jamais l'appareil. Si vous optez pour le mode GPU délégué, seul le prompt spécifique est envoyé. Vos clés et soldes restent locaux.
- Puis-je utiliser les fonctionnalités IA sans internet ?
- Oui. L'inférence sur appareil fonctionne totalement hors ligne. Vous pouvez réviser des transactions, détecter des liens de phishing, valider des adresses et consulter votre portefeuille sans aucune connexion réseau.
- Comment l'IA sur appareil se compare-t-elle à ChatGPT ou aux API cloud ?
- Les modèles sur appareil sont plus petits (2-4B params vs 100B+) mais s'exécutent avec latence zéro et confidentialité totale. Pour la plupart des tâches de portefeuille (revue de transactions, détection d'arnaques, Q&R rapides), leurs performances sont comparables. Pour du raisonnement multi-étapes complexe, BlockVault vous permet de déléguer à un serveur GPU via x402, en ne payant que ce que vous utilisez.
- Qu'est-ce que le GPU délégué et comment je le paie ?
- Le GPU délégué envoie votre prompt à 402.blockvault.ai, un serveur exécutant des modèles plus grands sur GPU dédiés. Vous payez par token en USDC sur Base via le protocole x402, typiquement 0,001-0,01 $ par réponse. Pas d'abonnement, pas de clé API requise.
/ Commencer
Une IA qui respecte votre vie privée.
Téléchargez BlockVault et exécutez l'IA sur votre téléphone, sans cloud, sans abonnements, sans fuites de données. Gratuit sur Android.