Edge computing: o que aprendemos rodando IA na borda em 6 meses
Modelos quantizados em Cloudflare Workers, ONNX no navegador, llama.cpp em Raspberry Pi. Onde compensa, onde ainda não.
Em 2026, “rodar IA na borda” deixou de ser pesquisa experimental e virou opção real de arquitetura. Em 6 meses no laboratório, testamos três cenários reais. O resumo: muito mais difícil do que vendem, e muito mais útil do que parece em alguns casos específicos.
Cenário 1: classificação de texto em Cloudflare Workers AI
Modelo: Llama-3.2-3B quantizado para 4-bit Tarefa: classificar tickets de suporte em 12 categorias Volume: ~80k requests/dia
Resultado
- Latência média: 120 ms (vs 800 ms chamando OpenAI)
- Custo: $8/mês (vs $240/mês na OpenAI no mesmo volume)
- Acurácia: 91% (vs 96% no GPT-4o)
Trade-off claro: 5% menos preciso, 30x mais barato, 7x mais rápido. Para classificação de ticket onde o humano revisa de qualquer jeito, vale demais.
O que não documentavam
- Tamanho do modelo no edge: Cloudflare Workers AI cobra por modelo ativo. Modelos > 8GB têm cold start de 5-8s na primeira request da hora.
- Determinismo: quantização 4-bit introduz não-determinismo perceptível. Mesmo input pode dar saídas diferentes em 1-2% das requests.
Cenário 2: ONNX no navegador (busca semântica client-side)
Modelo: all-MiniLM-L6-v2 (22 MB após quantização)
Tarefa: busca semântica em um catálogo de 5k itens
Onde roda: direto no navegador do usuário, via WebAssembly
Resultado
- Latência de inferência: 40-80 ms (M1 Mac), 200 ms (Android médio)
- Custo de servidor: $0 (tudo no client)
- Privacidade: dados nunca saem do device
O que não documentavam
- Download inicial de 22MB trava o primeiro paint. Solução: lazy-load com
IntersectionObserverna busca, não na home. - Memória: modelos em WebAssembly não liberam memória depois de carregados — chrome chega a 800MB de RAM no tab. Não dá pra carregar 3 modelos diferentes.
- iOS Safari tem implementação WASM limitada. Em iPhones antigos, a inferência leva 2-3s.
Cenário 3: llama.cpp em Raspberry Pi 5 (lab-only, off-grid)
Modelo: Llama-3.2-1B quantizado em 4-bit (700 MB) Tarefa: assistant para o sistema de monitoramento de sensores do lab Onde roda: Raspberry Pi 5 8GB conectado direto aos sensores, sem internet
Resultado
- Tokens/segundo: 8-12 (suficiente para resposta de 100 tokens em ~10s)
- RAM: 1.8 GB em uso constante
- Funciona offline, sem dependência de API externa
Custo
- Raspberry Pi 5 8GB: R$ 900
- SD card 128GB: R$ 80
- Cooler ativo: R$ 60
- Total: R$ 1040 hardware único vs ~R$ 100/mês de API perpétua
Em 11 meses se paga. Útil para cenários air-gapped (laboratórios sensíveis, ambientes sem internet).
Quando edge NÃO compensa
- Modelos > 8 GB (Llama 70B, GPT-5) — edge não tem RAM/GPU pra isso
- Workloads com baixíssimo volume (< 100 req/dia) — overhead de operação não compensa
- Aplicações onde 5% de queda na precisão é inaceitável (saúde, jurídico, financeiro)
Checklist para considerar edge no seu caso
- Volume > 10k req/dia? ✅ sim, vale avaliar
- Modelo tem versão quantizada de qualidade conhecida? ✅ vale avaliar
- Latência atual é gargalo? ✅ vale avaliar
- Custo de API hoje > R$ 500/mês? ✅ vale avaliar
- Time tem alguém disposto a aprender quantização? ✅ vale avaliar
Se respondeu sim em 3+, faça um POC de 1 semana.
Conclusão
Edge AI é tecnologia real e útil — mas apenas em casos específicos onde o trade-off de precisão por latência/custo/privacidade compensa. Para 80% dos workloads, chamar OpenAI ainda é a escolha certa.
A pergunta correta não é “podemos colocar IA na borda?” mas “esse caso específico paga o custo operacional de manter modelo na borda?”