Tech

Edge computing: o que aprendemos rodando IA na borda em 6 meses

Modelos quantizados em Cloudflare Workers, ONNX no navegador, llama.cpp em Raspberry Pi. Onde compensa, onde ainda não.

Em 2026, “rodar IA na borda” deixou de ser pesquisa experimental e virou opção real de arquitetura. Em 6 meses no laboratório, testamos três cenários reais. O resumo: muito mais difícil do que vendem, e muito mais útil do que parece em alguns casos específicos.

Cenário 1: classificação de texto em Cloudflare Workers AI

Modelo: Llama-3.2-3B quantizado para 4-bit Tarefa: classificar tickets de suporte em 12 categorias Volume: ~80k requests/dia

Resultado

  • Latência média: 120 ms (vs 800 ms chamando OpenAI)
  • Custo: $8/mês (vs $240/mês na OpenAI no mesmo volume)
  • Acurácia: 91% (vs 96% no GPT-4o)

Trade-off claro: 5% menos preciso, 30x mais barato, 7x mais rápido. Para classificação de ticket onde o humano revisa de qualquer jeito, vale demais.

O que não documentavam

  • Tamanho do modelo no edge: Cloudflare Workers AI cobra por modelo ativo. Modelos > 8GB têm cold start de 5-8s na primeira request da hora.
  • Determinismo: quantização 4-bit introduz não-determinismo perceptível. Mesmo input pode dar saídas diferentes em 1-2% das requests.

Cenário 2: ONNX no navegador (busca semântica client-side)

Modelo: all-MiniLM-L6-v2 (22 MB após quantização) Tarefa: busca semântica em um catálogo de 5k itens Onde roda: direto no navegador do usuário, via WebAssembly

Resultado

  • Latência de inferência: 40-80 ms (M1 Mac), 200 ms (Android médio)
  • Custo de servidor: $0 (tudo no client)
  • Privacidade: dados nunca saem do device

O que não documentavam

  • Download inicial de 22MB trava o primeiro paint. Solução: lazy-load com IntersectionObserver na busca, não na home.
  • Memória: modelos em WebAssembly não liberam memória depois de carregados — chrome chega a 800MB de RAM no tab. Não dá pra carregar 3 modelos diferentes.
  • iOS Safari tem implementação WASM limitada. Em iPhones antigos, a inferência leva 2-3s.

Cenário 3: llama.cpp em Raspberry Pi 5 (lab-only, off-grid)

Modelo: Llama-3.2-1B quantizado em 4-bit (700 MB) Tarefa: assistant para o sistema de monitoramento de sensores do lab Onde roda: Raspberry Pi 5 8GB conectado direto aos sensores, sem internet

Resultado

  • Tokens/segundo: 8-12 (suficiente para resposta de 100 tokens em ~10s)
  • RAM: 1.8 GB em uso constante
  • Funciona offline, sem dependência de API externa

Custo

  • Raspberry Pi 5 8GB: R$ 900
  • SD card 128GB: R$ 80
  • Cooler ativo: R$ 60
  • Total: R$ 1040 hardware único vs ~R$ 100/mês de API perpétua

Em 11 meses se paga. Útil para cenários air-gapped (laboratórios sensíveis, ambientes sem internet).

Quando edge NÃO compensa

  • Modelos > 8 GB (Llama 70B, GPT-5) — edge não tem RAM/GPU pra isso
  • Workloads com baixíssimo volume (< 100 req/dia) — overhead de operação não compensa
  • Aplicações onde 5% de queda na precisão é inaceitável (saúde, jurídico, financeiro)

Checklist para considerar edge no seu caso

  1. Volume > 10k req/dia? ✅ sim, vale avaliar
  2. Modelo tem versão quantizada de qualidade conhecida? ✅ vale avaliar
  3. Latência atual é gargalo? ✅ vale avaliar
  4. Custo de API hoje > R$ 500/mês? ✅ vale avaliar
  5. Time tem alguém disposto a aprender quantização? ✅ vale avaliar

Se respondeu sim em 3+, faça um POC de 1 semana.

Conclusão

Edge AI é tecnologia real e útil — mas apenas em casos específicos onde o trade-off de precisão por latência/custo/privacidade compensa. Para 80% dos workloads, chamar OpenAI ainda é a escolha certa.

A pergunta correta não é “podemos colocar IA na borda?” mas “esse caso específico paga o custo operacional de manter modelo na borda?”