Insights · 15 de novembro de 2025

Custo real de LLM em produção: o que ninguém fala

Tokens, latência, cache e os modelos certos para cada caso de uso. O que aprendemos operando IA em e-commerce.

Custo real de LLM em produção: o que ninguém falaInsights

"IA é barata" é verdade e mentira ao mesmo tempo. GPT-4o a R$ 0.015 por mil tokens parece barato, até você calcular que um fluxo de atendimento com contexto de pedido usa 8.000 tokens por conversa, e você tem 500 conversas/dia.

Oito mil tokens × 500 conversas × R$ 0.015 / 1000 = R$ 60/dia. R$ 1.800/mês. Para uma loja mid-market, isso é aceitável se gerar retorno. Mas muitos times não calculam antes de escalar.

O que aprendemos operando IA em produção para e-commerce:

Cache é obrigatório. Perguntas sobre status de pedido têm padrões repetíveis, o contexto muda, mas a estrutura da resposta não. Cache semântico pode reduzir custos em 40-60% em casos de atendimento de alta repetição.

Modelo certo para cada tarefa. GPT-4o para raciocínio complexo, GPT-4o-mini para classificação e extração de dados, embeddings de texto simples para busca. Usar o modelo mais caro para tudo é o erro mais comum.

Latência importa para UX. P95 de 3s numa resposta de atendimento é inaceitável. Streaming resolve percepção, mas não resolve latência real. Pré-aquecimento de contexto e resposta parcial são técnicas que usamos em produção.

Gostou do que leu?

Conversamos sobre como isso se aplica à sua operação.

Conversar com a squad