Insights · 15 de novembro de 2025
Custo real de LLM em produção: o que ninguém fala
Tokens, latência, cache e os modelos certos para cada caso de uso. O que aprendemos operando IA em e-commerce.
Insights"IA é barata" é verdade e mentira ao mesmo tempo. GPT-4o a R$ 0.015 por mil tokens parece barato, até você calcular que um fluxo de atendimento com contexto de pedido usa 8.000 tokens por conversa, e você tem 500 conversas/dia.
Oito mil tokens × 500 conversas × R$ 0.015 / 1000 = R$ 60/dia. R$ 1.800/mês. Para uma loja mid-market, isso é aceitável se gerar retorno. Mas muitos times não calculam antes de escalar.
O que aprendemos operando IA em produção para e-commerce:
Cache é obrigatório. Perguntas sobre status de pedido têm padrões repetíveis, o contexto muda, mas a estrutura da resposta não. Cache semântico pode reduzir custos em 40-60% em casos de atendimento de alta repetição.
Modelo certo para cada tarefa. GPT-4o para raciocínio complexo, GPT-4o-mini para classificação e extração de dados, embeddings de texto simples para busca. Usar o modelo mais caro para tudo é o erro mais comum.
Latência importa para UX. P95 de 3s numa resposta de atendimento é inaceitável. Streaming resolve percepção, mas não resolve latência real. Pré-aquecimento de contexto e resposta parcial são técnicas que usamos em produção.
Gostou do que leu?
Conversamos sobre como isso se aplica à sua operação.
Mais de Insights
InsightsLER AGORAState of E-commerce Brasil 2027
GMV consolidado, plataformas em crescimento, gargalos que persistem e onde a IA está (de fato) gerando resultado.
InsightsLER AGORAOlist, Nuvemshop ou VTEX: qual plataforma para qual fase?
Um framework honesto para escolher (ou migrar) de plataforma baseado em GMV, equipe e complexidade operacional.
InsightsLER AGORACRO para mid-market: o que funciona em lojas de R$ 5M a R$ 50M/ano
Análise de 40 lojas: o que move a taxa de conversão de fato, e o que é só hipótese bonita.


