Insights · 15 de novembro de 2025

Custo real de LLM em produção: o que ninguém fala

Tokens, latência, cache e os modelos certos para cada caso de uso. O que aprendemos operando IA em e-commerce.

Time Uncode · 8 min de leitura

Insights

72% dos lojistas brasileiros já usam IA em alguma tarefa (NuvemCommerce 2026, via Nuvemshop). O problema é que "usar IA" e "operar IA com custo sob controle" são coisas diferentes, e a conta só aparece quando o volume cresce. "IA é barata" é verdade e mentira ao mesmo tempo.

Este post é sobre a parte que ninguém coloca no slide: o custo real de rodar LLM em produção, e as três decisões que separam uma operação de IA que se paga de uma que sangra dinheiro em silêncio.

A conta que ninguém faz antes de escalar

Um modelo a fração de centavo por mil tokens parece barato. Fica caro quando você multiplica. Um fluxo de atendimento com contexto de pedido consome facilmente 8.000 tokens por conversa. Multiplique por 500 conversas por dia e o barato vira uma linha fixa relevante no fim do mês.

Não é um número que quebra uma loja mid-market, se gerar retorno. O problema é que muitos times não fazem essa multiplicação antes de escalar. Ligam a IA num piloto de 20 conversas por dia, comemoram o custo irrisório, e só descobrem a conta real quando o volume passa de mil. A hora de calcular é antes, não depois.

Cache é obrigatório, não otimização

Perguntas sobre status de pedido têm padrões repetíveis. O contexto muda de cliente para cliente, mas a estrutura da resposta não. Isso abre espaço para cache, e cache não é um luxo de quem já otimizou tudo. É a primeira coisa a fazer.

Dado interno da Uncode: em casos de atendimento de alta repetição, cache semântico reduz o custo de 40% a 60%. É a diferença entre pagar pela mesma pergunta mil vezes e pagar por ela uma vez. Quem não cacheia está financiando a repetição.

O modelo certo para cada tarefa

O erro mais comum é usar o modelo mais caro e mais capaz para tudo. Raciocínio complexo pede um modelo forte. Classificação, extração de dados e roteamento de intenção não pedem, e rodá-los no modelo topo de linha é pagar caro por um trabalho que um modelo menor faz igual.

A regra prática: reserve o modelo caro para o que exige raciocínio, use modelos menores para tarefas estruturadas, e use embeddings simples para busca. A conta de uma operação de IA bem desenhada não é sobre usar o melhor modelo. É sobre usar o modelo certo em cada ponto do fluxo.

Latência é custo de experiência

Custo não é só dinheiro. É tempo. Um P95 de 3 segundos numa resposta de atendimento é inaceitável, o cliente já saiu antes de a resposta chegar. E a percepção de lentidão custa conversão do mesmo jeito que custa no carregamento de página.

Streaming ajuda na percepção, mostra a resposta saindo enquanto ela é gerada, mas não resolve a latência real. Técnicas como pré-aquecimento de contexto e resposta parcial, que usamos em produção, atacam o tempo de verdade. A honestidade aqui: nem toda tarefa precisa ser instantânea. Um resumo interno pode levar segundos sem problema. Um atendimento ao vivo, não. Otimize latência onde o cliente sente, não em todo lugar.

O que fazer com isso

Antes de escalar qualquer IA em produção, faça a multiplicação: tokens por interação, vezes o volume no pico, vezes o preço do modelo. Se o número assusta, o problema quase nunca é a IA. É o desenho: modelo caro demais para a tarefa, ausência de cache, ou latência otimizada onde não precisa.

Operar IA com custo sob controle é engenharia, não sorte. Se você está colocando IA no atendimento ou na operação e quer entender onde a conta vai doer antes de escalar, a conversa é de 30 minutos, sem pitch: você mostra o caso de uso e a gente aponta, honestamente, onde está o custo escondido.

Fontes

NuvemCommerce 2026, via Nuvemshop (adoção de IA por lojistas brasileiros). Os números de operação da Uncode (redução de 40% a 60% com cache semântico, técnicas de latência em produção) são internos.

Gostou do que leu?

Conversamos sobre como isso se aplica à sua operação.

Conversar com o time

Mais de Insights

16 DE JUL DE 2026

Quando sair do Olist ou Nuvemshop para VTEX (e quando não)

A migração para VTEX cria mais loja quebrada do que loja escalada. Um framework por fase do negócio para decidir a hora certa, com os números de GMV, equipe e custo que a maioria dos vendedores não te mostra.

Ler agora →

16 DE JUL DE 2026

Automação financeira: sair do Excel sem quebrar o que funciona

94% das planilhas de negócio contêm erro, e o financeiro é onde isso custa mais caro. Como automatizar contas a pagar, conciliação e fechamento de forma incremental, sem o big-bang que quebra a operação no meio do mês.

Ler agora →

16 DE JUL DE 2026

Migração de plataforma sem perder faturamento: o checklist

83% dos projetos de migração de dados estouram prazo ou fracassam. A boa notícia é que quase tudo que dá errado numa troca de plataforma é previsível. Aqui está o checklist honesto por fase: antes, cutover e depois.

Ler agora →