CRM com Lead Scoring Preditivo

O problema

SDRs perdem 60-70% do tempo qualificando leads que nunca iam fechar mesmo. Lead scoring manual em CRM (regras tipo "fez download de e-book = +10 pontos") envelhece mal e não capta sinais não-óbvios.

A solução

Um modelo de lead scoring preditivo treinado no histórico do funil do cliente. Pontuação 0-100 atualizada em tempo real, integrada ao CRM via webhook, com explicabilidade (SHAP values) para o SDR entender por que aquele lead é quente.

Como funciona

Dados de treino: extração do CRM dos últimos 12-24 meses (leads fechados, perdidos, em andamento) + enrichment via Clearbit/Apollo
Modelo: Gradient Boosting (XGBoost). interpretável e robusto a sinal ruidoso
Features típicas: empresa (tamanho, indústria, stack técnico), pessoa (cargo, seniority), comportamento (e-mails abertos, sessões no site, demos agendadas), tempo (estágio do funil, dias parado)
Inferência: API FastAPI que recebe payload do CRM, retorna score 0-100 + top-3 features que influenciaram
Webhook: CRM atualiza campo customizado predicted_score em tempo real

Métricas

Cliente B2B SaaS (R$ 35M ARR):

Tempo gasto em leads ruins reduziu 47%
Taxa de conversão MQL → SQL subiu de 18% para 31%
Vendedores top performers concordam com o score em 89% dos casos (validação humana)

O que vem incluso

Pipeline de treino versionado (re-treina automaticamente toda semana)
API FastAPI rodando em Cloud Run / Vercel / cloud do cliente
Webhook bidirecional com Salesforce / HubSpot / RD Station
Painel de explicabilidade: para cada lead, mostra as features que pesaram + comparativo com leads similares fechados
Monitoramento de drift (se o modelo começa a errar, time é alertado)
Validação humana: cada decisão pode ser marcada como "concordo/discordo" para fine-tuning contínuo

Stack

Modelo: XGBoost (com fallback explicado para LogisticRegression em datasets pequenos)
Enrichment: Apollo, Clearbit, ZoomInfo, ou web scraping interno
API: Python 3.13 + FastAPI + Pydantic v2
CRM: Salesforce, HubSpot, RD Station, Pipedrive, Hubspot, Active Campaign

Tempo de implementação

4-5 semanas:

Sprint 1: extração de dados + análise de viabilidade (sinal disponível)
Sprint 2: treino + validação + métricas baseline
Sprint 3: API + webhook + painel
Sprint 4: rollout gradual (50% leads vão pro modelo, 50% pro processo atual)

FAQ

E se não tenho histórico de 12 meses? Aceitamos a partir de 6 meses (com perda de precisão controlada). Abaixo disso, sugerimos começar com regras lógicas simples e migrar para ML quando atingir volume de 200+ leads fechados.

O modelo entende o contexto da minha indústria? Sim. ele é treinado no SEU funil, não num genérico. O sinal vem da sua realidade específica. Modelos genéricos têm precisão pior.

E quanto a viés algorítmico? Auditoria de fairness no setup inicial: comparamos score por gênero/região/tamanho de empresa para detectar viés sistemático. Relatório mensal automático com métricas de fairness.

Quanto tempo para implementar? 4-5 semanas em média: 2 sem de modelagem + 2 sem de integração + 1 sem de rollout gradual (shadow mode primeiro).

Posso ajustar o score manualmente? Sim. Vendedores podem dar feedback 'concordo/discordo' por lead, que alimenta o re-treino semanal. Override manual também é possível com justificativa logada.

Funciona com nosso CRM? Adapters prontos para Salesforce, HubSpot, RD Station, Pipedrive, Active Campaign. CRMs custom: 3-5 dias de integração via REST API ou webhook.

Como sei se o modelo está degradando? Monitoramento de drift contínuo. Quando a distribuição de scores muda significativamente vs baseline, ou quando a taxa de acerto cai > 10%, alerta para time de dados re-treinar.

Quanto custa rodar mensalmente? Hospedagem em Cloud Run/Vercel: R$ 80-300/mês (depende de volume). Enrichment de Apollo/Clearbit é cobrado à parte (R$ 0,15-0,40 por lead enriquecido).