Em 2024, ainda operávamos com uma arquitetura de call center que parecia saída de um filme dos anos 90. O cliente ligava, ouvia uma locução robótica perguntando se desejava falar com "vendas", "suporte" ou "ouvidoria", pressionava uma tecla e, na maioria das vezes, caía em uma fila errada. Para uma emissora de cartão de crédito digital que escala rápido, esse erro de roteamento era um vazamento de dinheiro direto no balanço.
A equipe de produto trouxe um desafio claro: o Custo de Aquisição de Clientes (CAC) estava inflado não pela mídia paga, mas pela ineficiência pós-venda. Estávamos gastando R$ 45,00 em média para adquirir um lead, mas perdíamos 18% deles nos primeiros 30 dias por conta de frustração no atendimento. A solução não era contratar mais gente, era inteligência. Trocar a URA (Unidade de Resposta Audível) tradicional por um modelo de Processamento de Linguagem Natural (NLP) capaz de entender o que o cliente queria apenas ouvindo os primeiros segundos de fala foi a virada de chave que baixou nosso CAC global em 15%.
A falácia do menu de opções
O problema não era apenas a má experiência do usuário — embora "Pressione 2" já fosse um insulto em 2026. O problema era econômico. Quando um cliente ligava para aumentar o limite (uma oportunidade de cross-selling) e caía na fila de contestação de fatura (suporte), três coisas ruins aconteciam:
- O cliente irritava-se por ter que explicar a situação de novo.
- O agente de suporte, treinado para resolver problemas de débito, perdia tempo tentando descobrir que aquilo era venda.
- A fila de suporte inchava, aumentando o Tempo Médio de Atendimento (TMA).
Tínhamos dados monstruosos sobre isso. 32% das ligações redirecionadas para o time de "solicitações gerais" precisavam de transferência interna. Cada transferência custava cerca de R$ 1,50 em minutos de telefone e mão de obra, além de degradar a NPS (Net Promoter Score). O roteador baseado em DTMF (sinais de tom) não tinha inteligência para distinguir nuances. Para ele, "quero meu cartão" era a mesma coisa que "não chegou meu cartão". O primeiro é um lead quentíssimo para ativação; o segundo, um problema logístico frio.

O método: janela de 5 segundos e classificação de intenção
A implementação técnica não exigiu magia negra, mas exigiu engenharia de dados robusta. Substituímos o menu de teclas por uma "escuta passiva". Quando a chamada é conectada, o sistema dispara um alerta gravado: "Olá, diga brevemente como posso ajudar". A partir desse momento, o cliente fala livremente.
Utilizamos um modelo de Speech-to-Text otimizado para o português brasileiro — essencial, considering a variação linguística do país, que muitos modelos globais ignoram, criando viés em sistemas automatizados — e um classificador de intência treinado em nosso histórico de 50 mil chamadas. O "pulo do gato" foi definir uma janela de análise de 5 a 8 segundos. Não precisávamos ouvir a ligação toda; a intenção costuma aparecer na primeira oração.
Se o cliente diz: "Gente, caiu uma compra estranha aqui no meu nubank", o modelo detecta a entidade "compra estranha" e a intenção "fraude". O sistema encaminha direto para a fila de Bloqueio e Prevenção à Fraude, pulando as 4 opções de menu. Se a frase é: "Quero aumentar meu teto para comprar uma passagem", o classificador identifica intenção de "Crédito/Vendas".
A escolha do modelo de machine learning foi um debate interno. Entre Regressão Logística e Redes Neurais, acabamos optando por uma arquitetura leve de Transformers (BERT) para a classificação de texto, pois ela lida melhor com ambiguidades da língua portuguesa do que modelos estatísticos mais simples, apesar de estes últimos serem preferidos por auditores pela explicabilidade.
Por que o CAC caiu? A conexão entre retenção e aquisição
A redução de 15% no CAC não veio de um milagre nos gastos de marketing, mas da retenção pós-aquisição. O cálculo é simples de madeira: CAC = Investimento em Marketing / (Clientes Novos - Churn Inicial).
Ao melhorar a precisão do roteamento para 94%, dois alavancas de eficiência entraram em ação:
- Conversão no primeiro contato (FCR): Clientes que ligavam para ativatar o cartão e conseguiam falar com o setor certo na primeira tentativa ativavam 20% mais rápido. Ativação rápida significa primeiras transações acontecendo mais cedo, o que reduz a probabilidade de churn nos primeiros 90 dias (o "vale da morte" dos cartões).
- Descompressão da fila de suporte: Como ligações simples como "qual meu limite?" ou "onde fica a fatura?" foram resolvidas pelo próprio sistema ou redirecionadas instantaneamente para o app (via push notification após a ligação), o time de suporte focou em problemas complexos. A fila caiu de uma espera média de 8 minutos para 2 minutos e meio. Menos espera significa menos clientes desistindo e cancelando o cartão antes mesmo de usá-lo.
Economicamente, reduzir o churn de 18% para 12,5% nessa fase inicial, sem gastar um centavo a mais em ads, dilui drasticamente o custo por cliente adquirido. Deixamos de queimar dinheiro "re-adquirindo" clientes que já tinham dado o primeiro passo, mas que batiam na parede do suporte.
O lado oculto: feedback loop e ajustes finos
Nada disso funcionou logo de cara. O primeiro modelo tinha uma taxa de erro irritante: quando o cliente estava muito nervoso, o sistema não entendia nada. O desafio de modelagem aqui foi lidar com o "ruído emocional".
Criamos um loop de feedback de dados semanal. Sempre que um atendente marcava uma interação como "transferência incorreta", aquele áudio e a transcrição iam para o dataset de treino com o rótulo correto. No primeiro mês, a acurácia subiu de 76% para 88%. No terceiro mês, estávamos nos 94%.
Um erro clássico que evitamos: tentar fazer o sistema "vender". O NLP apenas identifica a intenção. Tentar quebrar uma objeção de venda via robô de voz antes de passar para o humano aumentou o abandono em 40% nos testes A/B. O cliente quer um humano para negociar crédito. O robô serve apenas para o porteiro.
O risco da dependência tecnológica
Há um trade-off técnico que vale a pena mencionar. Latência. O modelo de NLP precisa rodar rápido. Se o cliente termina de falar "quero cancelar" e o sistema demora 4 segundos para processar, ele pensa que a linha caiu.
Tivemos que migrar o processamento de uma instância on-premise para uma edge location na nuvem para garantir latência abaixo de 200ms. Isso aumentou o custo de infraestrutura em cerca de R$ 12 mil/mês. Contudo, comparado aos R$ 180 mil que deixávamos de perder por mês com churn e ineficiência, o ROI é brutal.
Além disso, não podemos ignorar a privacidade. Processar áudio exige conformidade rigorosa com a LGPD. O modelo é stateless — ele processa a frase, classifica e descarta o áudio imediatamente, mantendo apenas os metadados anonimizados para treino. Guardar áudio de ligação sem motivo específico é um passivo jurídico que nenhum banco digital deve carregar em 2026.
Aprendizado final
A grande lição aqui não é sobre a tecnologia em si, mas sobre a arquitetura de fluxo. O erro da maioria das fintechs é tentar automatizar a conversa inteira. O ganho real, pelo menos para cartões de crédito neste estágio de maturidade, está em automatizar a triagem.
O cliente não odeia robôs; ele odeia robôs estúpidos. Um sistema que entende a diferença entre "quero meu dinheiro" e "quero meu saldo" economiza milhões. Otimizar o CAC olhando apenas para o Google Ads é ignorar que o buraco está no fundo do balde. O call center deixou de ser um centro de custo e virou a primeira linha de defesa da receita, e isso só aconteceu quando paramos de adivinhar o que o cliente queria e passamos a processar a linguagem dele matematicamente.