Regtech e Segurança

Por que a LGPD transformou a anonimização financeira em um impasse de engenharia

Engenheiros de dados enfrentam o paradoxo de armazenar informações para analytics massivos sem violar o direito ao esquecimento, pois encontrar um usuário específico em um banco particionado torna a exclusão técnica impossível.

Juliana Mendes
Juliana MendesAnalista Sênior de WealthTech e IA
Imagem editorial ilustrando Por que a LGPD transformou a anonimização financeira em um impasse de engenharia

Em 2026, a conversa nas mesas de diretoria dos grandes bancos e Fintechs mudou. Não se trata mais de "se" devemos proteger dados, mas de como arquitetar sistemas que não travem quando um cliente exigir o direito ao esquecimento. O problema é que a Lei Geral de Proteção de Dados (LGPD), vista inicialmente como uma caixa de checagem jurídica, virou um pesadelo de performance para engenharia. O nó górdio está na anonimização. Para a área de negócios, anonimizar dados significa liberar o ouro para análise de risco e marketing. Para a área jurídica, é o passe livre para usar esses dados sem consentimento. Mas para quem põe a mão na massa, o Data Engineer, a anonimização eficiente mata a capacidade de exclusão seletiva.

Quando falamos de anonimização de verdade, não estamos falando de mascarar um CPF (como ***.123.456-**) e guardar uma chave de tradução em outro servidor. Isso é pseudonimização, e a ANPD (Autoridade Nacional de Proteção de Dados) já deixou claro que nãoresolve o problema de privacidade por si só. Anonimização robusta envolve remover ou alterar identificadores de tal forma que o indivíduo não possa mais ser identificado, mesmo com o uso de técnicas externas razoáveis.

O conflito começa aqui: se você faz o trabalho de engenharia direito para garantir performance em analytics, você perde a capacidade de encontrar o dado para deletá-lo.

A armadilha do particionamento para alta performance

Pegue o caso comum de uma instituição financeira que precisa rodar modelos de score de crédito em tempo real ou simular cenários de market making com a latência mais baixa possível. Para isso, não usamos bancos de dados relacionais tradicionais onde dá para rodar um DELETE FROM tabela WHERE id = 123. Usamos data lakes ou data warehouses colunares (como Snowflake, BigQuery ou Redshift) particionados.

Nesse cenário, o engenheiro particiona os dados por data de transação (ano=2026/mes=05/dia=30) ou, pior, por hash do identificador para balanceamento de carga. Os dados são comprimidos em formatos colunares, como Parquet ou ORC, para que a leitura de 10 milhões de linhas seja instantânea.

Detalhe fotográfico relacionado a Por que a LGPD transformou a anonimização financeira em um impasse de engenharia

Agora, chega uma solicitação de exclusão (um pedido de delete). O jurídico diz: "exclua esse usuário da base de dados". Tecnicamente, para atender a isso em um ambiente particionado e anonimizado, você teria que ler cada arquivo de dados, descomprimi-lo, filtrar as linhas que correspondem àquele usuário, reescrever o arquivo sem elas e recomprimir. Se o dado foi realmente anonimizado (sem um ID reversível), você nem sabe onde ele está.

Se você mantém um índice secundário que diz "o usuário X está na partição Y", você mantém um dado de ligação. Esse índice é, ele mesmo, um dado pessoal. Se você o descarta para anonimizar de verdade, a operação de exclusão vira uma busca linear com custo proibitivo. Eu já vi arquiteturas onde o custo computacional de uma única exclusão legal superava R$ 50,00 em processamento de cloud. Multiplique isso por 10.000 usuários pedindo exclusão e você quebra o budget de operações de um mês.

O paradoxo do "Direito ao Esquecimento" em Massa

A questão técnica se torna um beco sem saída quando analisamos a regra da ANPD sobre anonimização. Se o dado é anonimizado, ele deixa de ser dado pessoal. Logo, a LGPD não se aplica mais a ele. Você não precisa deletar anonimizados.

No entanto, o engenheiro honesto sabe a verdade: a anonimização perfeita é um mito matemático em movimento. O que é anonimizado hoje com os atributos X, Y e Z pode ser reidentificado amanhã com a entrada de um novo conjunto de dados públicos. Por isso, boas arquiteturas preservam a possibilidade de rastreabilidade de segurança. E aí mora o risco. Se eu posso rastrear para fins de auditoria (ex: detectar uma lavagem de dinheiro), o advogado do usuário vai dizer: "Então você pode rastrear para deletar".

Em modelos de alta frequência ou detecção de fraude, usamos frequentemente biometria comportamental e outras variáveis sensíveis. O Behavioral Biometrics x Tokenização é um exemplo clássico. A tokenização esconde o dado, mas a biometria cria um padrão único. Se um banco armazena o padrão de digitação para prevenir fraude, esse dado "assina" o usuário. Anonimizar isso sem perder o poder preditivo do algoritmo é quase impossível. Se apagarmos o padrão ao receber um delete request, o algoritmo de fraude perde a referência de comportamento "normal" para aquele dispositivo.

Engenharia precisa assumir o controle antes da ingestão

O erro que vejo em 90% dos projetos de WealthTech é tentar resolver isso na saída, ou no meio do pipeline. A equipe de dados tenta criar um "botão mágico" que varre o data lake para remover a pessoa. Isso é ingenuidade. A solução não é algorítmica no momento da exclusão; é arquitetural no momento da ingestão.

Para resolver o conflito entre performance de analytics e o direito ao esquecimento, a arquitetura precisa se dividir no nascedouro. Ao coletar os dados, o sistema deve imediatamente rotear para duas trilhas distintas e irreversíveis:

  1. Trilha de Pessoal (TTL Curto): Dados identificáveis (CPF, nome, device ID) ficam aqui por um tempo limitado, necessário para transações diárias e compliance pontual. Essa trilha tem índices e permite DELETE rápido.
  2. Trilha de Anonimizado (TTL Longo): Os dados passam por uma função de hash ou bucketing irreversível logo na entrada. Uma vez nesse bucket, o vínculo com o indivíduo original é quebrado matematicamente.

Se o usuário pede para deletar, você limpa a Trilha de Pessoal. A Trilha de Anonimizada permanece intocada, pois tecnicamente já não pertence a ninguém. O segredo é garantir que essa transformação seja unidirecional. Você não pode guardar a "chave mestra" em outro lugar "por segurança", pois isso recria o vínculo.

Isso impacta diretamente a precisão de modelos financeiros complexos, como aqueles usados para definir o Algoritmo TWAP x VWAP. Ao perder o vínculo direto com o cliente, o modelo ganha generalização mas perde a capacidade de ajuste fino por indivíduo. O trade-off é real: você troca a personalização extrema e a capacidade de "ouvir o cliente" em tempo real pela segurança legal e a viabilidade operacional de manter o sistema rodando sem travar a cada pedido de exclusão.

A LGPD nos forçou a parar de tratar dados financeiros como um arquivo morto e passou a exigir que sejam um fluido vivo, que muda de estado (identificado -> anonimizado) de forma irrevogável. Não existe mais meio-termo onde você "esconde" o dado e espera que ninguém encontre. Ou você deleta o vínculo na fonte, ou você constrói um data lake que é uma bomba-relógio jurídica pronta para explodir no primeiro audit.

Disclaimer: Retornos passados de algoritmos de trading ou score de crédito não são garantia de desempenho futuro. A implementação de estratégias de anonimização deve ser validada por jurídico especializado e testadas contra ataques de reidentificação.

Leia em seguida