95% das empresas não obtém retorno de IA. Mas o que os 5% estão fazendo de diferente?

Compartilhar
95% das empresas não obtém retorno de IA. Mas o que os 5% estão fazendo de diferente?

/signal

 

Todo CFO brasileiro testou Claude num trabalho real de finanças.

Quase todos saíram decepcionados.

A ferramenta que ia economizar três horas adicionou uma quarta. Não porque não funcionou. Porque deslocou o trabalho. O tempo de preparação virou tempo de validação. O modelo entregou um parágrafo bonito. Você passou a hora seguinte conferindo cada número dele.

Quando terminou, podia ter escrito você mesmo.

Esta é a verdade silenciosa sobre IA em finanças hoje. Não falha. Trabalho deslocado.

E a razão é simples de nomear. Finanças é determinístico. LLMs são probabilísticos. Cada hora gasta nessa incompatibilidade é uma hora que a ferramenta não economizou de você.

Esta semana três fatos chegaram em quatro dias e juntos endurecem o quadro:

  • Quarta, 22/04 — KPMG nos EUA cortou 10% dos audit partners (cerca de 100 dos 1.400). Programa de aposentadoria voluntária falhou em bater meta de produtividade. Antes em 2026 já tinham cortado 600 auditores. Accounting Today
  • Quinta, 23/04 — Meta anunciou 8.000 demissões invocando "AI efficiency push". Axios
  • Sexta, 24/04 — Bradesco operacionaliza mais de 600 casos de uso de GenAI em produção, com plataforma própria construída sob filosofia de governança em primeiro lugar (TI Inside). No mesmo dia, Google anunciou US$ 40 bi de investimento na Anthropic (CNBC).

E circulando em segundo plano desde agosto de 2025, o estudo MIT NANDA "The GenAI Divide": 95% das iniciativas empresariais de IA generativa não entregam impacto mensurável de P&L.

Os números não contradizem. Eles desenham uma curva.

Capital fluindo em centenas de bilhões para IA. Trabalho humano em finanças sendo cortado. E 95% das empresas que pagam pela transição sem conseguir provar retorno.

A pergunta que importa não é "sua empresa vai usar IA". É sua empresa vai estar do lado certo do fluxo, ou no que paga sem retorno?

Os 5% que estão tirando valor não usam ferramentas melhores. Usam as mesmas ferramentas dentro de uma arquitetura diferente.

Quatro traços marcam essa arquitetura.

• • •

/nofilter

 

Traço 1 — Plataforma, não ferramenta solta

A diferença entre Bradesco e a empresa média não é qual modelo cada um usa. É que o Bradesco construiu uma plataforma interna que padroniza como inputs entram, como outputs são validados, como prompts são versionados, como modelos são auditados.

A HPE fez igual. Marie Myers, CFO da HPE, construiu um analista de IA chamado Alfred — apelido do mordomo do Batman. Alfred roda sobre infraestrutura de cloud privada da HPE, combina IA agêntica com generativa, e interage com mais de 300 milhões de linhas de dados em tempo real. Resultado: 90% de redução no esforço manual da reunião semanal de performance, ciclo de relatório financeiro caiu 40%, custo de processamento caiu 25%.

A HPE não comprou ferramenta. Construiu plataforma. Itaú e Bradesco no Brasil seguem a mesma lógica.

A empresa média compra licenças de Copilot, distribui para 200 funcionários, e chama isso de iniciativa de IA. Não é. É distribuição de ferramenta sem governança de uso. O efeito previsível é shadow AI: 73% das organizações já detectaram uso não autorizado de IA, e 63% não têm política formal nenhuma.

Os 5% têm plataforma. Os 95% têm ferramenta.

Traço 2 — KPI definido antes, não depois

A pergunta "qual foi o retorno da IA?" virou retórica corporativa. Quase ninguém responde com número. Por uma razão simples: a maioria não definiu KPI antes de começar. Adotou IA e passou a procurar resultado.

O DBS Bank em Cingapura inverteu a ordem. Em 2025 reportou S$1 bilhão de valor econômico gerado por IA, partindo de S$370 milhões no fim do ano fiscal de 2023 — 2,7x em dois anos. O número sobreviveu a auditoria de analista da Forrester porque o DBS usa control groups: outcomes de soluções com IA comparados contra grupo de controle, garantindo que o S$1 bilhão reflete benefício mensurável e não estimativa de PowerPoint.

A empresa que tira valor de IA pode te dizer em 30 segundos qual é o número que IA mudou — e como ele foi mensurado. A empresa que não tira valor responde com adjetivos.

Sem control group, você não tem ROI. Tem expectativa.

Traço 3 — Uso dentro do core, não na periferia

Esta é a mais incômoda.

A maioria dos pilotos de IA na empresa média estão em áreas-meio: marketing, RH, comunicação interna. São áreas onde "experimentar IA" gera baixo risco político e baixo retorno material. Nenhum CEO foi promovido por automatizar a redação de comunicados internos.

Os 5% colocam IA no core financeiro. David Kennedy, CFO da Dell, incubou um time de cientistas de dados dentro de finanças — não em TI, não em centro de excelência central. Aqueles engenheiros embutidos hoje constroem agentes proprietários dentro do framework de governança da Dell. Os agentes rodam reconciliações, lançam journal entries em produção, rascunham e-mails, drilham forecast por país e segmento. Não pilotos. Não prova de conceito. Em produção.

Ailbhe Moynihan, Diretora de Finanças da Meta, foi mais longe na camada transacional. No summit AI for CFOs do Economist em março de 2026, descreveu o resultado de implantar field-editing agêntico em dados de invoice. Meta processa cerca de 600.000 invoices por mês. Intervenção manual colapsou de 100% para 7%. Em sete dias.

No Brasil: Itaú colocou IA em análise de crédito, recomendação de investimento, atendimento transacional. Bradesco distribui seus 600 casos em operações reais. O critério é simples.

Se a IA quebrar amanhã, sua empresa nota? Se a resposta é não, ela está na periferia. Pode estar gerando satisfação interna. Não está gerando retorno.

Traço 4 — Validação humana sistemática, não opcional

Em finanças, "Claude me disse" não é defesa de auditoria. Em junho de 2025, o Financial Reporting Council do Reino Unido publicou a primeira regulação do mundo sobre uso de IA em auditoria. O recado: audit partners são pessoalmente accountable por trabalho assistido por IA, alucinações inclusive.

Sua IA inventa um número. Seu audit partner assina o parecer. A carreira do partner está em risco.

Morgan Stanley resolveu isso com método, não milagre. O AI@MS Assistant, construído sobre OpenAI, atingiu 98% de adoção entre advisors financeiros — 98% numa profissão notoriamente alérgica a ferramenta nova. Jeff McMillan, head de IA da firma, credita o número à disciplina de evals, não ao modelo. Cada caso de uso testado antes do deploy. Cada output logado. Cada decisão rastreável.

Os 5% tratam validação humana como parte do workflow. Toda decisão de IA passa por uma camada de pessoa que confere contra critério pré-definido, marca como "ok", "ajuste" ou "rejeição", e alimenta o sistema de volta. O dado de validação vira treinamento.

Os 95% têm o oposto. Usam IA, recebem output, copiam para Excel. O loop não fecha. O sistema não aprende. O risco não é mensurado. Quando algo dá errado — e dá — ninguém consegue auditar.

Em outubro de 2025 a Deloitte Austrália entregou ao governo australiano um relatório de 237 páginas por AU$440.000. Um pesquisador da Universidade de Sydney encontrou mais de 20 referências fabricadas, livro atribuído a um professor de direito constitucional que não existe, citação de juiz federal nunca dita. Seis semanas depois, segundo escândalo: relatório de saúde para Newfoundland & Labrador, CA$1,6 milhão, quatro citações acadêmicas inventadas. Pesquisadores reais atribuídos a papers que nunca escreveram.

Esta é a Deloitte. Todo recurso, todo revisor, todo processo que dinheiro pode comprar. Mesmo assim entregaram com erro.

Quem usa IA sem validar produz lixo elegante. Quem valida transforma IA em alavanca.

• • •

A pergunta honesta para o leitor é: minha empresa está nos 5% ou nos 95%?

Mas tem outra pergunta, mais útil. Mesmo que sua empresa esteja nos 95%, você como profissional pode operar nos 5%. Não precisa de plataforma corporativa. Precisa dos quatro traços aplicados ao seu próprio fluxo.

É o que vem agora. Um caso completo.

• • •

/howto

 

Vou te levar pelo workflow real de um reforecast trimestral usando Claude Project, do health check ao memorando de board. Empresa: Massas Trentino S.A. (fictícia mas realista).

Contexto da empresa:

  • Indústria de massas e biscoitos média, 3 plantas: Caxias do Sul (RS, flagship — massas frescas e biscoitos premium), Londrina (PR — massas secas, planta nova 2024), Ribeirão Preto (SP — biscoitos com exportação Mercosul).
  • 3 categorias: massas frescas (~25% receita, margem alta, distribuição refrigerada), massas secas (~55% receita, sensível ao trigo), biscoitos (~20% receita, exportação Mercosul).
  • Receita FY2025: R$ 380M, margem bruta 38%, NOI 6,8%.
  • Q1 2026 fechado: receita +5,2% YoY mas margem bruta caiu para 35,5%.
  • Tarefa: reforecast 9 meses (abr-dez), validar premissas, preparar memo para o board.

Setup — Claude Project com instruções fixas

Antes de qualquer prompt, configure as guardrails. Esse é o passo que quase todo mundo pula. Não pule.

Crie um Claude Project chamado "Trentino — Reforecast 2026". Carregue um arquivo único com DRE 2025 mensal, DRE Q1 2026, balanços patrimoniais 31/12/2025 e 31/03/2026, e premissas. Em "Custom Instructions", cole:

Você é o analista de IA embarcado no escritório do CFO da Massas Trentino S.A., indústria de massas e biscoitos com 3 plantas (Caxias do Sul-RS, Londrina-PR, Ribeirão Preto-SP) e 3 categorias (massas frescas, massas secas, biscoitos). Eu sou o CFO. Nosso ano fiscal é o calendário. O dataset carregado contém: DRE mensal de 2025 inteiro, DRE de Q1 2026, balanços em 31/12/2025 e 31/03/2026, premissas de planejamento. Quando eu pedir análise financeira, siga estas regras: 1. Sempre comece com o que mudou e por que importa antes de pular para recomendações. 2. Sinalize qualquer item que desvie mais de 5% das tendências dos períodos anteriores. 3. Distinga itens não-recorrentes de mudanças estruturais. 4. Quando eu pedir forecast, mostre suas premissas explicitamente e explique o que manteve constante vs o que mudou. 5. Trabalhe em R$ milhões. Padrão BR (R$ 1.234,56). 6. Tom executivo. Sem jargão. Direto. 7. Se algo te preocupa, fale diretamente. Não enterre. 8. Nunca atualize premissas sem me avisar primeiro.

Por que essas regras importam: a regra 2 (5%) e a regra 8 (não mexer em premissa sem avisar) são os trilhos de segurança. Elas impedem que Claude quebre seu modelo base sem você perceber.

Use Claude Opus 4.6 com Extended Thinking ativado. Plano Team ou Enterprise (não free — no free seus dados treinam o modelo, e você não tem SOC 2).

Step 1 — Health check

Primeiro prompt deliberadamente conversacional, não template:

Q1 2026 está fechado. Antes de construirmos o reforecast, me dê um health check. Compare a performance Q1 2026 vs Q1 2025 nas 3 plantas e 3 categorias. O que está funcionando? O que não está? O que te surpreendeu?

Por que assim e não estruturado: você está conversando com um analista. Quando o analista é bom, você não precisa especificar "analise variação de margem bruta por categoria". Você diz "o que te surpreendeu" e ele te conta.

Output esperado: quadro consolidado de receita por planta YoY, margem bruta por categoria, NOI por planta, identificação dos 2-3 movimentos materiais. Para a Trentino, três coisas devem aparecer: (i) Caxias do Sul segura margem nas massas frescas; (ii) Londrina pressionada por COGS de trigo importado; (iii) biscoitos sustentam margem mas com volume estagnado por substituição de marcas próprias do varejo.

Validação (3 checks):

  1. Os 3 movimentos materiais batem com os 3 maiores em magnitude na sua tabela? Se Claude pegou variações secundárias, recuse.
  2. As hipóteses causais são plausíveis para o seu negócio, ou são clichês ("aumento de custos operacionais")? Se genérico, refaça com mais contexto.
  3. A linguagem distingue não-recorrente de estrutural? Se Claude tratou tarifa de trigo (estrutural) como "evento pontual", corrija no prompt.

Step 2 — Reforecast 9 meses

Uma vez que Claude entendeu a história, peça o reforecast:

Bom. Agora construa um reforecast 2026 completo. Use Q1 atual como base e estenda até dezembro. Premissas: - Mantenha as taxas de crescimento Q1 por planta e categoria - Carregue a tendência atual de COGS de trigo (não assuma que se resolve sozinha) - Aplique sazonalidade BR: Páscoa concentrada em março-abril (biscoitos especiais), vale em julho-agosto, retomada em outubro, pico em novembro- dezembro (festas) - Use dólar fechamento março/26 como base para insumos importados - Londrina: assuma que o ramp-up segue a curva projetada original Saída: tabela mensal com colunas mensais, abas por planta, e visão consolidada. Mostre as premissas no topo. Sinalize qualquer cenário onde o NOI fica negativo.

Output esperado: projeção 9 meses por planta e consolidada, com Londrina provavelmente em prejuízo operacional no ano, Caxias do Sul e Ribeirão Preto compensando.

Validação:

  1. Aritmética bate? Pegue 2 meses aleatórios e confira no Excel. Modelos erram em cálculo numérico mais do que parece.
  2. As premissas no topo são as que você passou, ou Claude inventou novas? Se inventou, refaça forçando "use exatamente estas 5 premissas, nada além".
  3. A sazonalidade está aplicada por categoria ou de forma uniforme? Massa fresca tem perfil sazonal diferente de biscoitos. Se uniforme, refaça especificando.

Step 3 — Stress-test da premissa crítica

Aqui é onde o trabalho fica realmente útil. Não trave o reforecast antes de stressar a premissa de maior incerteza:

Quero stress-testar a premissa de COGS de trigo antes de travar o reforecast. 1. Mostre a margem bruta de massa seca por planta para cada mês de Q1 2026 vs os mesmos meses de 2025. Quero ver se está piorando mês a mês ou se estabilizou. 2. Se eu te disser que a causa é uma combinação de (a) tarifa de 9% sobre trigo importado da Argentina vigente desde janeiro/26, e (b) câmbio R$/US$ acima de 6,00 desde fevereiro/26, isso muda como você modela o resto do ano? Os fornecedores conseguem absorver parte até Q3? 3. Qual é o impacto no DRE anual se as margens de massa seca ficarem comprimidas no nível Q1 vs se recuperarem 50% até Q4? Não atualize nada. Só me mostre a análise.

A última frase ("não atualize nada") é importante. Ela ativa a guardrail da regra 8 do setup.

Output esperado: três cenários quantificados. Para a Trentino, o cenário pessimista (margem comprimida o ano todo) provavelmente leva NOI consolidado para abaixo de 4%, ativando covenant de dívida bancária. O cenário recuperação 50% mantém NOI em 5,8%.

Validação:

  1. Claude separou efeito tarifa de efeito câmbio, ou tratou como bloco único? Devem ser separados — você pode renegociar fornecedor (efeito tarifa) mas não controla câmbio.
  2. A absorção pelo fornecedor é tratada como cenário ou como certeza? Deve ser cenário.
  3. As ações recomendadas batem com sua autonomia executiva? Se Claude sugerir "mudar fornecedor de trigo", está fora de escala — esse tipo de mudança leva 6 meses, não cabe num reforecast trimestral.

Step 4 — Memorando de board

Última peça do ciclo:

Construa um memorando para a próxima reunião do conselho. 6 slides. Slide 1 — abre com 4 métricas-cabeçalho num fundo escuro: Receita FY26 projetada, margem bruta, NOI, COGS de trigo. Narrativa de uma frase abaixo do título. Slide 2 — coloca as 3 plantas lado a lado em fundo claro. Status de cada uma (verde/amarelo/vermelho), 3 métricas com setas direcionais, veredicto de uma linha. Conselho deve ler a saúde de cada planta em 10 segundos. Slide 3 — enquadra o problema de margem em torno do trigo. Gráfico de barras mostrando o salto de COGS por planta. Plano de mitigação em duas frentes (renegociação fornecedores + repasse seletivo de preço). Slide 4 — Londrina em duas colunas. Recuperação real mas frágil. Slide 5 — Decision Points para o board. 3 caminhos estratégicos. Recomende começar pelo cenário A com gate de revisão em Q3. Slide 6 — apêndice de premissas-chave. Tom: executivo, sem floreio, número primeiro.

Output esperado: PowerPoint estruturado com decision points para o board. O conselho aprova caminho, autoriza renegociação de covenant se necessário, define gate de revisão em julho.

Validação:

  1. As 3 opções de Decision Points são distintas, ou variações da mesma ideia? Se variações, refaça forçando "uma opção conservadora, uma agressiva, uma de ruptura".
  2. A recomendação no Slide 5 vem com critério de gate (o que precisa ser verdadeiro em julho para manter o caminho)? Se não, refaça.
  3. O número que aparece na narrativa do Slide 1 bate com o consolidado do reforecast? Confira manualmente.

A observação honesta sobre tudo isso

No mundo real, eu validaria toda a matemática manualmente antes de levar para o conselho. Ainda estamos em modo confiança-mas-verifica com IA em finanças. Mas o primeiro draft sai bom o suficiente para que meu tempo seja gasto validando em vez de construindo.

Esse é o ganho real. Não é "IA fez meu trabalho". É "IA me deu o draft que eu usaria duas horas para escrever, e me sobrou tempo para verificar a matemática que eu não teria tempo de checar antes".

O ciclo todo: 2 horas. Antes do Claude Project: 8-10 horas espalhadas em 3 dias.

Esses são os 5%.

• • •

/briefing

 

KPMG demite 10% dos audit partners nos EUA — primeira vez que produtividade força corte forçado no nível partner

Cerca de 100 dos 1.400 partners de auditoria nos EUA foram comunicados na quarta, 22/04. Um programa de aposentadoria voluntária rodado em 2024-2025 não atingiu a meta interna de produtividade, e a firma optou por cortes forçados. Antes em 2026 a KPMG já tinha cortado 600 auditores. Affected partners recebem pacote financeiro e suporte de recolocação. A KPMG não detalhou critério de seleção dos 100.

Porque isso importa: a substituição em audit já não é narrativa. É movimentação de partner equity. O caminho dos próximos 18 meses para Big Four é compressão de pirâmide, não automação cosmética. CFO de média/grande empresa BR vai sentir em fee compression antes de sentir em escolha de auditor — e o partner que sobrevive ao corte virou stakeholder direto da disciplina de IA da firma de auditoria.

Bradesco passa de 600 casos de GenAI em produção — coloca o banco entre os 5% globais que extraem retorno mensurável

Em coletiva técnica na sexta, 24/04, o Bradesco confirmou mais de 600 casos de uso de IA generativa em produção, suportados por uma plataforma interna proprietária. A arquitetura padroniza ingestão de dados, validação de outputs, versionamento de prompts e auditoria de modelos — colocando o banco em contraste direto com os 95% das empresas que ainda operam IA como ferramenta solta sem governança de uso.

Porque isso importa: o sistema financeiro brasileiro avançou na curva de IA além do que muita imprensa internacional reconhece. Para CFO de empresa não-financeira no Brasil, o referencial competitivo de governança de IA não está mais em McKinsey deck. Está em banco do qual sua empresa é cliente — e o gap entre o que o seu banco já faz com IA e o que sua tesouraria está fazendo é maior do que parece.

EU AI Act começa enforcement de Annex III em 2 de agosto — empresas BR com qualquer operação europeia entram no escopo

Em pouco mais de três meses, as provisões de high-risk do AI Act europeu se tornam aplicáveis. Annex III cobre IA usada em emprego (recrutamento, avaliação de performance), crédito (decisões de aprovação), educação e law enforcement. Multas chegam a 7% do faturamento global ou €35 milhões, o que for maior. Mapeamento de sistemas, classificação de risco e mitigação documentada precisam estar prontos para auditoria a partir de 02/08/2026.

Porque isso importa: empresa brasileira com filial europeia, fornecedor europeu de IA, ou qualquer fluxo de dados pessoais cruzando a fronteira EU pode estar dentro do escopo sem saber. Varejista BR com CRM rodando IA na operação portuguesa já entra no Annex III. Quem começa o mapeamento em julho chega tarde — o ciclo de classificação leva 6-8 semanas para empresa de porte médio.

• • •

/thinkdeeper

 

A leitura tradicional do número MIT (95% sem ROI) é pessimista: IA é bolha, vai descer. A leitura otimista é tecnológica: tooling vai melhorar, a curva vira.

Existe uma terceira leitura, mais incômoda. A diferença entre os 5% e os 95% não é tecnologia. É arquitetura.

Os 5% pararam de pedir para o Claude calcular. Pedem para validar narrativa em torno de número que o Excel já calculou. Pararam de improvisar prompt na hora. Têm Project com instruções fixas, dataset carregado, validação obrigatória. Documentam premissa antes de chamar resultado de retorno. Definem KPI antes de comprar ferramenta. Colocam IA dentro do core, não na periferia.

Não é um modelo melhor. É arquitetura em volta do mesmo modelo que os 95% estão usando.

E essa arquitetura você consegue construir num sábado. Trinta minutos para o Project. Uma hora para o primeiro health check. Os quatro prompts deste tutorial saem em uma manhã.

Os 95% vão continuar colando P&L no chat às nove da noite numa terça.

Os 5% vão colar contexto antes do P&L.

A pergunta que separa um do outro não é qual ferramenta cada um usa. É qual disciplina cada um aplica.