Uma IA traduziu a bio de uma artista para o português, e o resultado soou muito bem — até a gente olhar de perto.

A IA havia acrescentado esta linha:

“A jornada que começou na Holanda, atravessou oceanos e agora retorna ao lar” (“The journey that began in the Netherlands, crossed oceans, and now returns home”)

A artista nunca foi à Holanda. O texto original em inglês não diz nada sobre isso. A IA inventou tudo.

Construímos um sistema para pegar exatamente esse tipo de mentira — e em seis dias, ele reduziu a taxa de erro de 17% para zero:

Session        Hallucination Rate
─────────────  ──────────────────
Feb 11 (early)  ████████████████░░░░  17.2%
Feb 11 (mid)    █████████░░░░░░░░░░░   9.9%
Feb 11 (late)   ████░░░░░░░░░░░░░░░░   4.3%
Feb 14 (pre)    ██████████████░░░░░░  14.3%
Feb 14 (post)   ███░░░░░░░░░░░░░░░░░   3.2%
Feb 17 (final)  ░░░░░░░░░░░░░░░░░░░░   0.0%

Veja como chegamos lá.

O Problema: Gramática Perfeita, Fatos Inventados

As antigas ferramentas de tradução eram fáceis de identificar. A gramática estava errada, as frases soavam estranhas, e você percebia na hora que algo estava fora do lugar.

A IA de hoje é diferente. A gramática é perfeita e as escolhas de palavras são naturais. Mas às vezes a IA acrescenta coisas que não estão no original — uma data que ninguém escreveu, um lugar que ninguém nomeou, ou um número que não existe.

Você não consegue ver esses problemas só de ler a tradução. Tudo soa certo. Você tem que checar cada linha contra a fonte original para encontrar o que foi acrescentado, e ninguém tem tempo de fazer isso na mão.

Então ensinamos uma segunda IA a fazer isso por nós.

Como Pegamos as Mentiras

Nossa ferramenta lê as duas versões — o original em inglês e a tradução em português — e checa cada linha. Se algo aparece na tradução sem correspondência na fonte, é sinalizado.

Mas nem toda adição é um problema. O português é uma língua calorosa e viva. Boas traduções acrescentam frases como “Energia demais!” ou “Maravilhoso!”. Isso não é mentira — é só como as pessoas falam no Brasil. Nossa ferramenta sabe a diferença entre calor acrescentado e ficção acrescentada.

Quando encontra um problema real — um fato inventado, um nome de lugar, ou uma data que não existe na fonte — ela remove o conteúdo falso, mantém o tom, e roda a verificação de novo. Continua até que tudo passe.

O Que Realmente Aconteceu

Rodamos esse sistema em três arquivos em português que havíamos traduzido para uma companhia de dança.

A primeira tentativa foi difícil. Conteúdo inventado apareceu em 5 a 17 por cento da saída. Foi aí que surgiu a linha da Holanda — a IA havia aprendido fatos reais sobre grupos de dança brasileiros na Europa e depois chutou um detalhe que parecia encaixar.

A segunda rodada melhorou. Rastreamos o problema até os dados de treinamento da IA e construímos verificações mais focadas. A taxa de erro caiu para cerca de 3 por cento.

A terceira rodada voltou limpa. Os três arquivos passaram em todas as verificações com zero conteúdo inventado:

ArquivoPontuação de QualidadeConteúdo Inventado
Perfil da artista99,9%0%
Análise de mercado (zouk)99,9%0%
Análise de mercado (Austin)99,9%0%

Uma correção foi tudo que precisou: remover a linha da Holanda.

Por Que Esta Mentira Era Tão Perigosa

A linha da Holanda nos diz algo importante sobre como a IA falha na tradução.

A IA não cometeu um erro de gramática. Não usou a palavra errada. Ela buscou nos seus dados de treinamento, encontrou informações reais sobre dançarinos brasileiros na Europa, e chutou um detalhe que parecia encaixar. Depois escreveu esse chute no mesmo tom confiante dos fatos reais ao redor.

O resultado soa certo, parece certo, e lê como algo que uma pessoa escreveria. Mas está completamente errado.

É isso que torna a tradução por IA arriscada para conteúdo de negócios. Os erros não parecem erros. Parecem fatos. E se você está publicando a bio de alguém, lançando um relatório de mercado, ou traduzindo conteúdo voltado para clientes, um único detalhe inventado pode danificar a confiança de formas difíceis de desfazer.

Sabor vs. Ficção

Dez frases acrescentadas passaram nas nossas verificações de propósito:

  • “Energia demais!” (So much energy!)
  • “Só gente top!” (Only the best people!)
  • “Maravilhoso!” (Wonderful!)
  • “Incrível!” (Amazing!)
  • “Gratidão!” (Gratitude!)

Essas frases não afirmam nenhum fato. Elas acrescentam calor, que é como as pessoas realmente falam no Brasil. Retirá-las tornaria a tradução plana e robótica.

A parte difícil é saber quais acréscimos são aceitáveis e quais são mentiras. “Energia demais!” acrescenta charme. “A jornada começou na Holanda” acrescenta ficção. Você precisa de um sistema inteligente o suficiente para distingui-los.

O Que Faz Isso Funcionar em Escala

Toda vez que nossa ferramenta roda uma verificação, ela salva os resultados. Com o tempo, isso cria um histórico que você pode consultar. Isso te dá quatro coisas:

  • Pegar erros repetidos — se uma mentira voltar em uma edição futura, a próxima verificação a sinaliza automaticamente
  • Comparar entre arquivos — todo documento é pontuado da mesma forma
  • Identificar tendências — ver se a qualidade está subindo ou caindo ao longo do tempo
  • Receber alertas — saber de problemas antes que traduções ruins entrem no ar

O Que Vem a Seguir

Três dos nossos 19 relatórios em inglês agora têm versões em português. O sistema foi construído para crescer:

  • Mais idiomas — as verificações funcionam para qualquer par de idiomas
  • Mais arquivos — cada execução pontua todos os arquivos que toca
  • Correspondência de voz — uma nova ferramenta vai verificar se as traduções soam como a voz real do cliente
  • Sempre ativo — a qualidade da tradução alimenta o mesmo sistema de rastreamento que usamos para todo o resto

A lição continua aparecendo em todo trabalho com IA: criar é a parte fácil, mas verificar é onde o valor real mora. Sem esse sistema, a linha da Holanda vai ao ar no site de um cliente. Com ele, você pega a mentira e mantém o “Energia demais!”


Apêndice: Análise de Legibilidade (textstat)

Nota: As métricas a seguir foram calculadas pela biblioteca textstat sobre o texto original em inglês. O textstat não possui suporte nativo para o português brasileiro; os scores abaixo refletem a análise do texto-fonte em inglês e servem como referência comparativa, não como medida direta da legibilidade da tradução em português.

Artigo Completo

MétricaPontuaçãoInterpretação
Flesch Reading Ease77.7Fairly Easy
Flesch-Kincaid Grade5.56th grade
SMOG Index8.58th grade
Gunning Fog7.27th grade
Automated Readability Index6.57th grade
Dale-Chall8.911th-12th grade
Coleman-Liau Index8.18th grade
Linsear Write5.25th grade
Consenso7th-8th gradeMiddle school
EstatísticaValor
Contagem de palavras871
Contagem de frases71
Contagem de sílabas1.201
Palavras polissílabas62 (7,1%)
Palavras difíceis102 (11,7%)
Tempo estimado de leitura1,0 min

Detalhamento por Seção

SeçãoFlesch EaseFK GradeConsenso
Introduction80.54.77th-8th
Good Grammar, Bad Facts83.75.06th-7th
Netherlands Analysis72.96.98th-9th
What Comes Next70.86.78th-9th

Comparação com o Rascunho Original

MétricaOriginal (11th-12th)Esta Versão (7th-8th)Mudança
Flesch Reading Ease43.477.7+34 pts
FK Grade9.65.5-4.1 grades
Gunning Fog12.57.2-5.3
Polysyllabic words23.3%7.1%-16.2 pp
Difficult words24.6%11.7%-12.9 pp
Dale-Chall11.18.9-2.2

Nota: O Dale-Chall permanece elevado (8,9, “11th-12th grade”) porque o vocabulário técnico do domínio (hallucination, faithfulness, OTEL, telemetry) aparece na lista de palavras difíceis do Dale-Chall independentemente da estrutura das frases. Todas as outras métricas atingiram a meta de 8th grade ou abaixo.

Metodologia

  • Pontuações geradas pela biblioteca Python textstat via integração com servidor MCP
  • Análise executada apenas no texto do corpo do artigo (front matter, blocos de código e marcação de tabelas excluídos)
  • Os limites de seção seguem os títulos H2 na estrutura do artigo
  • Escala Flesch Reading Ease: 0-29 Muito Confuso, 30-49 Difícil, 50-59 Razoavelmente Difícil, 60-69 Padrão, 70-79 Razoavelmente Fácil, 80+ Fácil