Os detectores de IA são precisos? A verdade por trás das ferramentas

Todas as ferramentas de detecção de IA que você encontrar hoje provavelmente ostentarão uma afirmação ousada de que são > 95% precisas. Algumas até dizem que são 100% confiáveis!

Mas os detectores de IA são precisos? De fato?

Os modelos de IA são constantemente atualizados. A versão atual do ChatGPT, por exemplo, é muito mais matizada e sensível ao contexto do que a versão que vimos em 2022.

Portanto, é bastante natural que muitos detectores de IA tenham dificuldade para rotular com precisão o texto como gerado por IA.

Dito isso, é inegável que algumas ferramentas têm um desempenho melhor do que outras. Mas para descobrir quais delas realmente estão à altura de suas afirmações, você precisa testá-las.

Foi exatamente isso que fizemos neste artigo.

Avaliamos 10 dos detectores de IA mais populares com base no mesmo benchmark usado pela ZDNet para verificar a precisão dos detectores de IA.

Veja o que encontramos!

Principais conclusões

Os detectores de IA analisam a frequência de palavras, a variação de frases e a sintaxe para determinar se o texto foi escrito por um ser humano ou gerado por IA.

A detecção de IA de muitas ferramentas não é 100% infalível porque muitos escritos humanos e de IA compartilham as mesmas estruturas gramaticais, o que leva a falsos positivos e negativos.

As três principais técnicas para detectar com precisão o conteúdo de IA são modelagem estatística de linguagem, metadados e marcas d'água e classificadores de aprendizado de máquina

O Undetectable AI combina vários algoritmos de detecção em um sistema federado. Ele oferece detecção de IA gratuita e confiável sem as desvantagens comuns das ferramentas pagas.

O que são detectores de IA e como eles funcionam?

Os detectores de IA são ferramentas que determinam se um trecho de texto foi escrito por um ser humano ou gerado por inteligência artificial.

O sistema divide o texto em recursos mensuráveis e, em seguida, procura padrões que revelam a autoria da máquina.

O texto gerado por IA tende a seguir padrões estatísticos. Os modelos de linguagem são treinados para prever a próxima palavra em uma sequência, portanto, sua escrita é construída com base em probabilidades que criam traços sutis.

Nunca mais se preocupe com a detecção de seus textos pela IA. Undetectable AI Pode lhe ajudar:

Faça sua escrita assistida por IA aparecer semelhante ao humano.
Bypass todas as principais ferramentas de detecção de IA com apenas um clique.
Uso IA com segurança e com confiança na escola e no trabalho.

Experimente GRATUITAMENTE

Os detectores de IA são precisos? A verdade por trás das ferramentas Os detectores de IA são precisos?

Os detectores de IA detectam esses traços por meio da análise da frequência das palavras, da variedade na estrutura das frases, da complexidade da sintaxe e da aleatoriedade geral (ou falta dela) nas frases.

As duas métricas mais importantes usadas pelos detectores de IA são:

Perplexidade: É uma medida de quão "surpreso" um modelo fica com a próxima palavra em uma frase. A escrita humana geralmente mostra maior perplexidade porque as pessoas se desviam dos padrões, usam expressões idiomáticas, inserem emoções etc., ao contrário de Escrita gerada por IA.

Explosão: Mede a variação no comprimento e no ritmo das frases. Os seres humanos escrevem naturalmente com explosões de frases curtas, longas e irregulares, enquanto o conteúdo escrito por IA é consistente em termos de comprimento.

Por que a detecção de IA é tão difícil

Apesar das diferenças entre a escrita humana e a de IA, a detecção de texto gerado por IA é um pouco difícil, principalmente quando ele foi editado.

Aqui estão algumas razões para isso.

A semelhança entre a escrita humana e a escrita de IA

Em sua essência, a escrita, tanto humana quanto por IA, usa o mesmo sistema linguístico de gramática, tempos verbais, sintaxe e fraseologia.

Os modelos de IA não inventam a linguagem do zero.

Eles simplesmente aprendem com o que os humanos já escreveram nos anos anteriores ao seu desenvolvimento.

Os conjuntos de dados nos quais eles são treinados são inerentemente escritos por humanos.

Portanto, qualquer ferramenta de geração de IA bem desenvolvida internalizará os padrões humanos de expressão e tentará reproduzi-los.

Quanto mais dados eles consomem, mais "humana" se torna sua escrita.

Falsos positivos e falsos negativos

Os detectores de IA não são infalíveis.

Um falso positivo ocorre quando um texto escrito por humanos é incorretamente sinalizado como gerado por IA.

Por outro lado, um falso negativo ocorre quando o texto escrito por IA passa despercebido.

Esses dois rótulos incorretos são bastante comuns.

Como muitos detectores de IA dependem da probabilidade estatística em vez da certeza factual, sua precisão permanece limitada.

Evolução constante do modelo

A detecção de IA é um alvo móvel. Cada nova geração de modelos de linguagem torna-se mais difícil de detectar.

Quando o ChatGPT foi introduzido pela primeira vez para uso público em 2022, suas respostas eram repetitivas e, muitas vezes, estereotipadas.

Qualquer detector de IA atual detectaria facilmente esse tipo de texto como sendo escrito por IA.

No entanto, o modelo GPT-5 mais recente produz textos com consciência do contexto e emocionalmente inteligentes.

Como a qualidade dos resultados continua melhorando, a detecção de um texto de IA mais estilisticamente diversificado é um desafio.

Qual é a precisão dos detectores de IA atualmente?

A resposta honesta a essa pergunta é que isso depende muito do detector e do método de detecção que você testar.

Algumas ferramentas de detecção de IA apresentam resultados quase perfeitos em ambientes controlados, mas quando expostas a dados do mundo real, seu desempenho fica confuso.

O benchmark Estudo da ZDNet avaliou 11 detectores de IA em relação a cinco amostras de texto (três geradas pelo ChatGPT e duas por humanos).

Qualquer ferramenta que tenha marcado uma amostra com probabilidade de IA > 70% foi considerada como tendo "feito uma chamada".

O estudo constatou que a Undetectable AI foi uma das poucas ferramentas que atingiu a precisão de 100%, ou seja, sinalizou corretamente todas as cinco amostras (humanas e de IA) sem erros.

Mas será que os detectores de conteúdo de IA também são precisos para usuários comuns em ambientes reais?

O fato é que os textos do mundo real raramente são "IA pura" ou "humanos puros".

Grande parte dele é editado, conteúdo parafraseado com ruído intencional e, com essas condições adversas, a precisão de muitos detectores cai drasticamente.

A estudo revisado por pares sobre Copyleaks, TurnItIn e Originality descobriram que, embora "tenham alta precisão" no GPT-3.5 e no conteúdo humano, eles têm dificuldade para distinguir entre os resultados de nível GPT-4.

Comparação dos 10 principais detectores de IA

Agora, para descobrir quais são os detectores de IA mais precisos, colocamos várias ferramentas à prova usando o método de avaliação da ZDNet, ou seja, usando cinco amostras de texto no total: três escritas pelo ChatGPT e duas por humanos.

Aqui está uma amostra do ChatGPT e uma amostra escrita por humanos que usamos.

Texto do ChatGPT:

Screenshot of ChatGPT 5 prompt generating a 150-word text on climate change

Texto escrito por humanos:

Undetectable AI

A primeira ferramenta que testamos foi Undetectable AIe foi aprovado em todos os testes.

Todas as cinco amostras de texto foram corretamente identificadas como 100% escritas por humanos ou por IA.

A plataforma mostrou até mesmo indicadores onde outros detectores podem ter levantado bandeiras.

O sistema usa vários algoritmos de detecção modelados com base em muitos modelos diferentes de IA (ChatGPT, Gemini, Claude, Llama e outros), mas, em vez de confiar diretamente nesses modelos, eles criaram seu próprio sistema federado e baseado em consenso.

Essencialmente, cada algoritmo é treinado em padrões desses detectores, mas é executado independentemente para produzir um julgamento coletivo.

A Undetectable AI também alega "humanizar" o texto gerado pela AI para que ele não seja detectado e, de acordo com nossos resultados, essa alegação se manteve de forma impressionante.

GPTZero

Em seguida, testamos o GPTZero, que também atendeu ao nosso benchmark de precisão e obteve pontuação acima do limite do 80% em todas as cinco amostras.

Ele identificou corretamente as duas peças escritas por humanos e dois dos textos gerados por IA com 100% de confiança.

A única exceção foi uma amostra gerada por IA, que o GPTZero rotulou como 71% gerada por IA, mas que ainda está dentro do intervalo preciso de acordo com nossos critérios.

Copyleaks

O Copyleaks apresentou resultados mistos em nossos testes. Ele tropeçou logo de cara ao classificar erroneamente a primeira amostra escrita por humanos como 100% gerada por IA.

Ele até sinalizou nove das chamadas "frases usadas em excesso pela IA".

No entanto, todos os testes subsequentes foram precisos, ou seja, identificaram cada texto nas quatro amostras restantes pelo que ele era.

Essa inconsistência indica que o Copyleaks pode ocasionalmente chegar a extremos, como aconteceu com nossa amostra escrita por humanos.

Ainda assim, quando analisado em todos os testes, a média de precisão ficou em torno de 80%.

Quillbot

O QuillBot foi outra ferramenta de destaque em nossos testes, logo atrás do Undetectable AI. Foi a segunda ferramenta a identificar todos os artigos escritos por humanos e gerados por IA com precisão de 100%.

O que é notável é que o QuillBot era originalmente conhecido por seus recursos de parafraseamento.

Mas seu detector de IA também é uma ferramenta de análise refinada capaz de identificar a consistência linguística que denuncia a autoria da IA.

Também vale a pena observar que o Quillbot não era muito preciso nos primeiros dias de seu lançamento, mas definitivamente melhorou com o passar dos anos. Atualmente, ele é um dos poucos detectores de IA confiáveis que você encontrará.

ZeroGPT

Os resultados dos testes do ZeroGPT também mostraram boa consistência.

A primeira amostra escrita por humanos foi rotulada como 0% gerada por IA, e a segunda foi 9,44% gerada por IA, ambas confortavelmente dentro da faixa aceitável para escrita humana genuína.

Todas as três amostras geradas por IA, por outro lado, foram corretamente identificadas como 100% escritas por IA.

Portanto, nossa rodada de testes também adiciona o ZeroGPT à lista de detectores de IA confiáveis.

Gramática

O Grammarly é um nome conhecido quando se trata de ajudar os escritores a produzir conteúdo gramaticalmente preciso, mas o mesmo não pode ser dito sobre seus recursos de detecção de IA.

Em nossos testes, o detector do Grammarly apresentou resultados mistos e um tanto inconsistentes.

Para as amostras geradas por IA, ele as sinalizou como 92%, 81% e 54% geradas por IA, o que significa que identificou corretamente duas, mas falhou em um teste por subestimar a probabilidade da IA.

Nos textos escritos por humanos, ele acertou um e classificou erroneamente o outro como IA.

Portanto, pode-se dizer que o 60% foi preciso em nossa análise.

Originalidade.ai

O Originality.ai também estava entre os detectores de IA muito confiáveis, pois escaneou corretamente tanto os gerados por IA quanto os escritos por humanos e apresentou resultados confiáveis de 100%.

Screenshot showing Originality.AI result: 100% AI-generated with full confidence

Originality.ai é uma plataforma dedicada de detecção de plágio e IA. Ela analisa a escrita em um nível granular e foi testada independentemente para detectar conteúdo parafraseado e editado também.

Screenshot showing Originality.AI result: 100% human-written, confidently marked as original

O único problema do Originality.ai é que ele não é totalmente gratuito.

A plataforma oferece 12.000 caracteres para novos usuários, após o que as varreduras adicionais operam em um sistema baseado em crédito.

O preço do detector de IA é de 2.000 créditos (1 crédito equivale a 100 palavras) por $14,95 por mês.

Writer.com

O Writer.com não correspondeu às expectativas em relação à detecção de IA, embora tenha um bom nome por produzir textos gerados por IA.

De cinco amostras de texto, ele identificou incorretamente duas amostras escritas por IA como sendo escritas por humanos.

Isso significa que apenas três dos cinco resultados do teste foram precisos, o que é um erro evidente.

A Writer.com também anunciou que sua ferramenta de detecção de IA, juntamente com seu endpoint de API, será encerrada em 22 de dezembro.

Até lá, ele continuará funcionando normalmente. Isso mostra que a empresa está se afastando do espaço de detecção de IA.

Mônica

Essa foi outra das ferramentas que tiveram um desempenho muito bom nos testes.

A Monica identificou corretamente todas as amostras escritas por humanos e geradas por IA sem um único erro, portanto, você pode adicioná-la com segurança à sua lista de detectores de IA confiáveis.

A empresa afirma que ele combina os pontos fortes analíticos de IA do ZeroGPT, GPTZero e Copyleaks em uma ferramenta unificada.

O sistema é semelhante ao Undetectable AIque também combina vários detectores para detecção autêntica de IA.

Detector de IA Sapling

O Sapling não é um detector de IA confiável, pois não foi preciso ao identificar todas as cinco amostras de texto.

De nossas amostras, a Sapling identificou 2 de conteúdo escrito por humanos como 100% AI, o que está muito fora do padrão.

Mas o que mais se destaca na Sapling é sua transparência. A empresa reconhece abertamente que seu detector de IA pode produzir falsos positivos com textos curtos.

Também afirma que eles estão trabalhando ativamente para melhorar o sistema e reduzir esses erros.

Eles também esclarecem que nenhum detector de IA atual, incluindo o da Sapling, deve ser usado como um método autônomo para determinar a autoria.

Use o Verificador de IA para analisar a confiabilidade de outros detectores de IA.

Ao testar o texto de amostra por meio de várias ferramentas de detecção e comparar as pontuações de consistência, o AI Checker ajuda a revelar quais sistemas rotulam incorretamente ou sinalizam excessivamente o conteúdo.

É uma maneira rápida e transparente de medir a precisão do detector antes de confiar em seus resultados.

Explicação dos métodos comuns de detecção de IA

A detecção de IA não foi criada com base em uma fórmula universal.

Vários métodos foram usados e validados para determinar se um texto é escrito por humanos ou por IA.

Modelagem estatística de linguagem

Esse é o método mais antigo e mais amplamente usado para detecção de conteúdo de IA. Ele se baseia na análise da probabilidade de sequências de palavras, ou seja, a probabilidade de uma palavra seguir outra.

O texto gerado por IA tende a ter menor "perplexidade", portanto, pode-se dizer que é mais previsível e consistente em termos de estrutura.

Os seres humanos, por outro lado, introduzem variabilidade no texto.

Os detectores de conteúdo que usam esse método calculam a perplexidade e a explosão para avaliar sua origem.

Metadados e marca d'água

Essas métricas visam como o texto foi gerado em vez de sua estrutura.

Marca d'água significa incorporar sinais invisíveis na saída de IA no nível do token. Essencialmente, esses padrões só podem ser detectados por algoritmos específicos.

A detecção de metadados inspeciona dados contextuais como registros de data e hora, velocidade de geração e padrões de chamada de API para inferir se a IA estava envolvida no processo de gravação.

Mas, novamente, quando o texto gerado por IA é editado, esses sinais são perdidos e, portanto, eles só funcionam em ambientes de teste controlados.

Quando o texto gerado por IA traz marcas d'água invisíveis, ferramentas como a Undetectable AI's Removedor de marca d'água de texto AI pode ajudar a limpar esses padrões ocultos.

Captura de tela da ferramenta Remove AI Watermarks da Undetectable AI

Ele detecta e remove as impressões em nível de token, restaurando a legibilidade natural do texto sem alterar seu significado.

Classificadores de aprendizado de máquina

Os detectores de IA dependem cada vez mais de classificadores de aprendizado de máquina treinados para reconhecer a "textura" da escrita de IA.

Esses classificadores analisam milhares de recursos linguísticos e estruturais de conjuntos de dados de escrita humana e produzida por IA.

Com base nessa análise, eles desenvolvem um modelo probabilístico para rotular um novo texto como IA, humano ou híbrido.

O ponto forte dessa abordagem é que os classificadores continuam acompanhando a mudança de abordagem dos modelos mais recentes de IA generativa.

Dê uma olhada em nosso Detector de IA e Humanizador no widget abaixo!

Conclusão

Para responder à pergunta "Os detectores de IA são precisos?", sim, várias ferramentas são precisas de forma confiável, e a Undetectable AI é uma delas.

Ele atingiu a precisão de 100% em todas as amostras de teste escritas por IA e por humanos.

A ferramenta também é de uso gratuito, ao contrário de muitos outros detectores de IA que ocultam seus melhores recursos atrás de paywalls ou sistemas baseados em crédito.

A vantagem da Undetectable AI está em seu modelo de detecção federada, que combina os pontos fortes de vários detectores líderes em um sistema único e unificado.

A abordagem em várias camadas reduz significativamente os falsos positivos e os falsos negativos.

Portanto, se você estiver procurando um detector de IA confiável, Undetectable AI é o que você deve experimentar!