¿Son precisos los detectores de IA? La verdad tras las herramientas

Todas las herramientas de detección de IA con las que te encuentres hoy en día afirmarán a bombo y platillo que son > 95% precisas. Algunas incluso dicen que son 100% fiables.

Pero, ¿son precisos los detectores de IA? ¿Realmente?

Los modelos de IA se actualizan constantemente. La versión actual de ChatGPT, por ejemplo, es mucho más matizada y consciente del contexto que la versión que vimos en 2022.

Por lo tanto, es bastante natural que muchos detectores de IA tengan dificultades para etiquetar con precisión su texto como generado por IA.

Dicho esto, es innegable que algunas herramientas funcionan mejor que otras. Pero para saber cuáles están realmente a la altura, hay que probarlas.

Eso es exactamente lo que hemos hecho en este artículo.

Hemos evaluado 10 de los detectores de IA más populares en la misma prueba de referencia utilizada por ZDNet para comprobar el grado de precisión de los detectores de IA.

Esto es lo que hemos encontrado

Principales conclusiones

Los detectores de IA analizan la frecuencia de las palabras, la variación de las frases y la sintaxis para determinar si el texto fue escrito por un humano o generado por IA.

La detección de la IA de muchas herramientas no es 100% infalible porque gran parte de la escritura humana y de la IA comparte las mismas estructuras gramaticales, lo que da lugar a falsos positivos y negativos.

Las tres técnicas principales para detectar con precisión los contenidos de IA son el modelado estadístico del lenguaje, los metadatos y marcas de agua, y los clasificadores de aprendizaje automático.

Undetectable AI combina múltiples algoritmos de detección en un sistema federado. Ofrece una detección de IA gratuita y fiable sin los inconvenientes habituales de las herramientas de pago.

¿Son precisos los detectores de IA? La verdad tras las herramientas ¿son precisos los detectores de IA?

¿Qué son los detectores de IA y cómo funcionan?

Los detectores de IA son herramientas que determinan si un texto ha sido escrito por un ser humano o generado por inteligencia artificial.

El sistema descompone el texto en características mensurables y, a continuación, busca patrones que revelen la autoría de una máquina.

El texto generado por IA tiende a seguir patrones estadísticos. Los modelos lingüísticos se entrenan para predecir la siguiente palabra de una secuencia, por lo que su escritura se basa en probabilidades que crean trazos sutiles.

No vuelvas a preocuparte de que la IA detecte tus textos. Undetectable AI puede ayudarle:

Haz que aparezca tu escritura asistida por IA de aspecto humano.
Bypass las principales herramientas de detección de IA con un solo clic.
Utilice AI de forma segura y con confianza en la escuela y el trabajo.

Pruébalo GRATIS

Los detectores de IA detectan estos rastros mediante el análisis de la frecuencia de las palabras, la variedad en la estructura de las frases, la complejidad sintáctica y la aleatoriedad general (o la falta de ella) en la redacción.

Las dos métricas más importantes utilizadas por los detectores de IA son:

Perplejidad: Es una medida de lo "sorprendido" que está un modelo por la siguiente palabra de una frase. La escritura humana suele mostrar una mayor perplejidad porque la gente se desvía de los patrones, utiliza modismos, inserta emoción, etc., a diferencia de Escritura generada por IA.

Ráfagas: Mide la variación en la longitud y el ritmo de las frases. Los humanos escriben de forma natural con ráfagas de frases cortas, largas y desiguales, mientras que el contenido escrito por la IA tiene una longitud constante.

Por qué es tan difícil detectar la IA

A pesar de las diferencias entre la escritura humana y la de la IA, detectar el texto generado por la IA es un poco difícil, sobre todo cuando ha sido editado.

He aquí algunas razones.

La similitud entre la escritura humana y la de la IA

En esencia, la escritura, tanto la humana como la de la IA, utiliza el mismo sistema lingüístico de gramática, tiempos verbales, sintaxis y redacción.

Los modelos de IA no inventan el lenguaje desde cero.

Simplemente aprenden de lo que los humanos ya han escrito en los años anteriores a su desarrollo.

Los conjuntos de datos en los que se entrenan son intrínsecamente humanos.

Así, cualquier herramienta de generación de IA bien desarrollada interiorizará los patrones humanos de expresión e intentará reproducirlos.

Cuantos más datos consuman, más "humana" será su escritura.

Falsos positivos y falsos negativos

Los detectores de IA no son infalibles.

Un falso positivo se produce cuando un texto escrito por un humano se marca incorrectamente como generado por la IA.

En cambio, un falso negativo se produce cuando un texto escrito por la IA pasa desapercibido.

Ambos errores de etiquetado son bastante comunes.

Dado que muchos detectores de IA se basan en la probabilidad estadística y no en la certeza de los hechos, su precisión sigue siendo limitada.

Evolución constante del modelo

La detección de IA es un blanco móvil. Cada nueva generación de modelos lingüísticos es más difícil de detectar.

Cuando ChatGPT se introdujo por primera vez para uso público en 2022, sus respuestas eran repetitivas, a menudo formulistas.

Cualquier detector de IA de hoy en día detectaría muy fácilmente ese tipo de texto como escrito por IA.

Sin embargo, el último modelo GPT-5 produce textos conscientes del contexto y emocionalmente inteligentes.

Dado que la calidad de los resultados no deja de mejorar, detectar un texto de IA con mayor diversidad estilística es todo un reto.

¿Cuál es la precisión actual de los detectores de IA?

La respuesta honesta a esta pregunta es que depende en gran medida del detector y del método de detección que se pruebe.

Algunas herramientas de detección de IA afirman obtener resultados casi perfectos en entornos controlados, pero cuando se exponen a datos del mundo real, su rendimiento se complica.

La referencia Estudio de ZDNet evaluó 11 detectores de IA frente a cinco muestras de texto (tres generadas por ChatGPT y dos por humanos).

Se consideró que cualquier herramienta que marcara una muestra con > 70% de probabilidad de IA había "hecho una llamada".

El estudio descubrió que Undetectable AI era una de las pocas herramientas que alcanzaba una precisión de 100%, es decir, marcaba correctamente las cinco muestras (tanto humanas como de IA) sin error.

Pero, ¿son precisos los detectores de contenidos por IA también para los usuarios cotidianos en entornos reales?

La cuestión es que los textos del mundo real rara vez son "IA pura" o "humanos puros".

Gran parte de ellos son contenidos editados, parafraseados y con ruido intencionado, y con tales condiciones adversas, la precisión de muchos detectores cae en picado.

A estudio revisado por expertos sobre Copyleaks, TurnItIn y Originality descubrieron que, si bien "tienen una gran precisión" en GPT-3.5 y contenido humano, tienen dificultades para distinguir entre los resultados de nivel GPT-4.

Comparación de los 10 mejores detectores de IA

Ahora, para averiguar cuáles son los detectores de IA más precisos, hemos puesto a prueba varias herramientas utilizando el método de evaluación de ZDNet, es decir, utilizando cinco muestras de texto en total: tres escritas por ChatGPT y dos por humanos.

Aquí hay una muestra de ChatGPT y una muestra escrita por humanos que utilizamos.

ChatGPT Texto:

Texto escrito humano:

IA indetectable

La primera herramienta que probamos fue IA indetectabley pasó todas las pruebas.

Las cinco muestras de texto se identificaron correctamente como 100% escrito por humanos o por IA.

La plataforma mostró incluso indicadores en los que otros detectores podrían haber levantado banderas.

El sistema utiliza múltiples algoritmos detectores inspirados en muchos modelos de IA diferentes (ChatGPT, Gemini, Claude, Llama y otros), pero en lugar de basarse directamente en esos modelos, construyeron su propio sistema federado y basado en el consenso.

Esencialmente, cada algoritmo se entrena con patrones de esos detectores, pero se ejecuta de forma independiente para producir un juicio colectivo.

Undetectable AI también afirma que "humaniza" el texto generado por la IA para que no sea detectado y, según nuestros resultados, esa afirmación se mantiene impresionantemente bien.

GPTZero

A continuación, probamos GPTZero, que también cumplió nuestro criterio de referencia en cuanto a precisión y superó el umbral de 80% en las cinco muestras.

Identificó correctamente tanto las piezas escritas por humanos como dos de los textos generados por la IA con una confianza de 100%.

La única excepción fue una muestra generada por IA, que GPTZero etiquetó como 71% generada por IA, pero que sigue estando dentro del rango preciso según nuestros criterios.

Copyleaks

Copyleaks obtuvo resultados dispares en nuestras pruebas. Tropezó desde el principio al clasificar erróneamente la primera muestra escrita por humanos como 100% generada por IA.

Incluso marcó nueve de las llamadas "frases sobreutilizadas de AI".

Sin embargo, todas las pruebas posteriores fueron precisas, es decir, identificaron cada texto de las cuatro muestras restantes como lo que era.

Esa incoherencia apunta a que Copyleaks puede llegar ocasionalmente a extremos, como ocurrió con nuestra muestra escrita por humanos.

Aun así, en todas las pruebas, la precisión media fue de unos 80%.

Quillbot

QuillBot fue otra herramienta destacada en nuestras pruebas, justo detrás de Undetectable AI. Fue la segunda herramienta en identificar todas las piezas escritas por humanos y generadas por IA con una precisión de 100%.

Lo notable es que QuillBot era conocido originalmente por sus capacidades de parafraseo.

Pero su detector de IA es también una refinada herramienta de análisis capaz de detectar la coherencia lingüística que delata la autoría de la IA.

También vale la pena señalar que Quillbot no era muy preciso en los primeros días de su lanzamiento, pero definitivamente ha mejorado con los años. Actualmente, es uno de los pocos detectores de IA fiables que encontrarás.

ZeroGPT

Los resultados de las pruebas de ZeroGPT también mostraron una buena coherencia.

La primera muestra de escritura humana se etiquetó como 0% generada por la IA, y la segunda como 9,44% generada por la IA, ambas dentro del rango aceptable para la escritura humana auténtica.

En cambio, las tres muestras generadas por la IA se identificaron correctamente como 100% AI-written.

Así pues, nuestra ronda de pruebas también añade a ZeroGPT a la lista de detectores de IA fiables.

Grammarly

Grammarly es un nombre muy conocido cuando se trata de ayudar a los escritores a producir contenidos gramaticalmente precisos, pero no se puede decir lo mismo de sus capacidades de detección de IA.

En nuestras pruebas, el detector de Grammarly mostró resultados mixtos y algo inconsistentes.

En cuanto a las muestras generadas por la IA, las marcó como 92%, 81% y 54% generadas por la IA, lo que significa que identificó correctamente dos pero falló una prueba al subestimar la probabilidad de la IA.

En los textos escritos por humanos, acertó en uno y clasificó erróneamente el otro como IA.

Por lo tanto, se podría decir que fue 60% precisa en nuestro análisis.

Originalidad.ai

Originality.ai también fue uno de los detectores de IA más fiables, ya que escaneó correctamente tanto las generadas por IA como las escritas por humanos y proporcionó 100% resultados fiables.

Originality.ai es una plataforma dedicada de IA y detección de plagio. Analiza la escritura a nivel granular y ha sido probada de forma independiente para detectar también contenido parafraseado y editado.

La única pega de Originality.ai es que no es totalmente gratuito.

La plataforma ofrece 12.000 caracteres a los nuevos usuarios, tras lo cual las exploraciones adicionales funcionan con un sistema basado en créditos.

El detector de IA tiene un precio de 2.000 créditos (1 crédito equivale a 100 palabras) por $14,95 al mes.

Escritor.com

Writer.com no estuvo a la altura de las expectativas en cuanto a detección de IA, aunque tiene bastante fama de producir textos generados por IA.

De cinco muestras de texto, identificó incorrectamente 2 muestras escritas por IA como escritas por humanos.

Eso significa que sólo tres de los cinco resultados de las pruebas fueron precisos, lo que supone un claro fallo.

Writer.com también ha anunciado que su herramienta de detección de IA, junto con su punto final API, desaparecerá el 22 de diciembre.

Hasta entonces, seguirá funcionando como de costumbre. Esto demuestra que la empresa se está alejando del espacio de detección de IA.

Mónica

Esta fue otra de esas herramientas que funcionó realmente bien en las pruebas.

Monica identificó correctamente todas las muestras escritas por humanos y generadas por IA sin un solo error, por lo que puede añadirla con seguridad a su lista de detectores de IA fiables.

La compañía afirma que combina las fortalezas analíticas de IA de ZeroGPT, GPTZero y Copyleaks en una herramienta unificada.

El sistema es similar a IA indetectableque también combina varios detectores para una auténtica detección de IA.

Sapling AI Detector

Sapling no resulta ser un detector de IA fiable, ya que fue impreciso en la identificación de las cinco muestras de texto.

De nuestras muestras, Sapling identificó 2 contenidos escritos por humanos como 100% AI, lo que está muy lejos de la realidad.

Pero lo que más destaca de Sapling es su transparencia. La empresa reconoce abiertamente que su detector de IA puede producir falsos positivos con textos cortos.

También afirma que están trabajando activamente para mejorar el sistema y reducir esos errores.

También aclaran que ningún detector de IA actual, incluido el de Sapling, debe utilizarse como método independiente para determinar la autoría.

Utilice la AI Checker para analizar la fiabilidad real de otros detectores de IA.

AI Checker comprueba el texto de muestra con varias herramientas de detección y compara las puntuaciones de coherencia para revelar qué sistemas etiquetan mal o sobreetiquetan el contenido.

Es una forma rápida y transparente de medir la precisión de los detectores antes de confiar en sus resultados.

Explicación de los métodos habituales de detección de IA

La detección de la IA no se basa en una fórmula universal.

Se han utilizado y validado varios métodos para determinar si un texto está escrito por un ser humano o por una IA.

Modelización estadística del lenguaje

Se trata del método más antiguo y más utilizado para la detección de contenidos AI. Se basa en el análisis de la probabilidad de secuencias de palabras, es decir, la probabilidad de que una palabra siga a otra.

El texto generado por la IA tiende a tener menor "perplejidad", por lo que podría decirse que es más predecible y coherente en su estructura.

Los humanos, por su parte, introducen variabilidad en el texto.

Los detectores de contenido que utilizan este método calculan la perplejidad y la explosividad para evaluar su origen.

Metadatos y marcas de agua

Estas métricas se centran en cómo se generó el texto en lugar de en su estructura.

La marca de agua consiste en incrustar señales invisibles en los resultados de la IA a nivel de token. Básicamente, estos patrones solo pueden ser detectados por algoritmos específicos.

La detección de metadatos inspecciona datos contextuales como marcas de tiempo, velocidad de generación y patrones de llamadas a la API para deducir si la IA ha participado en el proceso de escritura.

Pero, de nuevo, cuando se edita el texto generado por la IA, estas señales se pierden y, por tanto, sólo funcionan en entornos de prueba controlados.

Cuando el texto generado por IA lleva marcas de agua invisibles, herramientas como Undetectable AI's Eliminador de marcas de agua de texto AI puede ayudar a despejar esos patrones ocultos.

Captura de pantalla de la herramienta Eliminar Marcas de Agua AI de Undetectable AI

Detecta y elimina las huellas a nivel de testigo, restaurando la legibilidad natural del texto sin cambiar su significado.

Clasificadores de aprendizaje automático

Los detectores de IA se basan cada vez más en clasificadores de aprendizaje automático entrenados para reconocer la "textura" de la escritura de la IA.

Estos clasificadores analizan miles de características lingüísticas y estructurales de conjuntos de datos de escritura tanto humana como producida por IA.

A partir de ese análisis, desarrollan un modelo probabilístico para etiquetar un nuevo texto como IA, humano o híbrido.

El punto fuerte de este enfoque es que los clasificadores siguen poniéndose al día con el cambio de enfoque de los nuevos modelos generativos de IA.

Pruebe nuestro Detector de IA y Humanizador en el widget que encontrará a continuación.

Conclusión

Para responder a la pregunta: "¿Son precisos los detectores de IA?" Sí, varias herramientas son fiablemente precisas, y Undetectable AI es una de ellas.

Alcanzó una precisión de 100% en todas las muestras de prueba escritas por la IA y por humanos.

La herramienta también es de uso gratuito, a diferencia de muchos otros detectores de IA que ocultan sus mejores características tras muros de pago o sistemas basados en créditos.

La ventaja de Undetectable AI reside en su modelo de detección federada, que combina los puntos fuertes de varios de los principales detectores en un único sistema unificado.

El enfoque multicapa reduce significativamente los falsos positivos y los falsos negativos.

Así que, si buscas un detector de IA fiable, IA indetectable ¡es el que hay que probar!