Er AI-detektorer nøyaktige? Sannheten bak verktøyene

Alle AI-deteksjonsverktøy du støter på i dag, vil sannsynligvis skryte av å være > 95% nøyaktige. Noen sier til og med at de er 100% pålitelige!

Men er AI-detektorer nøyaktige? Er de virkelig det?

AI-modeller oppdateres kontinuerlig. Den nåværende versjonen av ChatGPT er for eksempel mye mer nyansert og kontekstbevisst enn den versjonen vi så i 2022.

Derfor er det ganske naturlig at mange AI-detektorer vil slite med å merke teksten som AI-generert.

Når det er sagt, er det unektelig noen verktøy som fungerer bedre enn andre. Men for å finne ut hvilke som faktisk lever opp til påstandene sine, må du teste dem.

Det er akkurat det vi har gjort i denne artikkelen.

Vi evaluerte 10 av de mest populære AI-detektorene på den samme referanseindeksen som ZDNet bruker for å se hvor nøyaktige AI-detektorene er.

Her er hva vi fant!

Det viktigste å ta med seg

AI-detektorer analyserer ordfrekvens, setningsvariasjon og syntaks for å avgjøre om teksten er skrevet av et menneske eller generert av AI.

AI-deteksjonen i mange verktøy er ikke 100% idiotsikker fordi mye av det som skrives av mennesker og AI, har de samme grammatiske strukturene, noe som fører til falske positive og negative resultater.

De tre viktigste teknikkene for å oppdage AI-innhold er statistisk språkmodellering, metadata og vannmerking, og maskinlæringsklassifisering

Undetectable AI kombinerer flere deteksjonsalgoritmer i ett føderert system. Det tilbyr gratis og pålitelig AI-deteksjon uten de vanlige ulempene med betalte verktøy.

Er AI-detektorer nøyaktige? Sannheten bak verktøyene er ai-detektorer nøyaktige

Hva er AI-detektorer, og hvordan fungerer de?

AI-detektorer er verktøy som avgjør om en tekst er skrevet av et menneske eller er generert av kunstig intelligens.

Systemet bryter ned tekst til målbare funksjoner og skanner deretter etter mønstre som avslører maskinelt forfatterskap.

AI-genererte tekster har en tendens til å følge statistiske mønstre. Språkmodeller er opplært til å forutsi neste ord i en sekvens, så skrivingen deres bygger på sannsynligheter som skaper subtile spor.

Aldri bekymre deg for at AI oppdager tekstene dine igjen. Undetectable AI Kan hjelpe deg:

Få AI-assistert skriving til å vises ...menneskelignende.
Bypass alle de viktigste AI-deteksjonsverktøyene med bare ett klikk.
Bruk AI trygt og selvsikkert i skole og arbeid.

Prøv gratis

AI-detektorer fanger opp disse sporene gjennom analyse av ordfrekvens, variasjon i setningsstruktur, syntaktisk kompleksitet og den generelle tilfeldigheten (eller mangelen på den) i formuleringen.

De to viktigste måleparameterne som brukes av AI-detektorer, er

Forvirring: Det er et mål på hvor "overrasket" en modell blir over det neste ordet i en setning. Menneskelig skriving viser vanligvis høyere forvirring fordi folk avviker fra mønstre, bruker idiomer, legger inn følelser osv. AI-generert skriving.

Sprengthet: Den måler variasjonen i setningslengde og rytme. Mennesker skriver naturlig med korte, lange og ujevne setninger, mens innhold skrevet av kunstig intelligens har en jevn lengde.

Hvorfor AI-deteksjon er så vanskelig

Til tross for forskjellene mellom menneskelig og kunstig intelligens er det litt vanskelig å oppdage AI-generert tekst, særlig når den er redigert.

Her er noen grunner til det.

Likheten mellom menneskelig og kunstig intelligens

Kjernen i skriving, både menneskelig og AI-skriving, bruker det samme språksystemet med grammatikk, tempus, syntaks og formuleringer.

AI-modeller oppfinner ikke språk fra bunnen av.

De lærer rett og slett av det menneskene allerede har skrevet i årene forut for deres utvikling.

Datasettene de trenes opp på, er i utgangspunktet skrevet av mennesker.

Ethvert velutviklet AI-genereringsverktøy vil derfor internalisere menneskelige uttrykksmønstre og forsøke å reprodusere dem.

Jo mer data de bruker, desto mer "menneskelignende" blir skrivingen deres.

Falske positive og falske negative

AI-detektorer er ikke ufeilbarlige.

En falsk positiv oppstår når en menneskeskrevet tekst feilaktig flagges som AI-generert.

En falsk negativ melding oppstår derimot når AI-tekst slipper igjennom uten å bli oppdaget.

Begge disse feilmerkingene er ganske vanlige.

Siden mange AI-detektorer baserer seg på statistisk sannsynlighet i stedet for faktisk sikkerhet, er nøyaktigheten begrenset.

Konstant modellutvikling

AI-deteksjon er et mål i bevegelse. Hver nye generasjon språkmodeller blir vanskeligere å oppdage.

Da ChatGPT først ble introdusert for offentlig bruk i 2022, var svarene repeterende og ofte formelaktige.

Enhver AI-detektor i dag ville lett kunne fange opp den typen tekst som AI-skrevet.

Den nyeste GPT-5-modellen produserer imidlertid kontekstbevisst og emosjonelt intelligent tekst.

Siden kvaliteten på utdataene stadig blir bedre, er det en utfordring å oppdage en mer stilistisk mangfoldig AI-tekst.

Hvor nøyaktige er AI-detektorer i dag?

Det ærlige svaret på dette spørsmålet er at det i stor grad avhenger av hvilken detektor og hvilken deteksjonsmetode du tester.

Noen AI-deteksjonsverktøy hevder nesten perfekte resultater i kontrollerte omgivelser, men når de utsettes for data fra den virkelige verden, blir ytelsen rotete.

Referanseverdien ZDNet-undersøkelse evaluerte 11 AI-detektorer mot fem tekstprøver (tre generert av ChatGPT, to av mennesker).

Alle verktøy som markerte en prøve med > 70% AI-sannsynlighet, ble ansett for å ha "ringt en samtale".

Studien viste at Undetectable AI var et av de få verktøyene som oppnådde 100%-nøyaktighet, det vil si at alle fem prøvene (både menneskelige og AI) ble korrekt flagget uten feil.

Men er AI-innholdsmålerne nøyaktige også for hverdagsbrukere i det virkelige liv?

Saken er at tekster fra den virkelige verden sjelden er "ren AI" eller "rent menneskelige".

Mye av det er redigert, omskrevet innhold med tilsiktet støy, og med slike motstridende forhold synker nøyaktigheten til mange detektorer kraftig.

A fagfellevurdert studie på Copyleaks, TurnItIn og Originality fant at selv om de "har høy treffsikkerhet" på GPT-3.5 og menneskelig innhold, sliter de med å skille mellom GPT-4-nivå.

Sammenligning av de 10 beste AI-detektorene

For å finne ut hva som er de mest nøyaktige AI-detektorene, satte vi flere verktøy på prøve ved hjelp av ZDNets evalueringsmetode, dvs. ved hjelp av totalt fem teksteksempler: tre skrevet av ChatGPT og to av mennesker.

Her er ett ChatGPT-eksempel og ett menneskeskrevet eksempel som vi brukte.

ChatGPT Tekst:

Menneskelig skriftlig tekst:

Ikke påvisbar AI

Det første verktøyet vi testet var Ikke påvisbar AIog den besto hver eneste test.

Alle de fem tekstprøvene ble korrekt identifisert som enten 100% skrevet av mennesker eller AI.

Plattformen viste til og med indikatorer der andre detektorer kan ha slått alarm.

Systemet bruker flere detektoralgoritmer som er modellert etter mange forskjellige AI-modeller (ChatGPT, Gemini, Claude, Llama og andre), men i stedet for å basere seg direkte på disse modellene har de bygget sitt eget fødererte og konsensusbaserte system.

Hver algoritme er i hovedsak opplært på mønstre fra disse detektorene, men kjøres uavhengig av hverandre for å produsere en samlet vurdering.

Undetectable AI hevder også å "menneskeliggjøre" AI-generert tekst slik at den ikke kan oppdages, og ut fra våre resultater holdt denne påstanden imponerende godt stand.

GPTZero

Deretter testet vi GPTZero, som også oppfylte vår målestokk for nøyaktighet og scoret over 80%-grensen i alle de fem prøvene.

Den identifiserte både menneskeskrevne tekster og to av de AI-genererte tekstene korrekt med 100% konfidens.

Det eneste unntaket var en AI-genererte prøve, som GPTZero merket som 71% AI-genererte, men som likevel faller innenfor det nøyaktige området etter våre kriterier.

Copyleaks

Copyleaks leverte blandede resultater i testene våre. Den snublet rett ut av porten ved å feilklassifisere det første menneskeskrevne eksemplet som 100% AI-genererte.

Den flagget til og med ni såkalte "AI-overbrukte fraser".

Alle de påfølgende testene var imidlertid nøyaktige, dvs. at de identifiserte hver tekst i de resterende fire prøvene som det den var.

Denne inkonsekvensen viser at Copyleaks av og til kan gå til ytterligheter, slik det gjorde med vårt menneskeskrevne utvalg.

Likevel, sett over alle testene, lå den i gjennomsnitt på rundt 80% nøyaktighet.

Quillbot

QuillBot var et annet verktøy som utmerket seg i testingen vår, rett bak Undetectable AI. Det var det andre verktøyet som identifiserte alle menneskeskrevne og AI-genererte tekster med 100% nøyaktighet.

Det bemerkelsesverdige er at QuillBot opprinnelig var kjent for sine parafraseringsegenskaper.

Men AI-detektoren er også et raffinert analyseverktøy som er i stand til å identifisere språklige konsistenser som avslører AI-forfatterskap.

Det er også verdt å merke seg at Quillbot ikke var veldig nøyaktig i de første dagene etter lanseringen, men den har definitivt forbedret seg med årene. For øyeblikket er det en av de få pålitelige AI-detektorene du finner.

ZeroGPT

ZeroGPTs testresultater viste også god konsistens.

Den første prøven ble merket som 0% AI-generert, og den andre ble merket som 9,44% AI-generert, begge innenfor det akseptable området for ekte menneskelig skrift.

Alle de tre AI-genererte prøvene ble derimot korrekt identifisert som 100% AI-skrevet.

Så vår testrunde legger også ZeroGPT til listen over pålitelige AI-detektorer.

Grammarly

Grammarly er et kjent navn når det gjelder å hjelpe skribenter med å produsere grammatisk korrekt innhold, men det samme kan ikke sies om dens AI-deteksjonsfunksjoner.

I testene våre viste Grammarlys detektor blandede og noe inkonsekvente resultater.

For de AI-genererte prøvene flagget den dem som 92%, 81% og 54% AI-genererte, noe som betyr at den identifiserte to riktig, men feilet i én test ved å undervurdere AI-sannsynligheten.

På de menneskeskrevne tekstene fikk den én rett, mens den andre ble feilklassifisert som AI.

Så man kan si at den var 60% nøyaktig i vår analyse.

Originalitet.ai

Originality.ai var også en av de mest pålitelige AI-detektorene, ettersom den skannet både de AI-genererte og de menneskeskrevne korrekt, og ga 100% sikre resultater.

Originality.ai er en dedikert AI- og plagiatdeteksjonsplattform. Den analyserer tekster på detaljnivå og har blitt testet uavhengig for å fange opp omskrevet og redigert innhold.

Den eneste ulempen med Originality.ai er at det ikke er helt gratis.

Plattformen tilbyr 12 000 tegn for nye brukere, og deretter kan ytterligere skanninger gjøres på et kredittbasert system.

AI-detektoren er priset til 2000 studiepoeng (1 studiepoeng tilsvarer 100 ord) for $14,95 per måned.

Writer.com

Writer.com levde ikke helt opp til forventningene til AI-deteksjon, selv om de har et godt rykte på seg for å produsere AI-genererte tekster.

Av fem teksteksempler identifiserte den feilaktig to AI-tekster som menneskeskrevne.

Det betyr at bare tre av de fem testresultatene var nøyaktige, noe som er en klar bom.

Writer.com har også kunngjort at AI-deteksjonsverktøyet, sammen med API-sluttpunktet, vil gå ned 22. desember.

Inntil da vil den fortsette å fungere som vanlig. Dette viser at selskapet beveger seg bort fra AI-deteksjonsområdet.

Monica

Dette var nok et av de verktøyene som fungerte veldig bra da vi testet det.

Monica identifiserte alle menneskeskrevne og AI-genererte prøver uten en eneste feil, så du kan trygt legge den til på listen over pålitelige AI-detektorer.

Selskapet hevder at det kombinerer AI-analysestyrken til ZeroGPT, GPTZero og Copyleaks i ett og samme verktøy.

Systemet ligner på Ikke påvisbar AIsom også kombinerer flere detektorer for autentisk AI-deteksjon.

Sapling AI Detector

Sapling viser seg ikke å være en pålitelig AI-detektor, ettersom den ikke identifiserte alle de fem teksteksemplene korrekt.

Av våre eksempler identifiserte Sapling 2 av menneskeskrevet innhold som 100% AI, noe som er helt feil.

Men det som skiller seg mest ut med Sapling, er åpenheten. Selskapet erkjenner åpent at AI-detektoren kan gi falske positive resultater med kort tekst.

Det står også at de jobber aktivt med å forbedre systemet for å redusere slike feil.

De presiserer også at ingen av dagens AI-detektorer, inkludert Saplings, bør brukes som en frittstående metode for å fastslå forfatterskap.

Bruk AI-sjekker for å analysere hvor pålitelige andre AI-detektorer faktisk er.

Ved å teste eksempeltekst gjennom flere deteksjonsverktøy og sammenligne konsistensscorer, hjelper AI Checker med å avsløre hvilke systemer som feilmerker eller overflagger innhold.

Det er en rask og oversiktlig måte å måle detektorens nøyaktighet på før man stoler på resultatene.

Forklaring av vanlige AI-deteksjonsmetoder

AI-deteksjon er ikke bygget på én universell formel.

Flere metoder har blitt brukt og validert for å avgjøre om en tekst er skrevet av mennesker eller kunstig intelligens.

Statistisk språkmodellering

Dette er den eldste og mest brukte metoden for AI-innholdsdeteksjon. Den er basert på en analyse av sannsynligheten for ordsekvenser, det vil si hvor sannsynlig det er at et ord følger etter et annet.

AI-generert tekst har en tendens til å ha lavere "perplexity", så man kan si at den er mer forutsigbar og konsekvent i strukturen.

Mennesker, derimot, bidrar til variasjon i teksten.

Innholdsdetektorer som bruker denne metoden, beregner perplexitet og burstiness for å vurdere opprinnelsen.

Metadata og vannmerking

Disse beregningene er rettet mot hvordan teksten ble generert, og ikke mot tekstens struktur.

Vannmerking betyr å legge inn usynlige signaler i AI-utdata på token-nivå. Disse mønstrene kan i hovedsak bare oppdages av spesifikke algoritmer.

Metadatadeteksjon inspiserer kontekstuelle data som tidsstempler, genereringshastighet og API-kallmønstre for å finne ut om AI var involvert i skriveprosessen.

Men igjen, når AI-generert tekst redigeres, går disse signalene tapt, og derfor fungerer de bare i kontrollerte testmiljøer.

Når AI-generert tekst har usynlige vannmerker, kan verktøy som Undetectable AI's AI Text Watermark Remover kan bidra til å fjerne de skjulte mønstrene.

Skjermbilde av Undetectable AIs verktøy Remove AI Watermarks

Den oppdager og fjerner avtrykk på token-nivå, og gjenoppretter tekstens naturlige lesbarhet uten å endre meningen.

Klassifikatorer for maskinlæring

AI-detektorer baserer seg i økende grad på maskinlæringsklassifikatorer som er trent opp til å gjenkjenne "teksturen" i AI-skrift.

Disse klassifiseringsverktøyene analyserer tusenvis av språklige og strukturelle trekk ved både menneskeskrevne og AI-produserte skriftlige datasett.

Basert på denne analysen utvikler de en sannsynlighetsmodell for å merke ny tekst som AI, menneskelig eller hybrid.

Styrken ved denne tilnærmingen er at klassifikatorene hele tiden holder tritt med endringene i tilnærmingen til nyere generative AI-modeller.

Prøv vår AI Detector og Humanizer i widgeten nedenfor!

Konklusjon

For å svare på spørsmålet "Er AI-detektorer nøyaktige?" Ja, flere verktøy er pålitelige og nøyaktige, og Undetectable AI er ett av dem.

Den oppnådde 100%-nøyaktighet på tvers av alle AI- og menneskeskrevne testprøver.

Verktøyet er også gratis å bruke, i motsetning til mange andre AI-detektorer som skjuler sine beste funksjoner bak betalingsmurer eller kredittbaserte systemer.

Undetectable AIs fortrinn ligger i den fødererte deteksjonsmodellen, som kombinerer styrken til flere ledende detektorer i ett enkelt, enhetlig system.

Flerlagstilnærmingen reduserer antallet falske positive og falske negative resultater betydelig.

Så hvis du leter etter en pålitelig AI-detektor, Ikke påvisbar AI er den du bør prøve!