Kan GPT o1 inhoud schrijven zonder gepakt te worden door AI-detectors?
Het is een eerlijke vraag.
In dit artikel lees je dat GPT o1 een model is dat is getraind om complexe taken op het gebied van wetenschap, codering en wiskunde uit te voeren.
Maar hé, als het kan schrijven, en of je het langs AI-detectors kunt smokkelen, is het de moeite waard om te onderzoeken.
Dit is wat je zult meenemen na het lezen van dit artikel:
- Wat is GPT-o1?
- Hoe werken AI-detectors?
- Kan GPT-o1-inhoud worden gedetecteerd?
- Zijn OpenAI's o1-mini en o1-preview echt niet op te sporen?
- Hoe AI-detectoren omzeilen met GPT-o1?
- GPT-o1 vs GPT-4o: Wat is beter detecteerbaar?
Dus laten we beginnen.
Wat is GPT-o1?
In september 2024 lanceerde OpenAI GPT-o1-preview, naast een lichtere, meer kostenefficiënte variant genaamd o1-mini.
In december 2024 werd de preview-versie officieel vervangen door het volledige GPT-o1-model.
Volgens OpenAI is GPT-o1 gemaakt om zeer complexe problemen aan te pakken door meer computationele "denk"-tijd te besteden aan het genereren van antwoorden.
Maak je nooit meer zorgen dat AI je sms'jes herkent. Undetectable AI Kan je helpen:
- Laat je AI-ondersteund schrijven verschijnen mensachtig.
- Omleiding alle grote AI-detectietools met slechts één klik.
- Gebruik AI veilig en vol vertrouwen op school en op het werk.
Dit omvat geavanceerde taken zoals competitief programmeren, abstracte wiskunde en wetenschappelijk redeneren, die het model met bijna deskundige finesse aankan.
En de tests zijn het bewijs van deze expertise.
In benchmarktests eindigde o1-preview in de 89e percentiel op Codeforces wedstrijden.
Op de Amerikaans Invitational Mathematics Examinationo1 loste 83% aan problemen op (12,5/15). Ter vergelijking: GPT-4o slaagde maar net in 13% (1,8/15).
Dit model toonde ook vaardigheden op PhD-niveau in meerdere wetenschappelijke domeinen (natuurkunde, scheikunde en biologie).
Het is dus duidelijk dat het model voornamelijk is gemaakt voor onderzoek en technische toepassingen.
Het verschil met GPT-3.5, GPT-4 en GPT-4o
Vanuit het perspectief van GPT-o1 zijn de verschillen met GPT-3.5, GPT-4 en GPT-4o zowel subtiel als groot, afhankelijk van de taak die je uitvoert.
GPT-3.5 werkt op een oudere dataset met een beperkt contextvenster van 16.385 (4.096 uitvoertokens) en biedt basisredeneringen en fatsoenlijke codeervaardigheden.
Het doet het goed met algemene aanwijzingen, maar geef het een probleem met geneste logica of een lastig algoritme en je zult snel de scherpe kantjes zien.
Vergeleken daarmee opereert GPT o1 in een andere cognitieve klasse. De vergelijking klopt dus niet.
GPT-4 blijft solide, verfijnder dan 3.5 en geschikt voor een breder scala aan taken, vooral als er nuance nodig is. Maar zelfs GPT-4 graaft niet in technische complexiteit met dezelfde nauwkeurigheid als o1.
GPT-4o verfijnde de snelheid en multimodale mogelijkheden verder, maar bleef nog steeds achter met diepgaande analytische taken.
Het is sneller, interactiever en beter uitgerust voor algemeen gebruik. Het kan creatief schrijven, chatten en multimediataken voorlopig beter aan dan o1.
Maar als het aankomt op logica-intensieve use cases, heeft o1 een meetbare voorsprong.
Dat gezegd hebbende, mist GPT-o1 enkele gebruiksvriendelijke functies zoals surfen op het web of bestanden uploaden, die GPT-4o wel ondersteunt.
De modus kan ook een beetje kortaf zijn. De weigeringsantwoorden zijn korter, waarbij soms verwijzingen of diepere uitleg worden overgeslagen die 4o meestal wel geeft.
Een ander belangrijk nadeel van o1 is dat het de risico's kan vergroten bij gevaarlijke zoekopdrachten.
Bijvoorbeeld, toen hem werd gevraagd naar rotsklimtechnieken, GPT-o1's diepgaande betrokkenheid kan overmatig vertrouwen aanmoedigenterwijl GPT-4o standaard een generiek advies geeft.
[bron]
Functie | GPT-3,5 | GPT-4 | GPT-4o | GPT o1 |
Trainingsgegevens | Oudere dataset | Recenter & uitgebreider | Meest up-to-date | Meest up-to-date |
Output tokens | 4.096 tokens | 8.192 tokens | 16.384 tokens | 100.000 tokens |
Contextvenster | 16,385 | 8,192 | 128,000 | 200,000 |
Nauwkeurigheid en samenhang | Goed | Aanzienlijk verbeterd | Hoog | Uitzonderlijk |
Redeneervaardigheden | Basis | Geavanceerd | Geavanceerd | PhD-niveau |
Codeervaardigheden | Fatsoenlijk | Bekwaam | Bekwaam | Bijna expert-niveau |
Creatief schrijven | Geschikt | Creatiever en genuanceerder | Snel, creatief | Niet haalbaar |
Reactiesnelheid | Snel | Matig | Snelste | Langzamer (opzettelijk) |
Beste voor | Incidenteel gebruik | Algemene taken | Snelheid + multitasking | Technische diepgang |
Hoe AI-detectoren werken
AI-detectoren zijn steeds gebruikelijker geworden in de post-GPT hausse.
Hun doel is om uit te zoeken of iets is geschreven door een persoon of is uitgespuugd door een model zoals GPT-o1.
Ze doen een gok op basis van een aantal nerdy metrics en vier belangrijke machine learning en NLP concepten.
Classificeerder
Het belangrijkste brein van deze detectoren wordt een classificator genoemd.
Deze classificeerders worden getraind op enorme datasets die gelabeld zijn als AI-gegenereerd of door mensen geschreven, en na verloop van tijd leren ze wat de twee van elkaar onderscheidt.
Zodra het model is getraind, kan het een nieuw stuk tekst beoordelen en beslissen waar het waarschijnlijk thuishoort in dat AI-mens spectrum.
Het controleert hoe vaak bepaalde woorden voorkomen, hoe lang de zinnen zijn en of het geheel niet te schoon klinkt.
Inbeddingen
Omdat computers taal niet op dezelfde manier kunnen begrijpen als wij, zetten embeddings woorden om in wiskundige vectoren die betekenis, context en woordrelaties weergeven.
Dus wanneer een detector een zin analyseert, kijkt hij naar waar woorden zich bevinden in deze multidimensionale vectorruimte en hoe hun posities verband houden met patronen in menselijke of AI-uitvoer.
Zo weet het systeem dat "koningin" en "koning" dingen zijn die bij elkaar horen.
Perplexiteit
In AI-detectie is perplexiteit een metriek die meet hoe voorspelbaar een stuk tekst is.
AI-gegenereerde inhoud is over het algemeen minder verwarrend omdat het gericht is op het produceren van tekst die logisch in elkaar overgaat en duidelijk leest.
Menselijk schrijven kan daarentegen rommeliger zijn. Het is rijker aan onvoorspelbaarheid, creatieve sprongen of ronduit vreemde formuleringen.
Dus, een lage perplexiteitsscore kan een aanwijzing zijn dat iets van een AI komt, maar het wordt nooit op zichzelf gebruikt omdat, nou ja, zelfs mensen soms graag voor de hand liggend klinken.
Barstigheid
Burstiness meet hoeveel variatie je schrijven heeft.
Menselijke auteurs vertonen meestal een grotere uitbarstigheid omdat we van nature korte, snelle zinnen afwisselen met uitgesponnen, complexe zinnen.
AI speelt meestal op veilig. Ze neemt geen rare omwegen en slaat niet midden in een gedachte ineens de plank mis. En dat maakt het makkelijker te herkennen.
Kan GPT-o1-inhoud worden gedetecteerd?
Chat GPT o1 is niet gratis beschikbaar en maakt ook geen deel meer uit van het reguliere Plus-plan.
Het is opgewaardeerd naar OpenAI's Pro-abonnement, dat begint bij een steile $200.
Hoewel we geen volledige publieke toegang hebben om GPT o1 zelf te testen, kunnen we toch een gefundeerde gok doen over de detecteerbaarheid.
OpenAI maakte vrij duidelijk dat dit model is gebouwd met STEM in gedachten.
Dus op basis daarvan is het een veilige gok dat de vaardigheid van het model om menselijk schrijven na te bootsen vrij gemiddeld is, zo niet helemaal slecht.
Dankzij een paar YouTube-kanalen die voorbeelden publiceerden van outputs van Chat GPT o1-modellen, met name de o1-mini en o1-preview, konden we deze teksten door populaire detectietools laten lopen en zien welke rode vlaggen tevoorschijn kwamen.
Zijn OpenAI's o1-mini en o1-preview echt niet op te sporen?
We hebben twee tekstvoorbeelden rechtstreeks uit YouTube-video's gehaald die prompts door o1-preview en o1-mini lieten lopen.
Laten we eens kijken of hun output daadwerkelijk langs AI-detectoren kan glippen zonder alarm te slaan.
Is o1-preview detecteerbaar?
We selecteerden een tekstmonster uit een video door The Nerdy Novelistwaar het o1-preview model een kort artikel genereerde met de titel "Helena van Troje: Het Gezicht dat Duizend Schepen Lanceerde".
We concentreerden ons op de intro en de eerste twee kopjes, in totaal 265 woorden.
We gooiden de tekst in Niet detecteerbare AI, QuillBoten Originaliteit.aiGewoon om alles te dekken.
Undetectable AI was niet onder de indruk. 99% van de inhoud werd gemarkeerd als AI-gegenereerd en daar bleef het niet bij.
Het voorspelde ook dat andere detectors zoals QuillBot, ZeroGPT en Grammarly tot dezelfde conclusie zouden komen. Dus laten we dit bevestigen door de tekst door QuillBot te halen.
QuillBot volgde het voorbeeld. Het markeerde de tekst als 100% waarschijnlijk AI.
Maar het geeft graag een voordeel van twijfel. Je kunt met de muis over verschillende delen van de tekst gaan en de vertrouwensniveaus zien: laag, gemiddeld, hoog.
En dan is er Originality.ai. Het kwam binnen met 100% vertrouwen dat de tekst door AI was geschreven. Niet 98%. Niet 99. 100. En het woord "waarschijnlijk" wordt niet eens gebruikt.
Is o1-mini detecteerbaar?
Laten we het nu hebben over o1-mini.
De tekst die we hier hebben gebruikt komt uit een andere YouTuber die een veel betere prompt gebruikte, en dat is te zien. Het schrijven had meer persoonlijkheid en een menselijkere stroming.
De AI-detectors merkten het ook. QuillBot noemde deze ongeveer 45% AI, 55% mens. Dat is eigenlijk een behoorlijk resultaat.
Als je het gewoon even doorleest zonder het te controleren, zou je zelfs kunnen geloven dat iemand het geschreven heeft.
Maar maak het je niet te gemakkelijk. Undetectable AI en Originality.ai lieten zich niet misleiden.
Ze noemden het allebei nog steeds AI met respectievelijk 99% en 100% zekerheid. Dus zelfs met een betere prompt konden ze het hek niet achter zich laten.
Dat brengt ons bij de kern van de zaak: OpenAI's o1-preview en o1-mini zijn zeker detecteerbaar, vooral als je een De AI-detector van Undetectable.
Je kunt je prompt aanpassen, je zinnen anders formuleren en misschien zelfs hier en daar een tool voor de gek houden. Maar Chat GPT o1 heeft nog steeds een grote kans om gedetecteerd te worden als AI-detectie.
Hoe AI-detectoren omzeilen met GPT-o1
Dus je hebt je glimmende nieuwe tekst rechtstreeks van GPT o1 - schoon, snel en griezelig samenhangend. Geweldig. Maar nu komt de echte truc: het eruit laten zien alsof een mens het echt geschreven heeft.
Zodra GPT o1 zijn werk heeft gedaan, post je het niet gewoon onbewerkt. Je moet het eruit laten zien alsof een mens het geschreven heeft.
Maar in plaats van het handmatig te doen, kun je het doen met AI-humanizers.
Deze tools weten hoe ze robotachtig klinkende tekst een beetje menselijke vreemdheid moeten geven. Het soort waar detectors moeite mee hebben om te decoderen.
Maar het zit zo. Er zijn heel wat hulpmiddelen voor dit doel die beloven je tekst te "vermenselijken", maar er uiteindelijk voor zorgen dat het klinkt als een slecht herhaalde tekst.
Daarom verdient Undetectable AI wat aandacht.
Onze tools zoals Humanizer, Stealth schrijveren Parafraser eigenlijk begrijpen hoe AI-detectors denken.
- Humanizer past de flow en formulering net genoeg aan om onder de radar te blijven.
- Stealth Writer voegt variatie in de zinsbouw toe, wat belangrijk is om classifiers te verwarren.
- En de parafraseerder past de tekst aan terwijl de oorspronkelijke betekenis intact blijft.
Het komt erop neer dat deze tools de taal van AI kennen en weten hoe ze de AI op het verkeerde been kunnen zetten.
Dus, als je GPT o1 gebruikt om te schrijven en je wilt dat je werk doorgaat als menselijk, sla dan de post-processing stap niet over.
Zelfs een beetje opschonen met Undetectable AI kan een groot verschil maken in het verslaan van detectietools.
Ontdek onze AI Detector en Humanizer in de widget hieronder!
GPT-o1 vs GPT-4o: Wat is beter detecteerbaar?
We hebben het er al over gehad dat GPT o1 sterk leunt op wiskunde en wetenschap, terwijl GPT-4o wat meer finesse heeft als het op taal aankomt. Maar hoe verhouden GPT o1 vs 4o zich tot elkaar op het gebied van schrijven?
Eerst gebruikten we deze prompt om 400 woorden inhoud te genereren met behulp van GPT 4o:
Daarna hebben we de uitvoer van GPT-4o door dezelfde drie AI-detectors gehaald: Undetectable AI, QuillBot en Originality.ai.
Niet-opspoorbare AI markeerde 99% van de inhoud als AI. Dat is indrukwekkende AI-detectie, nietwaar?
Toen kwam QuillBot en zei: "Niet zo snel." Het markeerde 73% van dezelfde tekst als door AI gegenereerd, een nog harder oordeel dan het gaf aan GPT o1-mini, die het scoorde op 45%.
Originality.ai zat nog steeds vast in de volledige verdenkingsmodus. Het klokte GPT-4o's inhoud op 100% AI, hetzelfde als altijd.
Dus wat betekent dit allemaal? De meeste Ai-detectors zoals Undetectable AI en Orginality AI zijn goed in het vangen van ChatGPT o1 en 4o tekst.
Maar als we de score bijhouden, GPT o1 is duidelijk beter detecteerbaar. Op meerdere detectoren werd het consequent gemarkeerd op 99-100% AI, zelfs met verbeterde prompting.
En eerlijk gezegd is dat logisch. GPT o1 is niet gebouwd als taalmodel. Het is een STEM-first model, gebouwd om problemen op te lossen.
GPT-4o daarentegen weet hoe hij natuurlijker moet klinken, vooral in combinatie met een solide prompt.
Dus als je moet kiezen tussen de twee voor schrijftaken waarbij onzichtbaarheid van belang is, is de GPT-4o je beste kans om langs de radar te glippen.
Eindoordeel: Is GPT-o1 detecteerbaar?
Onze bevindingen concluderen dat GPT o1 inderdaad detecteerbaar is.
Zelfs met fatsoenlijke prompt-engineering worden de meeste AI-detectors nog steeds verrast door de tekst die het genereert.
Maar om eerlijk te zijn, was schrijven niet de taak waarvoor het was opgeleid. GPT o1 is gebouwd voor STEM-gerelateerde taken zoals het oplossen van vergelijkingen, coderen en het kraken van gegevens.
Dus als je inhoud in elkaar wilt flansen die echt menselijk klinkt, is GPT o1 waarschijnlijk niet het model daarvoor. Je kunt beter GPT-4o gebruiken, dat meer taalvaardigheid heeft, of beter nog, een tool gebruiken die speciaal is gemaakt voor het schrijven van niet detecteerbare AI-inhoud.
Daar komt Undetectable AI om de hoek kijken.
Onze AI Humanizer herschrijft je inhoud op een manier die natuurlijk, genuanceerd en overtuigend menselijk klinkt.
Of je nu blogberichten, essays of productbeschrijvingen schrijft, het past zich aan je onderwerp aan zonder dat het AI-detectiealarm afgaat.
En nu we het toch over alarmen hebben: als je wilt testen hoe detecteerbaar je inhoud echt is (of het nu van GPT o1, GPT-4o of een ander model is), dan is onze AI Detector een van de nauwkeurigste tools op de markt.
Laat het giswerk dus achterwege.