Il contenuto di GPT-o1 è rilevabile dagli strumenti di intelligenza artificiale?

GPT o1 può scrivere contenuti senza essere scoperto dai rilevatori AI?

È una domanda giusta. 

In questo articolo, leggerete che GPT o1 è un modello che è stato addestrato per gestire compiti complessi legati al campo della scienza, della codifica e della matematica. 

Ma se è in grado di scrivere e se si riesce o meno a superare di nascosto i rilevatori di intelligenza artificiale, vale la pena di esplorarlo.

Ecco cosa otterrete dopo aver letto questo articolo:

  • Che cos'è il GPT-o1?
  • Come funzionano i rilevatori di intelligenza artificiale?
  • È possibile rilevare il contenuto di GPT-o1?
  • OpenAI o1-mini e o1-preview sono davvero impercettibili?
  • Come bypassare i rilevatori AI con GPT-o1?
  • GPT-o1 vs GPT-4o: Quale è più rilevabile?

Quindi iniziamo.

Che cos'è il GPT-o1?

Nel settembre 2024, OpenAI ha lanciato GPT-o1-preview, insieme a una variante più leggera ed economica chiamata o1-mini. 

Entro dicembre 2024, la versione di anteprima è stata ufficialmente sostituita dal modello GPT-o1 completo. 

Secondo OpenAI, GPT-o1 è fatto per affrontare problemi molto complessi dedicando più tempo al "pensiero" computazionale prima di generare le risposte. 

Non preoccupatevi più che l'intelligenza artificiale rilevi i vostri messaggi. Undetectable AI Può aiutarvi:

  • Fate apparire la vostra scrittura assistita dall'intelligenza artificiale simile all'uomo.
  • Bypass tutti i principali strumenti di rilevamento dell'intelligenza artificiale con un solo clic.
  • Utilizzo AI in modo sicuro e con fiducia a scuola e al lavoro.
Prova gratis

Questo include compiti avanzati come la programmazione competitiva, la matematica astratta e il ragionamento scientifico, che il modello è in grado di gestire con una finezza quasi da esperto.

E i test sono la prova di questa competenza. 

Nei test di benchmark, o1-preview si è classificato nella classifica dei 89° percentile su Codeforces concorsi.

Sul Esame invitante americano di matematicao1 ha risolto 83% di problemi (12,5/15). In confronto, GPT-4o ha risolto appena 13% (1,8/15).

Questo modello ha anche mostrato una competenza di livello dottorale in diversi ambiti scientifici (fisica, chimica e biologia).

È quindi chiaro che il modello è stato realizzato principalmente per la ricerca e le applicazioni tecniche.

Come si differenzia da GPT-3.5, GPT-4 e GPT-4o

Dal punto di vista di GPT-o1, le differenze con GPT-3.5, GPT-4 e GPT-4o sono sia sottili che nette, a seconda dell'attività da svolgere.

GPT-3.5 opera su un vecchio set di dati con una finestra di contesto limitata a 16.385 (4.096 token di output) e offre un ragionamento di base e discrete capacità di codifica. 

Se la cava bene con le richieste generiche, ma se gli si presenta un problema di logica annidata o un algoritmo complicato, si noteranno subito i suoi limiti.

Rispetto ad esso, GPT o1 opera in una classe cognitiva diversa. Quindi, il confronto non è corretto.

Il GPT-4 rimane solido, più raffinato del 3.5 e capace di svolgere una gamma più ampia di compiti, soprattutto quelli che richiedono sfumature. Ma non scava nella complessità tecnica con lo stesso rigore di o1. 

Il GPT-4o ha ulteriormente migliorato la velocità e le capacità multimodali, ma è ancora in ritardo nei compiti analitici profondi.

È più veloce, più interattivo e meglio equipaggiato per un uso generale. Per ora gestisce meglio di o1 la scrittura creativa, le chat e le attività multimediali.

Tuttavia, quando si tratta di casi d'uso che richiedono una certa logica, o1 detiene un vantaggio misurabile. 

Detto questo, GPT-o1 manca di alcune funzioni di facile utilizzo come la navigazione web o il caricamento di file, che GPT-4o supporta.

Questa modalità può anche essere un po' tersa. Le sue risposte di rifiuto sono più brevi e a volte saltano i riferimenti o le spiegazioni più profonde che il 4o tende a includere. 

Un'altra importante avvertenza di o1 è che può amplificare i rischi quando si affrontano query pericolose.

Per esempio, alla domanda sulle tecniche di arrampicata su roccia, L'impegno approfondito del GPT-o1 potrebbe incoraggiare l'eccessiva dipendenza, mentre GPT-4o si affida a un consiglio generico.

[fonte]

CaratteristicaGPT-3.5GPT-4GPT-4oGPT o1
Dati di formazioneSet di dati più vecchiPiù recente e ampioIl più aggiornatoIl più aggiornato
Gettoni di uscita4.096 gettoni 8.192 gettoni 16.384 gettoni100.000 gettoni 
Finestra di contesto16,3858,192128,000200,000
Precisione e coerenzaBuonoSignificativamente miglioratoAltoEccezionale
Capacità di ragionamentoDi baseAvanzatoAvanzatoLivello di dottorato
Competenze di codificaDecenteCompetenteCompetenteLivello quasi esperto
Scrittura creativaCapacePiù creativo e ricco di sfumatureVeloce, creativoNon fattibile
Velocità di rispostaVeloceModeratoIl più velocePiù lento (intenzionale)
Il migliore perUso occasionaleCompiti generaliVelocità + multitaskingProfondità tecnica

Come funzionano i rilevatori di intelligenza artificiale

I rilevatori di intelligenza artificiale sono diventati sempre più comuni nel boom post-GPT.

Il loro scopo è capire se qualcosa è stato scritto da una persona o sputato da un modello come GPT-o1.

L'ipotesi si basa su una serie di metriche nerd e su quattro importanti concetti di machine learning e NLP.

Classificatore

Il cervello principale di questi rilevatori è chiamato classificatore.

Questi classificatori vengono addestrati su enormi insiemi di dati etichettati come generati dall'IA o scritti dall'uomo, e col tempo imparano a distinguere i due tipi di scrittura.

Una volta addestrato, il modello è in grado di valutare un nuovo pezzo di testo e di decidere quale sia la sua posizione nello spettro AI-umano.

Controlla la frequenza con cui compaiono determinate parole, la lunghezza delle frasi e se il tutto suona troppo pulito.

Incorporazioni

Poiché i computer non sono in grado di comprendere il linguaggio come noi, gli embeddings convertono le parole in vettori matematici che rappresentano il significato, il contesto e le relazioni tra le parole.

Quindi, quando un rilevatore analizza una frase, guarda dove si trovano le parole in questo spazio vettoriale multidimensionale e come le loro posizioni si relazionano con i modelli visti nei risultati umani o dell'intelligenza artificiale.

È così che il sistema sa che "regina" e "re" sono cose che vanno insieme.

Perplessità

Nel rilevamento dell'intelligenza artificiale, la perplessità è una metrica che misura la prevedibilità di un testo.

I contenuti generati dall'IA tendono ad avere una minore perplessità perché mirano a produrre un testo che scorre logicamente e si legge chiaramente. 

La scrittura umana, invece, può essere più disordinata. È più ricca di imprevedibilità, di salti creativi o di frasi semplicemente strane. 

Quindi, un basso punteggio di perplessità può essere un indizio che qualcosa proviene da un'intelligenza artificiale, ma non è mai usato isolatamente perché, beh, anche agli umani piace sembrare ovvi a volte.

Irruenza

L'intensità misura la varietà della scrittura. 

Gli autori umani di solito mostrano una maggiore irruenza, perché ci viene spontaneo mescolare righe brevi e veloci con altre complesse e distese.

L'intelligenza artificiale tende a giocare sul sicuro. Non prende deviazioni strane o esce improvvisamente dai binari nel bel mezzo del pensiero. E questo la rende più facile da individuare.

È possibile rilevare il contenuto di GPT-o1?

Chat GPT o1 non è disponibile gratuitamente e non fa più parte del normale piano Plus. 

È stato portato al piano Pro di OpenAI, che parte da un costo elevato di $200.

Ora, anche se non abbiamo pieno accesso pubblico per testare GPT o1, possiamo comunque fare un'ipotesi sulla sua rilevabilità.

OpenAI ha chiarito che questo modello è stato costruito pensando alle STEM. 

Quindi, sulla base di questo dato, si può scommettere che la capacità del modello di imitare la scrittura umana sarà piuttosto mediocre, se non del tutto negativa.

Grazie a un paio di canali YouTube che hanno pubblicato i risultati dei modelli Chat GPT o1, in particolare l'o1-mini e l'o1-preview, siamo riusciti a far passare questi testi attraverso i più diffusi strumenti di rilevamento e a vedere quali bandiere rosse sono emerse.

OpenAI o1-mini e o1-preview sono davvero impercettibili?

Abbiamo estratto due campioni di testo direttamente dai video di YouTube che eseguivano richieste attraverso o1-preview e o1-mini.

Vediamo se le loro uscite possono effettivamente eludere i rilevatori dell'IA senza suscitare allarmi.

O1-preview è rilevabile?

Abbiamo selezionato un campione di testo da un video di The Nerdy Novelistdove il modello o1-preview ha generato un breve articolo intitolato "Helen of Troy: Il volto che varò mille navi". 

Ci siamo concentrati sull'introduzione e sui primi due titoli, per un totale di 265 parole.

Abbiamo inserito il testo in AI non rilevabile, QuillBot, e Originalità.aiper coprire tutte le basi.

Undetectable AI non è rimasta impressionata. Ha segnalato 99% dei contenuti come generati dall'intelligenza artificiale e non si è fermata lì.

Prevedeva inoltre che altri rilevatori, come QuillBot, ZeroGPT e Grammarly, sarebbero giunti alla stessa conclusione. Confermiamo quindi questo risultato facendo passare il testo attraverso QuillBot.

QuillBot ha seguito l'esempio. Ha segnalato il testo come 100% probabilmente AI. 

Ma ama dare il beneficio del dubbio. È possibile passare il mouse su diverse parti del testo e vedere i livelli di fiducia: basso, moderato, alto. 

E poi c'è Originality.ai. È arrivato con 100% di certezza che il testo fosse scritto dall'intelligenza artificiale. Non 98%. Non 99. 100. E non usa nemmeno la parola "probabile".

L'o1-mini è rilevabile?

Parliamo ora di o1-mini. 

Il testo che abbiamo utilizzato è tratto da un altro YouTuber che ha usato un prompt molto migliore, e si vede. La scrittura aveva più personalità e un flusso più umano.

Anche i rilevatori di IA se ne sono accorti. QuillBot ha definito questo caso circa 45% AI, 55% umano. È un risultato decente.

Se si dà una lettura veloce senza controllare, si potrebbe anche credere che sia stata una persona a scriverlo.

Ma non mettetevi troppo comodi. Undetectable AI e Originality.ai non si sono fatti ingannare.

Entrambi hanno comunque chiamato l'AI con una certezza di 99% e 100%, rispettivamente. Quindi, anche con un prompt migliore, la scrittura non è riuscita a superare la barriera.

Il che ci porta alla conclusione: OpenAI o1-preview e o1-mini sono sicuramente rilevabili, soprattutto se si utilizza un Il rilevatore AI di Undetectable

È possibile modificare il prompt, riformulare le frasi, forse anche ingannare uno strumento qua e là. Ma Chat GPT o1 ha ancora alte probabilità di essere rilevato come rilevamento AI.

Come bypassare i rilevatori AI con GPT-o1

Quindi avete il vostro nuovo testo lucido direttamente da GPT o1 - pulito, veloce e incredibilmente coerente. Ottimo. Ma ora viene il vero trucco: farlo sembrare scritto da un essere umano. 

Una volta che GPT o1 ha fatto il suo lavoro, non basta pubblicarlo grezzo. Bisogna fare in modo che sembri scritto da un essere umano.

Ma invece di farlo manualmente, è possibile farlo attraverso gli umanizzatori dell'IA. 

Questi strumenti sanno come prendere un testo dal suono robotico e dargli un po' di stranezza umana. Il tipo di testo che i rilevatori faticano a decodificare.

Ma c'è un problema. Esistono diversi strumenti a questo scopo che promettono di "umanizzare" il testo, ma finiscono per farlo sembrare un testo mal rielaborato.

Ecco perché Undetectable AI merita un po' di attenzione.

La nostra suite di strumenti come Umanizzatore, Scrittore furtivo, e Parafrasatore capire effettivamente come ragionano i rilevatori di intelligenza artificiale. 

  • Humanizer modifica il flusso e il fraseggio quel tanto che basta per passare inosservato. 
  • Stealth Writer aggiunge una variazione nella struttura della frase, fondamentale per confondere i classificatori. 
  • E il parafrasatore rimodella il testo mantenendo intatto il significato originale.

In sostanza, questi strumenti conoscono il linguaggio dell'intelligenza artificiale e sanno come metterla fuori gioco.

Quindi, se si utilizza GPT o1 per la scrittura e si vuole che il proprio lavoro passi come umano, non si deve saltare la fase di post-elaborazione.

Anche una piccola pulizia con Undetectable AI può fare una grande differenza nel battere gli strumenti di rilevamento.

Scoprite il nostro AI Detector e Humanizer direttamente nel widget qui sotto!

GPT-o1 vs GPT-4o: Quale è più rilevabile?

Abbiamo già detto che il GPT o1 è fortemente orientato verso la matematica e la scienza, mentre il GPT-4o è un po' più fine quando si tratta di linguaggio. Ma come si comportano il GPT o1 e il GPT-4o nella scrittura?

Per prima cosa, abbiamo usato questo prompt per generare 400 parole di contenuto usando la GPT 4o:

Poi abbiamo fatto passare l'output di GPT-4o attraverso gli stessi tre rilevatori di IA: Undetectable AI, QuillBot e Originality.ai.

L'IA non rilevabile ha segnalato 99% dei contenuti come IA. È un rilevamento dell'intelligenza artificiale davvero notevole, vero?

Poi è arrivato QuillBot e ha detto: "Non così in fretta". Ha segnalato 73% dello stesso testo come generato dall'intelligenza artificiale, un giudizio ancora più severo di quello dato a GPT o1-mini, che ha ottenuto 45%.

Originality.ai era ancora bloccato in modalità di sospetto totale. Ha registrato il contenuto di GPT-4o a 100% AI, come sempre.

Cosa significa tutto questo? La maggior parte dei rilevatori di Ai, come Undetectable AI e Orginality AI, sono bravi a catturare il testo ChatGPT o1 e 4o.

Ma se vogliamo tenere il conto, GPT o1 è chiaramente più rilevabile. Su più rilevatori, è stato costantemente segnalato a 99-100% AI, anche con un prompt migliorato. 

E onestamente, questo ha senso. GPT o1 non è stato costruito per essere un modello linguistico. È un modello STEM-first, costruito per risolvere problemi. 

Il GPT-4o, invece, sa come suonare più naturale, soprattutto se abbinato a un prompt solido.

Quindi, se dovete scegliere tra i due modelli per attività di scrittura in cui la segretezza è importante, il GPT-4o è la soluzione migliore per passare inosservati.

Verdetto finale: GPT-o1 è rilevabile?

I nostri risultati concludono che sì, la GPT o1 è rilevabile. 

Anche con un'ingegneria di prompt decente, il testo che genera fa inciampare la maggior parte dei rilevatori di IA. 

Ma, a dire il vero, la scrittura non è il lavoro per cui è stato addestrato. Il GPT o1 è stato costruito per svolgere compiti legati alle STEM, come la risoluzione di equazioni, la codifica e l'elaborazione di dati.

Quindi, se si sta cercando di creare contenuti che sembrino effettivamente umani, GPT o1 probabilmente non è il modello adatto. È meglio usare GPT-4o, che ha una maggiore fluidità linguistica, o meglio ancora, usare uno strumento costruito appositamente per scrivere contenuti AI non rilevabili.

È qui che interviene Undetectable AI. 

Il nostro Umanizzatore AI riscrive i vostri contenuti in modo che suonino naturali, ricchi di sfumature e convincenti. 

Sia che stiate scrivendo post per il blog, saggi o descrizioni di prodotti, si adatta all'argomento senza far scattare gli allarmi di rilevamento dell'intelligenza artificiale.

E a proposito di allarmi, se volete verificare quanto sia realmente rilevabile il vostro contenuto (che sia di GPT o1, GPT-4o o di qualsiasi altro modello) il nostro AI Detector è uno degli strumenti più accurati sul mercato.

Quindi, saltate le congetture.

Provate oggi stesso Undetectable AI.

Undetectable AI (TM)