GPT-o1コンテンツはAIツールで検出可能か?

GPT o1はAI検知器に引っかからずにコンテンツを書き込めるか?

もっともな質問だ。 

この記事では、GPT o1が科学、コーディング、数学の分野に関する複雑なタスクを処理するために訓練されたモデルであることを紹介する。 

でもね、もしそれが書けるのなら、そしてそれをAIの探知機にこっそり通すことができるかどうかは、探求する価値がある。

この記事を読んで、あなたは何を得るだろう:

  • GPT-o1とは?
  • AIディテクターの仕組み
  • GPT-o1コンテンツは検出できるか?
  • OpenAIのo1-miniとo1-previewは本当に検出不可能なのか?
  • GPT-o1でAI検知器をバイパスするには?
  • GPT-o1とGPT-4o:どちらが検出されやすいか?

では、始めよう。

GPT-o1とは?

2024年9月、OpenAIはGPT-o1-previewを、より軽量でコスト効率に優れたo1-miniと呼ばれるバージョンとともに発表した。 

2024年12月までに、プレビュー版は正式にGPT-o1のフルモデルに取って代わられた。 

OpenAIによると、GPT-o1は、応答を生成する前に、より多くの計算「思考」時間を割くことによって、非常に複雑な問題に取り組むように作られている。 

もうAIがあなたのテキストを検出する心配はありません。 Undetectable AI あなたを助けることができる:

  • AIがアシストする文章を出現させる 人間らしい。
  • バイパス ワンクリックですべての主要なAI検出ツール。
  • 用途 AI 無事に そして 堂々 学校でも仕事でも。
無料で試す

これには、競技プログラミング、抽象数学、科学的推論などの高度なタスクも含まれ、このモデルは専門家に近い技巧で処理することができる。

そしてテストは、この専門知識の証拠である。 

ベンチマークテストでは、o1-previewは以下の順位にランクされた。 コードフォース89パーセンタイル コンペティション

について 米国数学検定試験o1は83%(12.5/15)の問題を解いた。それに比べ、GPT-4oは13%(1.8/15)しか解けなかった。

このモデルはまた、複数の科学領域(物理学、化学、生物学)において博士号レベルの熟練度を示した。

つまり、このモデルは主に研究や技術的な用途のために作られたことは明らかだ。

GPT-3.5、GPT-4、GPT-4oとの違い

GPT-o1の視点から見ると、GPT-3.5、GPT-4、GPT-4oとの違いは、手元のタスクによって、微妙なものであったり、際立ったものであったりする。

GPT-3.5は、限られた16,385のコンテキストウィンドウ(4,096の出力トークン)を持つ古いデータセットで動作し、基本的な推論と適切なコーディングスキルを提供する。 

一般的なプロンプトなら問題ないが、ネストしたロジックやトリッキーなアルゴリズムの問題を渡せば、すぐにそのエッジが見えてくる。

それに比べると、GPT o1は異なる認知クラスで動作している。だから、比較は正しくない。

GPT-4は、3.5よりも洗練され、より幅広いタスク、特にニュアンスを必要とするタスクで能力を発揮する。しかし、それでもo1のような厳密さで技術的な複雑さを掘り下げることはできない。 

GPT-4oはスピードとマルチモーダル能力にさらに磨きをかけたが、深い分析タスクではまだ遅れをとっている。

より速く、よりインタラクティブで、汎用的な使用により適している。クリエイティブな文章作成、チャット、マルチメディア・タスクに対応し、今のところo1より優れている。

しかし、ロジックを多用するユースケースに関しては、o1が大きくリードしている。 

とはいえ、GPT-o1にはウェブブラウジングやファイルアップロードなど、GPT-4oがサポートしているユーザーフレンドリーな機能が欠けている。

また、このモードは少し簡潔であることもある。その拒否応答は短く、4oが含みがちな言及や深い説明を読み飛ばすこともある。 

o1のもう一つの大きな注意点は、危険なクエリに対処する際にリスクを増幅させる可能性があることだ。

例えば、ロッククライミングの技術について尋ねられたとき、 GPT-o1の綿密な関与は、過度の信頼を助長する可能性がある。GPT-4oは一般的なアドバイスをデフォルトとしている。

[ソース]

特徴GPT-3.5GPT-4GPT-4oGPT o1
トレーニングデータ古いデータセットより最近の、より広範な最新情報最新情報
出力トークン4,096トークン 8,192トークン 16,384トークン100,000トークン 
コンテキストウィンドウ16,3858,192128,000200,000
正確さと一貫性グッド大幅な改善高い例外的
推論能力ベーシック上級上級博士号レベル
コーディング・スキルまとも熟練熟練エキスパートに近いレベル
クリエイティブ・ライティング有能よりクリエイティブでニュアンス豊か迅速、創造的実現不可能
応答速度速い中程度最速遅い(意図的)
最適カジュアルユース一般業務スピード+マルチタスク技術的な深さ

AIディテクターの仕組み

AI探知機はGPT後のブームでますます一般的になった。

その目的は、何かが人によって書かれたものなのか、GPT-o1のようなモデルによって吐き出されたものなのかを見極めることだ。

機械学習とNLPの4大概念と、オタク的な指標の束に基づいて推測するのだ。

クラシファイア

これらの検出器の主要な頭脳は分類器と呼ばれる。

これらの分類器は、AIが作成したもの、あるいは人間が書いたものとラベル付けされた膨大なデータセットで訓練され、時間をかけて両者の違いを学習していく。

いったんモデルが訓練されれば、新しいテキストの塊を評価し、それがAIと人間のスペクトラムのどこに属するかを判断することができる。

特定の単語の出現頻度、文章の長さ、全体の響きがきれいすぎないかなどをチェックする。

埋め込み

コンピュータは人間のように言語を理解することはできないので、エンベッディングは単語を数学的なベクトルに変換し、意味、文脈、単語の関係を表現する。

ディテクターが文章を分析するとき、単語がこの多次元ベクトル空間のどこに位置し、その位置が人間やAIの出力に見られるパターンにどのように関係しているかを見ているわけだ。

クイーン」と「キング」が一緒のものであることをシステムが知っているのだ。

当惑

AIの検出において、perplexity(当惑度)とは、文章がどの程度予測可能かを測る指標である。

AIが生成するコンテンツは、論理的に流れ、明瞭に読まれるテキストを生成することを目的としているため、当惑度が低い傾向がある。 

一方、人間の書く文章はもっと厄介なものだ。予測不可能なこと、創造的な飛躍、あるいはストレートに奇妙な言い回しの方が豊かだ。 

つまり、当惑度のスコアが低ければ、それがAIによるものであることを示す手がかりになり得るが、それだけを単独で使うことはない。

バースト性

バースト性は、あなたの文章がどれだけバラエティに富んでいるかを測るものだ。 

人間の作者は、短くてキレのある行と、長くて複雑な行を自然に織り交ぜているため、通常、バースト性が高い。

AIは安全策を取る傾向がある。変な回り道をしたり、思考の途中で突然レールから外れたりしない。その分、見破られやすい。

GPT-o1コンテンツは検出できるか?

チャットGPT o1は無料では利用できず、通常のプラスプランにも含まれていない。 

OpenAIのProプランにアップグレードされ、$200からとなる。

さて、GPT o1を自分でテストするための完全なパブリック・アクセスがないとはいえ、その検出可能性については十分な推測が可能だ。

OpenAIは、このモデルがSTEMを念頭に置いて作られたものであることを明言している。 

ということは、このモデルが人間の書く文章を模倣する能力は、まったくダメではないにせよ、ごく平均的なものであることは間違いないだろう。

チャットGPT o1モデル(特にo1-miniとo1-preview)のサンプル出力を投稿しているいくつかのYouTubeチャンネルのおかげで、これらのテキストを一般的な検出ツールに通し、どのようなレッドフラグが飛び出すか確認することができた。

OpenAIのo1-miniとo1-previewは本当に検出不可能なのか?

我々は、o1-previewとo1-miniでプロンプトを実行するYouTubeのビデオから直接2つのテキストサンプルを取り出した。

彼らのアウトプットがアラームを発することなく、AIの検知器をすり抜けることができるかどうか見てみよう。

o1-previewは検出可能か?

のテキストサンプルを選んだ。 オタク小説家によるビデオo1-previewモデルが「トロイのヘレン」というタイトルの短い記事を作成した:千の船を進水させた顔 "と題された短い記事が生成された。 

私たちはイントロと最初の2つの見出し、合計265語に集中した。

にテキストを放り込んだ。 検出不可能なAI, クイルボットそして オリジナリティ.aiすべてのベースをカバーするためにね。

Undetectable AIは感心しなかった。99%のコンテンツにAIが作成したものだとフラグを立て、それだけにとどまらなかった。

また、QuillBot、ZeroGPT、Grammarlyのような他の検出器も同じ結論を出すだろうと予測した。では、QuillBotにテキストを通して確認してみよう。

クイルボットもそれに続いた。100%とフラグを立てた。 

しかし、それは疑いの利益を与えることを好む。テキストのさまざまな部分にカーソルを合わせると、信頼度が表示される。 

そしてOriginality.ai。そのテキストがAIによって書かれたものであるという100%の確信を持ってやってきた。98%ではない。99でも100でもない。しかも「可能性が高い」という言葉さえ使っていない。

o1-miniは検出可能か?

では、o1-miniについて話そう。 

ここで使用したテキストは 別のYouTuber もっといいプロンプトを使った人だ。文章はより個性的で、より人間的な流れがあった。

AI探知機も気づいた。クイルボットはこれを45%のAI、55%の人間と呼んだ。まともな結果だ。

確認もせずにざっと読んだだけなら、人が書いたものだと信じてしまうかもしれない。

しかし、安心しすぎてはいけない。Undetectable AIとOriginality.aiは騙されなかった。

2人とも、それぞれ99%と100%の確実性で、やはりAIと呼んだ。つまり、プロンプトを改善しても、フェンスをクリアすることはできなかったのだ。

これが結論だ:OpenAIのo1-previewとo1-miniは間違いなく検出可能である。 検出不可能なAI検出器

プロンプトを微調整したり、文章を言い換えたり、もしかしたらあちこちのツールを騙すこともできるかもしれない。しかし、チャットGPTのo1は依然としてAI検知される可能性が高い。

GPT-o1でAI検知器をバイパスする方法

GPTのo1から直接、きれいで、速くて、不気味なほど首尾一貫した、ピカピカの新しいテキストを手に入れたわけだ。素晴らしい。しかし、本当のトリックはこれからだ。 

GPT o1が仕事を終えたら、ただ生のまま投稿するのではない。人間が書いたように見せる必要がある。

しかし、それを手作業で行うのではなく、AIヒューマナイザーによって行うことができる。 

これらのツールは、ロボットのように聞こえるテキストに、少し人間的な奇妙さを与える方法を知っている。探知機が解読に苦労するようなものだ。

しかし、問題はここからだ。この目的のために、テキストを "人間らしく "することを約束しながら、結局はひどく焼き直したテキストのように聞こえるようにするツールがかなり出回っている。

だからこそ、Undetectable AIはスポットライトを浴びるに値するのだ。

のようなツール群 ヒューマナイザー, ステルスライターそして パラフレーザー AIディテクターがどのように考えているかを実際に理解している。 

  • ヒューマナイザーは、水面下に潜り込める程度に流れや言い回しを微調整している。 
  • ステルスライターは、分類者を混乱させる鍵となる文構造のバリエーションを加える。 
  • そしてパラフレーザーは、原文の意味をそのままに、文章を再構成する。

基本的に、これらのツールはAIの言語を熟知しており、AIのゲームを中断させる方法を知っている。

だから、もしあなたがGPT o1をライティングに使っていて、自分の仕事を人間としてパスさせたいのなら、後処理のステップをスキップしてはいけない。

Undetectable AIを使って少しクリーンアップするだけでも、検知ツールに打ち勝つ上で大きな違いが生まれる。

下のウィジェットで、AIディテクターとヒューマナイザーをご覧ください!

GPT-o1とGPT-4o:どちらが検出されやすいか?

GPT o1が数学と科学に重きを置いているのに対し、GPT-4oは言語に関してもう少し繊細であることはすでに話した。しかし、GPT o1対4oはライティングではどうなのだろうか?

まず、このプロンプトを使って、GPT 4oを使って400語のコンテンツを作成した:

次に、GPT-4oの出力を同じ3つのAI検出器にかけた:Undetectable AI、QuillBot、Originality.aiである。

検出不可能なAIが99%のコンテンツをAIとフラグを立てた。素晴らしいAI検出ではないか?

その後、クイルボットがやってきて、「そうはいかない」と言った。これはGPT o1-miniに下した45%よりもさらに厳しい判定だった。

Originality.aiはまだ完全な疑いモードで止まっていた。GPT-4oの内容はいつもと同じ100% AIで計測された。

では、これは何を意味するのでしょうか?Undetectable AIやOrginality AIのようなほとんどのAi検出器は、ChatGPTのo1や4oのテキストをキャッチするのが得意です。

しかし、スコアをつけるのであれば、GPT o1の方が明らかに検出しやすい。複数の検出器において、改善されたプロンプトを使っても、99-100% AIで一貫してフラグが立った。 

そして正直なところ、それは理にかなっている。GPT o1は言語モデルとして作られたわけではない。問題を解決するために作られたSTEMファーストのモデルなんだ。 

一方、GPT-4oは、特にソリッドなプロンプトと組み合わせたときに、より自然に聞こえる方法を知っている。

だから、ステルス性が重要なライティング作業で2つのどちらかを選ぶなら、GPT-4oの方がレーダーをすり抜けるには有利だ。

最終結論:GPT-o1は検出可能か?

我々の調査結果は、GPT o1は検出可能であると結論づけた。 

まともなプロンプト・エンジニアリングを使っても、生成されるテキストはほとんどのAI検出器に引っかかる。 

しかし、公平を期すために言えば、文章を書くことはそのために訓練された仕事ではなかった。GPT o1は、方程式を解いたり、コーディングしたり、データを計算したりといったSTEM関連のタスクのために作られた。

だから、実際に人間に聞こえるようなコンテンツを作ろうとするなら、GPT o1はそのためのモデルではないだろう。GPT-4oを使った方がいい。GPT-4oの方が、より流暢な言語が使えるし、もっといいのは、検出不可能なAIコンテンツを書くために特別に作られたツールを使うことだ。

そこでUndetectable AIの出番だ。 

私たちの AIヒューマナイザー 自然で、ニュアンスがあり、説得力のある人間的な響きにリライトします。 

ブログ記事でも、エッセイでも、商品説明でも、AI検知アラームを作動させることなく、あなたのトピックに適応します。

アラームといえば、もしあなたのコンテンツが本当に検出可能かテストしたいのであれば(GPT o1、GPT-4o、または他のモデルであろうと)、私たちのAI検出器は市場で最も正確なツールの1つです。

だから、当てずっぽうで考えるのはやめよう。

検出不可能なAIを今すぐ試す.

Undetectable AI (TM)