今日、あなたが目にするAI検出ツールはどれも、95%以上の精度があると豪語していることだろう。中には100%の信頼性があると言うものさえある!
しかし、AI探知機は正確なのだろうか?本当に?
AIモデルは常に更新されている。例えば、ChatGPTの現在のバージョンは、2022年に我々が見たバージョンよりもはるかにニュアンスがあり、文脈を認識している。
だから、多くのAI検出器が、そのテキストをAIが作成したものだと正確にラベル付けするのに苦労するのはごく自然なことだ。
とはいえ、いくつかのツールは他のものよりも優れていることは否定できない。しかし、どれが実際にその謳い文句どおりなのかを見極めるには、実際にテストしてみる必要がある。
それこそがこの記事でやったことだ。
ZDNetが使用しているのと同じベンチマークで、最も人気のある10個のAI検出器を評価し、AI検出器の精度を確認した。
以下がその結果である!
要点
- AI検出器は、単語の頻度、文のバリエーション、構文を分析し、テキストが人間によって書かれたものか、AIによって生成されたものかを判断する。
- 多くのツールのAI検出は、100%のように完全ではない。なぜなら、人間とAIが書く文章の多くは同じ文法構造を共有しており、誤検出や誤検出につながるからだ。
- AIコンテンツを正確に検出する3つの主な技術は、統計的言語モデリング、メタデータと電子透かし、機械学習分類器である。
- Undetectable AIは、複数の検出アルゴリズムを1つの連携システムに統合しています。有料ツールにありがちなトレードオフなしに、無料で信頼性の高いAI検知を提供します。

AIディテクターとは何か?
AI検出器は、テキストの一部が人間によって書かれたか、人工知能によって生成されたかを判断するツールである。
このシステムは、テキストを測定可能な特徴に分解し、機械が作者であることを明らかにするパターンをスキャンする。
AIが生成するテキストは、統計的なパターンに従う傾向がある。言語モデルは一連の流れの中で次の単語を予測するように訓練されているため、彼らの文章は微妙な痕跡を作り出す確率の上に成り立っている。
もうAIがあなたのテキストを検出する心配はありません。 Undetectable AI あなたを助けることができる:
- AIがアシストする文章を出現させる 人間らしい。
- バイパス ワンクリックですべての主要なAI検出ツール。
- 用途 AI 無事に そして 堂々 学校でも仕事でも。
AIディテクターは、単語の頻度、文構造の多様性、構文の複雑さ、言い回しの全体的なランダム性(またはその欠如)の分析を通じて、これらの痕跡を拾い上げる。
AIディテクターが使用する最も重要な2つのメトリクスは以下の通りである:
- 当惑: これは、文中の次の単語にモデルがどれだけ「驚いた」かを示す尺度である。人間の書く文章は、パターンから逸脱したり、慣用句を使ったり、感情を挿入したりするため、通常より高い当惑度を示す。 AIが作成した文章.
- バースト性:文章の長さとリズムのばらつきを測定します。人間は短い文章や長い文章、ばらつきのある文章を自然に書くが、AIが書いたコンテンツは長さが一定している。
AIの検知が難しい理由
人間とAIの文章の違いにもかかわらず、AIが作成した文章を検出するのは少し難しい。
その理由をいくつか挙げてみよう。
人間とAIの文章の類似性
人間の書くものもAIの書くものも、その核心では文法、時制、構文、言い回しなど同じ言語体系を使っている。
AIモデルはゼロから言語を発明するわけではない。
彼らは、彼らが成長する前の数年間に人間がすでに書いたものから学ぶだけなのだ。
彼らが学習するデータセットは、本質的に人間が書いたものだ。
つまり、よく発達したAI生成ツールは、人間の表現パターンを内面化し、それを再現しようとする。
データを消費すればするほど、彼らの書く文章は "人間的 "になっていく。
偽陽性と偽陰性
AI探知機は無謬ではない。
誤検出は、人間が書いたテキストが誤ってAIが作成したものと判定された場合に発生する。
一方、偽陰性は、AIが書いたテキストが検出されずにすり抜けた場合に起こる。
どちらもよくある誤表示だ。
多くのAI検知器は、事実の確実性よりも統計的確率に依存しているため、その精度は依然として限定的である。
コンスタント・モデルの進化
AIの検出は動く標的である。言語モデルの世代が新しくなるたびに、検出は難しくなる。
2022年にChatGPTが初めて一般向けに導入されたとき、その回答は繰り返され、しばしば定型的なものだった。
今時のAI検出器なら、そのような文章をAIが書いたと簡単に見破るだろう。
しかし、最新のGPT-5モデルは、文脈を意識した、感情的でインテリジェントなテキストを作成する。
出力の質は向上し続けているため、より文体の多様なAIテキストを検出することは挑戦である。
現在のAI検出器の精度は?
この質問に対する正直な答えは、どの検出器でどの検出方法をテストするかに大きく依存するということだ。
AI検知ツールの中には、管理された環境では完璧に近い結果を示すものもあるが、実世界のデータにさらされると、その性能は厄介なものとなる。
ベンチマーク ZDNet調査 は5つのテキストサンプル(3つはChatGPTによって生成され、2つは人間によって生成された)に対して11のAI検出器を評価した。
70%以上のAI尤度を持つサンプルをマークしたツールは、"呼び出しを行った "とみなされた。
その結果、Undetectable AIは100%の精度を達成した数少ないツールの一つであることがわかった。
しかし、AIによるコンテンツ検出は、日常生活におけるユーザーにとっても正確なのだろうか?
つまり、現実世界のテキストが "純粋なAI "や "純粋な人間 "であることは稀なのだ。
その多くは編集され、言い換えられたコンテンツで、意図的なノイズが含まれている。このような敵対的な状況では、多くの検出器の精度は急激に低下する。
A 査読付き研究 Copyleaks、TurnItIn、およびOriginalityについて、GPT-3.5と人間のコンテンツについては「高い精度を持っている」ものの、GPT-4レベルの出力を区別するのに苦労していることがわかった。
AI検出器トップ10比較
ZDNetの評価方法、つまりChatGPTが書いた3つのテキストサンプルと人間が書いた2つのテキストサンプルの合計5つを使用して、最も正確なAI検出ツールをテストしてみました。
ChatGPTのサンプルと人間が書いたサンプルです。
ChatGPTテキスト:

人間が書いた文章:

検出不可能なAI
最初にテストしたツールは 検出不可能なAIそして、すべてのテストに合格した。
5つのテキストサンプルはすべて、100%の人間が書いたものかAIが書いたものかを正しく識別した。

このプラットフォームは、他の検知器がフラグを立てた可能性のある指標さえ示した。
このシステムは、多くの異なるAIモデル(ChatGPT、Gemini、Claude、Llamaなど)をモデルにした複数の検出アルゴリズムを使用しているが、それらのモデルに直接依存するのではなく、独自のフェデレーションとコンセンサスに基づいたシステムを構築している。

基本的に、各アルゴリズムはこれらの検出器からのパターンに基づいて訓練されるが、集合的な判断を生成するために独立して実行される。
Undetectable AIはまた、AIが生成したテキストを「人間化」して検出を回避すると主張しているが、われわれの結果を見る限り、その主張は驚くほどよく保たれている。
GPTZero
次にGPTZeroをテストしたが、こちらも精度のベンチマークを満たし、5つのサンプルすべてで80%のしきい値を上回るスコアを記録した。

人間が書いた文章とAIが生成した文章の2つを、100%の信頼度で正しく識別した。

唯一の例外はAIが生成したサンプルで、GPTZeroは71% AIが生成したと表示したが、それでも我々の基準では正確な範囲内である。
コピーリークス
Copyleaksのテスト結果はまちまちだった。最初の人間が書いたサンプルを100%のAIが作成したものと誤分類し、出だしでつまずいた。
いわゆる "AIが多用するフレーズ "9つにもフラグが立った。

しかし、その後のテストはすべて正確だった。つまり、残りの4つのサンプルの各テキストを、それが何であるかを識別できたのである。

この矛盾は、Copyleaksが時折、人間が書いたサンプルのように極端に振れることがあることを示している。
それでも、すべてのテストを通して見ると、平均80%程度の精度だった。
クイルボット
QuillBotは、Undetectable AIに次いで、我々のテストにおいて傑出したツールであった。人間が書いたものとAIが作成したものを100%の精度で識別した2番目のツールだった。

注目すべきは、QuillBotはもともと言い換え機能で知られていたことだ。
しかし、そのAI検出器は、AIの作者であることを示す言語的一貫性をピンポイントで特定できる洗練された分析ツールでもある。

また、Quillbotは発売当初はあまり精度が高くなかったが、数年かけて確実に向上していることも注目に値する。現在では、数少ない信頼できるAI検知器のひとつとなっている。
ゼロGPT
ZeroGPTのテスト結果もまた、良好な一貫性を示した。
人間が書いた最初のサンプルは0%のAI生成と表示され、2番目のサンプルは9.44%のAI生成と表示された。

一方、AIが生成した3つのサンプルはすべて、AIが書いた100%と正しく識別された。

そこで、今回のテストでは、ZeroGPTを信頼できるAI検出器のリストに加えた。
文法
Grammarlyは、ライターが文法的に正確なコンテンツを作成するのを助けるという点では有名だが、そのAI検出能力については同じことは言えない。
私たちのテストでは、Grammarlyの検出器はまちまちで、やや一貫性のない結果を示した。
AIが生成したサンプルについては、92%、81%、54% AIが生成したサンプルとフラグを立て、2つは正しく識別できたが、1つはAIの尤度を過小評価してテストに失敗した。

人間が書いた文章では、1つは正解で、もう1つをAIと誤分類した。

つまり、60%の分析は正確だったと言える。
オリジナリティ.ai
Originality.aiは、AIが生成したものと人間が書いたものの両方を正しくスキャンし、100%の信頼できる結果を出したので、非常に信頼できるAI検出器のひとつでもあった。

Originality.aiは、AIと剽窃検出専用のプラットフォームです。きめ細かなレベルで文章を分析し、言い換えや編集されたコンテンツも検知することが独自にテストされています。

Originality.aiの唯一の欠点は、完全無料ではないということだ。
このプラットフォームでは、新規ユーザー向けに12,000文字が提供され、その後の追加スキャンはクレジットベースのシステムで行われる。
AIディテクターの価格は2,000クレジット(1クレジットは100ワードに相当)で、月額$14.95ドル。
ライター・ドット・コム
Writer.comは、AIによって生成された文章を作成することで有名だが、AIの検出については期待に沿うものではなかった。
5つのテキストサンプルのうち、AIが書いた2つのサンプルを人間が書いたものと誤認識した。
つまり、5つの検査結果のうち正確だったのは3つだけで、これは明らかなミスである。

Writer.comはまた、同社のAI検出ツールがAPIエンドポイントとともに12月22日に終了することを発表した。
それまでは通常通り機能する。これは、同社がAI検知の分野から離れつつあることを示している。

モニカ
このツールもまた、テスト時に非常に優れたパフォーマンスを発揮したツールのひとつだ。
モニカは、人間が書いたサンプルもAIが生成したサンプルも、一度のエラーもなく正確に識別しているので、安心して信頼できるAI検出器のリストに加えることができる。

同社は、ZeroGPT、GPTZero、CopyleaksのAI分析力を1つの統合ツールにまとめたとしている。
このシステムは 検出不可能なAIまた、複数の検出器を組み合わせることで、本格的なAI検出も可能だ。

苗木AIディテクター
Saplingは、5つのテキストサンプルすべてを識別するのに不正確であったため、信頼できるAI検出器ではないことが判明した。
サンプルのうち、Saplingは人間が書いたコンテンツの2つを100% AIと識別しましたが、これは的外れです。

しかし、Saplingで最も際立っているのは、その透明性である。同社は、AI検出器が短いテキストで誤検出を起こす可能性があることを率直に認めている。
また、このようなエラーを減らすためにシステムの改善に積極的に取り組んでいるとしている。

また、Saplingの検出器を含め、現在のAI検出器は、著作者であることを決定するための単独の方法として使用されるべきではないことを明確にしている。
を使用する。 AIチェッカー 他のAIディテクターが実際にどの程度信頼できるかを分析するためだ。
複数の検出ツールでサンプルテキストをテストし、一貫性のスコアを比較することで、AI Checkerは、どのシステムがコンテンツのラベル付けやフラグ付けを誤っているかを明らかにします。
これは、検出器の結果を信頼する前に、検出器の精度を測定するための迅速で透明性の高い方法である。
一般的なAI検出方法の説明
AIの検知は、1つの普遍的な公式に基づいて構築されているわけではない。
あるテキストが人間が書いたものか、AIが書いたものかを判断するために、いくつかの方法が使われ、検証されてきた。
統計的言語モデリング
これは、AIコンテンツ検出のための最も古く、最も広く使われている方法である。単語の並びの確率、つまり、ある単語が別の単語の後に続く可能性の分析に基づいている。
AIが生成したテキストは「当惑度」が低い傾向にあり、より予測可能で一貫した構造を持っていると言える。
一方、人間はテキストにばらつきをもたらす。
この方法を用いたコンテンツ検出器は、その起源を評価するためにパープレキシティとバースト性を計算する。
メタデータと電子透かし
これらの指標は、テキストの構造ではなく、どのように生成されたかを対象としている。
電子透かしとは、AIの出力にトークンレベルで目に見えない信号を埋め込むことを意味する。基本的に、これらのパターンは特定のアルゴリズムによってのみ検出することができる。
メタデータ検出は、タイムスタンプ、生成速度、API呼び出しパターンなどの文脈データを検査し、AIが書き込みプロセスに関与したかどうかを推測する。
しかし、AIが生成したテキストが編集されると、これらの信号は失われるため、管理されたテスト環境でのみ機能する。
機械学習分類器
AI検知器は、AIが書いた文章の「質感」を認識するように訓練された機械学習分類器に依存するようになってきている。
これらの分類器は、人間が書いた文章とAIが作成した文章の両方のデータセットから、何千もの言語的・構造的特徴を分析する。
その分析に基づいて、新しいテキストにAI、人間、ハイブリッドのラベルを付ける確率モデルを開発する。
このアプローチの長所は、新しい生成AIモデルのアプローチの変化に分類子が追いつき続けることだ。
下のウィジェットでAIディテクターとヒューマナイザーをお試しください!
結論
AI探知機は正確か」という質問に対しては、「はい、いくつかのツールは確実に正確です。
AIと人間が書いたすべてのテストサンプルで100%の精度を達成した。
また、このツールは無料で使用できる。他の多くのAIディテクターが、その最高の機能を有料壁やクレジットベースのシステムの背後に隠しているのとは違う。
Undetectable AIのエッジは、複数の主要な検出器の強みを単一の統一されたシステムに統合した、その連合検出モデルにある。
多層的なアプローチは、偽陽性と偽陰性を大幅に減少させる。
ですから、信頼できるAI検出器をお探しなら、 検出不可能なAI を試すべきだろう!