오늘날 접하는 모든 AI 탐지 도구는 95% 이상의 정확도를 자랑하며 대담한 주장을 펼칩니다. 심지어 100%의 신뢰도를 자랑하는 제품도 있습니다!
하지만 AI 탐지기는 정확할까요? 정말 그럴까요?
AI 모델은 지속적으로 업데이트되고 있습니다. 예를 들어 현재 ChatGPT 버전은 2022년 버전에 비해 훨씬 더 미묘하고 맥락을 인식합니다.
따라서 많은 AI 감지기가 텍스트를 AI 생성으로 정확하게 분류하는 데 어려움을 겪는 것은 당연한 일입니다.
그렇긴 하지만 일부 도구는 다른 도구보다 성능이 더 뛰어난 것이 분명합니다. 하지만 어떤 도구가 실제로 그 주장에 부합하는지 알아내려면 테스트를 해봐야 합니다.
이 글에서 저희가 한 일이 바로 그것입니다.
ZDNet에서 사용하는 것과 동일한 벤치마크를 통해 가장 인기 있는 AI 탐지기 10개를 평가하여 AI 탐지기들의 정확도를 확인했습니다.
저희가 찾은 것은 다음과 같습니다!
주요 내용
- AI 감지기는 단어 빈도, 문장 변형 및 구문을 분석하여 텍스트가 사람이 작성한 것인지 AI가 생성한 것인지를 판단합니다.
- 인간과 AI가 작성하는 많은 글은 동일한 문법 구조를 공유하기 때문에 오탐과 정탐이 발생하기 때문에 많은 도구의 AI 탐지는 100%가 완벽하지 않습니다.
- AI 콘텐츠를 정확하게 감지하는 세 가지 주요 기술은 통계적 언어 모델링, 메타데이터 및 워터마킹, 머신 러닝 분류기입니다.
- 탐지 불가능한 AI는 여러 탐지 알고리즘을 하나의 연합 시스템으로 결합합니다. 이 시스템은 유료 도구의 일반적인 단점 없이 신뢰할 수 있는 무료 AI 탐지를 제공합니다.

AI 감지기는 무엇이며 어떻게 작동하나요?
AI 탐지기는 텍스트가 사람이 작성한 것인지 인공지능이 생성한 것인지 판단하는 도구입니다.
이 시스템은 텍스트를 측정 가능한 특징으로 분류한 다음 기계 작성 여부를 파악할 수 있는 패턴을 스캔합니다.
AI가 생성한 텍스트는 통계적 패턴을 따르는 경향이 있습니다. 언어 모델은 시퀀스의 다음 단어를 예측하도록 학습되므로 미묘한 흔적을 만들어내는 확률을 기반으로 작성됩니다.
다시는 AI가 내 문자를 감지할까 걱정하지 마세요. Undetectable AI 도움을 드릴 수 있습니다:
- AI 지원 글쓰기 표시하기 사람처럼.
- 바이패스 클릭 한 번으로 모든 주요 AI 탐지 도구를 사용할 수 있습니다.
- 사용 AI 안전하게 그리고 자신 있게 학교와 직장에서
AI 감지기는 단어의 빈도, 문장 구조의 다양성, 구문의 복잡성, 구문의 전반적인 무작위성(또는 부족함)을 분석하여 이러한 흔적을 포착합니다.
AI 감지기가 사용하는 가장 중요한 두 가지 지표는 다음과 같습니다:
- 당황스러움: 모델이 문장의 다음 단어에 얼마나 "놀랐는지"를 측정하는 척도입니다. 사람의 글은 일반적으로 패턴에서 벗어나거나 관용구를 사용하거나 감정을 삽입하는 등의 이유로 더 높은 당혹감을 나타냅니다. AI가 생성하는 글쓰기.
- 파열성: 문장 길이와 리듬의 변화를 측정합니다. 사람은 자연스럽게 짧고 길고 불규칙한 문장을 섞어가며 글을 쓰는 반면, AI가 작성한 콘텐츠는 길이가 일정합니다.
AI 탐지가 어려운 이유
인간과 AI의 글쓰기에는 차이가 있지만, 특히 편집된 텍스트의 경우 AI가 생성한 텍스트를 감지하는 것은 다소 어렵습니다.
그 이유는 다음과 같습니다.
인간과 AI 글쓰기의 유사성
사람이 쓰든 AI가 쓰든 글쓰기의 핵심은 문법, 시제, 구문, 구문 등 동일한 언어 체계를 사용하는 것입니다.
AI 모델은 처음부터 언어를 발명하지 않습니다.
그들은 단순히 개발 이전 몇 년 동안 인간이 이미 작성한 것을 통해 학습합니다.
학습되는 데이터 세트는 본질적으로 사람이 작성한 것입니다.
따라서 잘 개발된 인공지능 생성 도구는 인간의 표현 패턴을 내면화하여 이를 재현하려고 합니다.
더 많은 데이터를 소비할수록 글쓰기는 더욱 '인간적인' 것이 됩니다.
오탐 및 거짓 긍정 및 거짓 부정
AI 탐지기는 완벽하지 않습니다.
오탐은 사람이 작성한 텍스트가 AI가 생성한 것으로 잘못 플래그가 지정될 때 발생합니다.
반대로 오탐은 AI가 작성한 텍스트가 감지되지 않고 통과하는 경우 발생합니다.
이 두 가지 잘못된 레이블은 매우 흔합니다.
많은 AI 탐지기는 사실적 확실성보다는 통계적 확률에 의존하기 때문에 정확도에 한계가 있습니다.
지속적인 모델 진화
AI 탐지는 움직이는 목표입니다. 새로운 세대의 언어 모델이 등장할 때마다 탐지하기가 더 어려워집니다.
2022년 ChatGPT가 처음 공개용으로 도입되었을 때, 그 반응은 반복적이고 형식적인 경우가 많았습니다.
오늘날의 모든 AI 탐지기는 이러한 종류의 텍스트를 AI가 작성한 것으로 매우 쉽게 감지할 수 있습니다.
하지만 최신 GPT-5 모델은 문맥을 인식하고 감정적으로 지능적인 텍스트를 생성합니다.
출력물의 품질이 계속 향상되고 있기 때문에 문체가 더욱 다양한 AI 텍스트를 감지하는 것은 어려운 과제입니다.
오늘날 AI 탐지기는 얼마나 정확할까요?
이 질문에 대한 정직한 대답은 어떤 탐지기와 어떤 탐지 방법을 테스트하는지에 따라 크게 달라진다는 것입니다.
일부 AI 탐지 도구는 통제된 환경에서는 완벽에 가까운 결과를 제공한다고 주장하지만 실제 데이터에 노출되면 성능이 엉망이 됩니다.
벤치마크 ZDNet 연구 는 5개의 텍스트 샘플(ChatGPT에서 생성한 3개, 사람이 생성한 2개)에 대해 11개의 AI 탐지기를 평가했습니다.
70% 이상의 AI 가능성이 있는 샘플을 표시한 모든 도구는 "호출을 수행한" 것으로 간주됩니다.
이 연구에 따르면 언디텍터블 AI는 100%의 정확도, 즉 5개의 샘플(인간과 AI 모두)을 오류 없이 모두 정확하게 분류한 몇 안 되는 도구 중 하나였습니다.
하지만 AI 콘텐츠 감지기가 실제 환경에서 일반 사용자들에게도 정확할까요?
문제는 실제 텍스트가 "순수한 AI"나 "순수한 인간"인 경우가 드물다는 것입니다.
많은 부분이 편집되고 의도적인 노이즈가 있는 의역된 콘텐츠이며, 이러한 불리한 조건으로 인해 많은 탐지기의 정확도가 급격히 떨어집니다.
A 동료 검토 연구 에 따르면 카피리크스, 턴잇인, 오리지널리티는 GPT-3.5와 사람 콘텐츠에 대해서는 "높은 정확도"를 보이지만, GPT-4 수준의 결과물을 구별하는 데 어려움을 겪고 있는 것으로 나타났습니다.
상위 10개 AI 탐지기 비교
이제 가장 정확한 AI 탐지기가 무엇인지 알아보기 위해 ZDNet의 평가 방법을 사용하여 총 5개의 텍스트 샘플(ChatGPT가 작성한 3개와 사람이 작성한 2개)을 사용하여 여러 도구를 테스트해 보았습니다.
다음은 저희가 사용한 ChatGPT 샘플과 사람이 직접 작성한 샘플입니다.
ChatGPT 텍스트:

사람이 쓴 텍스트:

감지할 수 없는 AI
저희가 테스트한 첫 번째 도구는 감지할 수 없는 AI모든 테스트를 통과했습니다.
5개의 텍스트 샘플은 모두 사람이 작성한 100% 또는 AI가 작성한 것으로 정확하게 식별되었습니다.

이 플랫폼은 다른 감지기가 플래그를 올렸을 수 있는 표시기까지 보여주었습니다.
이 시스템은 다양한 AI 모델(ChatGPT, Gemini, 클로드, 라마 등)을 모델로 한 여러 탐지 알고리즘을 사용하지만, 이러한 모델에 직접 의존하지 않고 자체 연합 및 합의 기반 시스템을 구축했습니다.

기본적으로 각 알고리즘은 이러한 탐지기의 패턴을 학습하지만 독립적으로 실행되어 종합적인 판단을 내립니다.
탐지 불가능한 AI는 또한 AI가 생성한 텍스트를 '인간화'하여 탐지를 우회한다고 주장하는데, 조사 결과 그 주장은 인상적으로 잘 맞아떨어졌습니다.
GPTZero
다음으로 정확도 벤치마크를 충족하고 5개의 샘플 모두에서 80% 임계값을 초과하는 점수를 기록한 GPTZero를 테스트했습니다.

사람이 쓴 글과 AI가 생성한 두 개의 텍스트를 100%의 신뢰도로 정확하게 식별했습니다.

유일한 예외는 인공지능으로 생성된 샘플 1개로, GPTZero에서 71% 인공지능으로 생성된 것으로 표시했지만 이 역시 저희 기준에 따라 정확한 범위 내에 속합니다.
카피 유출
카피리크스는 테스트에서 엇갈린 결과를 보여주었습니다. 첫 번째 사람이 작성한 샘플을 AI가 생성한 100%로 잘못 분류하여 시작부터 난관에 부딪혔습니다.
심지어 9개의 소위 "AI 남용 문구"를 표시하기도 했습니다.

그러나 이후의 모든 테스트는 정확했습니다. 즉, 나머지 4개의 샘플에 있는 각 텍스트가 무엇인지 정확하게 식별했습니다.

이러한 불일치는 사람이 직접 작성한 샘플에서와 같이 카피리크가 때때로 극단으로 치달을 수 있음을 시사합니다.
하지만 모든 테스트에서 평균 약 80%의 정확도를 보였습니다.
퀼봇
퀼봇은 테스트에서 언디텍터블 AI에 이어 또 다른 눈에 띄는 도구였습니다. 이 도구는 사람이 작성한 모든 글과 AI가 생성한 글을 100%의 정확도로 식별한 두 번째 도구였습니다.

주목할 만한 점은 퀼봇이 원래 의역 기능으로 유명했다는 점입니다.
하지만 언어적 일관성을 정확히 찾아낼 수 있는 정교한 분석 도구인 AI 탐지기는 AI의 저자를 알아낼 수 있습니다.

또한 주목할 만한 점은 출시 초기에는 퀼봇의 정확도가 그다지 높지 않았지만 수년에 걸쳐 확실히 개선되었다는 것입니다. 현재는 신뢰할 수 있는 몇 안 되는 AI 디텍터 중 하나입니다.
제로GPT
ZeroGPT의 테스트 결과도 좋은 일관성을 보여주었습니다.
첫 번째 사람이 쓴 샘플은 0% AI 생성으로 표시되었고, 두 번째 샘플은 9.44% AI 생성으로 표시되었는데, 둘 다 실제 사람이 쓴 것으로 허용 가능한 범위 내에 있습니다.

반면에 세 개의 AI 생성 샘플은 모두 100% AI가 작성한 것으로 정확하게 식별되었습니다.

따라서 이번 테스트를 통해 신뢰할 수 있는 AI 탐지기 목록에 ZeroGPT가 추가되었습니다.
문법
문법적으로 정확한 콘텐츠를 작성하는 데 있어 Grammarly는 유명하지만, AI 감지 기능도 마찬가지입니다.
테스트에서 Grammarly의 탐지기는 다소 일관되지 않은 혼합 결과를 보여주었습니다.
AI가 생성한 샘플의 경우 92%, 81%, 54% AI 생성으로 표시했는데, 이는 AI 가능성을 과소평가하여 두 개는 정확하게 식별했지만 한 개 테스트는 실패했다는 의미입니다.

사람이 쓴 텍스트에서 하나는 정답으로 맞추고 다른 하나는 AI로 잘못 분류했습니다.

따라서 분석 결과 60%가 정확하다고 말할 수 있습니다.
Originality.ai
Originality.ai는 AI가 생성한 것과 사람이 작성한 것을 모두 정확하게 스캔하고 100%의 확실한 결과를 제공했기 때문에 매우 신뢰할 수 있는 AI 탐지기 중 하나였습니다.

Originality.ai는 전용 AI 및 표절 감지 플랫폼입니다. 세분화된 수준에서 글을 분석하며, 의역 및 편집된 콘텐츠도 잡아낼 수 있도록 독립적인 테스트를 거쳤습니다.

Originality.ai의 유일한 단점은 완전히 무료가 아니라는 점입니다.
이 플랫폼은 신규 사용자에게 12,000자를 제공하며, 그 이후에는 신용 기반 시스템으로 추가 스캔을 진행합니다.
AI 탐지기의 가격은 월 2,000크레딧(1크레딧은 100단어)에 $14.95입니다.
Writer.com
Writer.com은 AI 생성 텍스트를 생성하는 것으로 유명하지만 AI 감지 기능은 기대에 미치지 못했습니다.
5개의 텍스트 샘플 중 AI가 작성한 2개의 샘플을 사람이 작성한 것으로 잘못 식별했습니다.
즉, 5개의 테스트 결과 중 3개의 결과만 정확했다는 뜻이며, 이는 명백한 실수입니다.

또한 Writer.com은 자사의 AI 감지 도구와 API 엔드포인트가 12월 22일에 일몰된다고 발표했습니다.
그때까지는 평소와 같이 계속 작동할 것입니다. 이는 회사가 AI 탐지 영역에서 벗어나고 있음을 보여줍니다.

Monica
이 도구 역시 테스트 결과 성능이 매우 우수한 도구 중 하나였습니다.
모니카는 사람이 작성한 모든 샘플과 AI가 생성한 샘플을 오류 없이 정확하게 식별했으므로 신뢰할 수 있는 AI 탐지기 목록에 안전하게 추가할 수 있습니다.

이 회사는 ZeroGPT, GPTZero, Copyleaks의 AI 분석 강점을 하나의 통합된 도구로 결합했다고 주장합니다.
시스템은 다음과 유사합니다. 감지할 수 없는 AI는 여러 탐지기를 결합하여 진정한 AI 탐지를 지원합니다.

묘목 AI 탐지기
Sapling은 5개의 텍스트 샘플을 모두 식별하는 데 부정확했기 때문에 신뢰할 수 있는 AI 탐지기로 판명되지 않았습니다.
사플링은 샘플 중 사람이 작성한 콘텐츠 중 2개를 100% AI로 식별했는데, 이는 정확하지 않은 결과입니다.

하지만 Sapling에서 가장 눈에 띄는 점은 투명성입니다. 이 회사는 AI 탐지기가 짧은 텍스트로 오탐지를 일으킬 수 있다는 사실을 공개적으로 인정합니다.
또한 이러한 오류를 줄이기 위해 시스템을 개선하기 위해 적극적으로 노력하고 있다고 밝혔습니다.

또한 새플링을 포함한 현재의 어떤 AI 검출기도 저자를 판단하는 독립적인 방법으로 사용되어서는 안 된다는 점을 명확히 하고 있습니다.
사용 AI 검사기 를 사용하여 다른 AI 탐지기가 실제로 얼마나 신뢰할 수 있는지 분석합니다.
여러 탐지 도구를 통해 샘플 텍스트를 테스트하고 일관성 점수를 비교함으로써 AI Checker는 어떤 시스템이 콘텐츠에 라벨을 잘못 지정하거나 오버플래그를 지정하는지 파악할 수 있도록 도와줍니다.
결과를 신뢰하기 전에 탐지기의 정확도를 빠르고 투명하게 측정할 수 있는 방법입니다.
일반적인 AI 탐지 방법 설명
AI 탐지는 하나의 보편적인 공식에 기반하지 않습니다.
텍스트가 사람이 쓴 것인지 AI가 쓴 것인지 판별하는 데는 여러 가지 방법이 사용되고 검증되었습니다.
통계 언어 모델링
가장 오래되고 가장 널리 사용되는 AI 콘텐츠 감지 방법입니다. 이는 단어 시퀀스의 확률, 즉 한 단어가 다른 단어 뒤에 올 확률을 분석하는 것을 기반으로 합니다.
AI가 생성한 텍스트는 '난해성'이 낮은 경향이 있으므로 더 예측 가능하고 구조가 일관적이라고 할 수 있습니다.
반면에 인간은 텍스트에 가변성을 도입합니다.
이 방법을 사용하는 콘텐츠 감지기는 난해성과 파열성을 계산하여 출처를 평가합니다.
메타데이터 및 워터마킹
이러한 메트릭은 텍스트의 구조가 아닌 텍스트가 생성된 방식을 대상으로 합니다.
워터마킹은 토큰 수준에서 AI 출력에 보이지 않는 신호를 삽입하는 것을 의미합니다. 기본적으로 이러한 패턴은 특정 알고리즘에 의해서만 감지할 수 있습니다.
메타데이터 감지는 타임스탬프, 생성 속도, API 호출 패턴과 같은 컨텍스트 데이터를 검사하여 AI가 작성 과정에 관여했는지 여부를 추론합니다.
그러나 다시 말하지만, AI가 생성한 텍스트를 편집하면 이러한 신호가 손실되므로 통제된 테스트 환경에서만 작동합니다.
머신 러닝 분류기
AI 감지기는 점점 더 AI 글쓰기의 '질감'을 인식하도록 훈련된 머신 러닝 분류기에 의존하고 있습니다.
이 분류기는 사람이 쓴 글과 AI가 생성한 글 데이터 세트의 수천 가지 언어적, 구조적 특징을 분석합니다.
이러한 분석을 기반으로 확률 모델을 개발하여 새 텍스트에 AI, 인간 또는 하이브리드 레이블을 지정합니다.
이 접근 방식의 강점은 분류자가 최신 생성 AI 모델의 접근 방식 변화를 계속 따라잡을 수 있다는 점입니다.
아래 위젯에서 AI 디텍터와 휴머나이저를 사용해 보세요!
결론
"AI 탐지기는 정확한가?"라는 질문에 대한 대답은 "예, 몇몇 도구는 안정적으로 정확하며, 탐지할 수 없는 AI도 그중 하나입니다."입니다.
모든 AI 및 사람이 작성한 테스트 샘플에서 100%의 정확도를 달성했습니다.
또한 이 도구는 유료 또는 신용 기반 시스템 뒤에 최고의 기능을 숨기는 다른 많은 AI 탐지기와 달리 무료로 사용할 수 있습니다.
여러 주요 탐지기의 강점을 하나의 통합된 시스템으로 결합하는 연합 탐지 모델에 언디텍터블 AI의 강점이 있습니다.
다층적 접근 방식은 오탐과 오탐을 크게 줄여줍니다.
따라서 신뢰할 수 있는 AI 탐지기를 찾고 있다면, 감지할 수 없는 AI 를 사용해 보세요!