GPT o1 能否在不被人工智能检测器发现的情况下写入内容?
这是一个公平的问题。
在这篇文章中,你会了解到 GPT o1 是一个经过训练的模型,可以处理与科学、编码和数学领域相关的复杂任务。
不过,如果它能写,以及你是否能瞒过人工智能探测器,都值得一探究竟。
读完这篇文章后,你会有以下收获:
- 什么是 GPT-o1?
- 人工智能探测器如何工作?
- 能否检测到 GPT-o1 内容?
- OpenAI 的 o1-mini 和 o1-preview 真的无法检测吗?
- 如何使用 GPT-o1 绕过 AI 检测器?
- GPT-o1 与 GPT-4o:哪个更易检测?
那就开始吧。
什么是 GPT-o1?
2024 年 9 月,OpenAI 推出了 GPT-o1-preview 以及更轻便、更具成本效益的变体 o1-mini。
到 2024 年 12 月,预览版正式被完整的 GPT-o1 模型所取代。
根据 OpenAI 的说法,GPT-o1 是为了解决高度复杂的问题而设计的,它在生成响应之前会投入更多的计算 "思考 "时间。
再也不用担心人工智能检测到你的短信了 Undetectable AI 可以帮助您:
- 让人工智能辅助写作显现出来 像人一样
- 旁路 只需点击一下,就能使用所有主要的人工智能检测工具。
- 使用 人工智能 安全地 和 自信地 在学校和工作中。
其中包括竞技编程、抽象数学和科学推理等高级任务,该模型能以近乎专家级的精细程度处理这些任务。
而测试就是这种专业知识的证明。
在基准测试中,o1-preview 排在 Codeforces 排名第 89 位 比赛。
在 美国数学邀请考试o1 解决了 83% 个问题(12.5/15)。相比之下,GPT-4o 只解决了 13% 个问题(1.8/15)。
该模型还显示了多个科学领域(物理、化学和生物)的博士水平。
由此可见,该机型主要是为研究和技术应用而制造的。
与 GPT-3.5、GPT-4 和 GPT-4o 的区别
从 GPT-o1 的角度来看,与 GPT-3.5、GPT-4 和 GPT-4o 的区别既微妙又明显,具体取决于手头的任务。
GPT-3.5 在一个较早的数据集上运行,其上下文窗口有限,只有 16,385 个(4,096 个输出标记),可提供基本的推理和适当的编码技能。
它在处理一般提示时表现尚可,但如果给它一个嵌套逻辑或棘手算法的问题,你很快就会发现它的不足之处。
与之相比,GPT o1 在不同的认知类别中运行。因此,这种比较是不正确的。
GPT-4 的表现依然稳健,比 3.5 版更加精致,能胜任更广泛的任务,尤其是那些需要细微差别的任务。但即便如此,它也无法像 o1 那样严谨地探究技术的复杂性。
GPT-4o 进一步提高了速度和多模式能力,但在深度分析任务方面仍然落后。
它的速度更快、互动性更强,而且更适合一般用途。目前,它在处理创意写作、聊天和多媒体任务方面比 o1 更胜一筹。
但是,在逻辑性较强的用例方面,o1 则明显处于领先地位。
不过,GPT-o1 缺少一些用户友好的功能,如网页浏览或文件上传,而 GPT-4o 支持这些功能。
该模式也可能有点简洁。它的拒绝回复较短,有时会跳过参考文献或更深层次的解释,而 4o 往往会包括这些内容。
o1 的另一个主要注意事项是,在处理危险查询时,它可能会放大风险。
例如,当被问及攀岩技巧时、 GPT-o1 的深入参与可能会鼓励过度依赖而 GPT-4o 则默认为通用建议。
[消息来源]
特点 | GPT-3.5 | GPT-4 | GPT-4o | GPT o1 |
培训数据 | 旧数据集 | 更近和更广泛 | 最新 | 最新 |
输出标记 | 4,096 枚代币 | 8,192 枚代币 | 16,384 枚代币 | 100,000 代币 |
上下文窗口 | 16,385 | 8,192 | 128,000 | 200,000 |
准确性和一致性 | 良好 | 显著改善 | 高 | 出类拔萃 |
推理能力 | 基本 | 高级 | 高级 | 博士级 |
编码技能 | 体面 | 精通 | 精通 | 接近专家级 |
创意写作 | 有能力 | 更有创意,更细致入微 | 快速、有创意 | 不可行 |
响应速度 | 快速 | 中度 | 最快 | 较慢(故意) |
最适合 | 临时使用 | 一般任务 | 速度 + 多任务处理 | 技术深度 |
人工智能探测器如何工作
人工智能探测器在《全球通》之后的热潮中越来越常见。
其目的是为了弄清某些东西是由人写的,还是由像 GPT-o1 这样的模型吐出来的。
他们会根据大量书呆子指标以及四大机器学习和 NLP 概念进行猜测。
分类器
这些探测器的主脑被称为分类器。
这些分类器在标注为人工智能生成或人类编写的海量数据集上进行训练,随着时间的推移,它们会了解两者的区别所在。
一旦模型得到训练,它就能评估新的文本块,并决定其在人工智能与人类之间的关系。
它可以检查某些词语出现的频率、句子的长度,以及整篇文章听起来是否过于干净利落。
嵌入
由于计算机无法像我们一样掌握语言,因此嵌入将单词转换成数学向量,代表意义、上下文和单词关系。
因此,当检测器分析一个句子时,就会查看单词在这个多维向量空间中的位置,以及它们的位置与人类或人工智能输出中的模式之间的关系。
这就是系统如何知道 "王后 "和 "国王 "是相辅相成的东西。
困惑
在人工智能检测中,困惑度是衡量一篇文章可预测程度的指标。
人工智能生成的内容往往具有较低的困惑性,因为它旨在生成逻辑流畅、阅读清晰的文本。
而人类的写作则可能更加混乱。它更富于不可预测性、创造性跳跃或直接的怪异措辞。
因此,低困惑度得分可以作为人工智能的线索,但绝不能单独使用,因为即使是人类,有时也喜欢听起来很明显。
爆发力
爆发力衡量的是写作的多样性。
人类作者通常表现出更高的爆发力,因为我们会自然而然地将短小精悍的行文与庞杂复杂的行文混杂在一起。
人工智能倾向于稳妥行事。它不会走奇怪的弯路,也不会在思考过程中突然偏离轨道。这样就更容易被发现。
能否检测到 GPT-o1 内容?
聊天 GPT o1 不再免费,也不再是常规 Plus 计划的一部分。
它已升级为 OpenAI 的专业计划,起价高达 $200。
现在,尽管我们没有完全公开的访问权限,无法亲自测试 GPT o1,但我们仍然可以对其可检测性做出有根据的猜测。
OpenAI 非常清楚地表明,这种模式是以 STEM 为中心建立的。
因此,可以肯定的是,该模型模拟人类书写的能力即使不是很差,也很一般。
多亏 YouTube 上的几个频道发布了 Chat GPT o1 型号(特别是 o1-mini 和 o1-preview)的输出样本,我们才得以通过流行的检测工具运行这些文本,看看会出现什么样的红旗。
OpenAI 的 o1-mini 和 o1-preview 真的无法检测吗?
我们直接从 YouTube 视频中提取了两个文本样本,通过 o1-preview 和 o1-mini 进行提示。
让我们看看它们的输出是否真的能在不触发警报的情况下通过人工智能探测器。
o1-preview 是否可检测?
我们从一个 书呆子小说家的视频,其中 o1-preview 模型生成了一篇题为 "特洛伊的海伦 "的短文:千帆竞发的容颜 "的短文。
我们的重点是导言和前两个标题,共 265 个字。
我们将文本放入 检测不到的人工智能, QuillBot和 原创性.ai,只是为了覆盖所有基础。
无法检测的人工智能并没有被打动。它将其中的 99% 标记为人工智能生成的内容,而且还不止于此。
它还预测其他检测器(如 QuillBot、ZeroGPT 和 Grammarly)也会得出同样的结论。因此,让我们通过 QuillBot 来验证一下。
QuillBot 也紧随其后。它将文本标记为 100%,很可能是人工智能。
不过,它喜欢给人一种怀疑的感觉。您可以将鼠标悬停在文本的不同部分,查看置信度:低、中、高。
还有 Originalality.ai。它以 100% 的信心认为文本是人工智能编写的。不是 98%。不是 99,是 100。它甚至没有使用 "可能 "这个词。
o1-mini 是否可以检测?
现在我们来谈谈 o1-mini。
我们在这里使用的文本来自 另一位优酷用户 他使用了更好的提示语,这一点显而易见。他的文章更有个性,更有人情味。
人工智能探测器也注意到了。QuillBot 称这次的人工智能为 45%,人类为 55%。这个结果还算不错。
如果你不加核实就匆匆一读,你甚至会相信是一个人写的。
但也别太得意。Undetectable AI 和 Originality.ai 不会上当。
他们仍然分别以 99% 和 100% 的确定性称之为人工智能。因此,即使有更好的提示,写作也无法清除栅栏。
这就是我们的底线:OpenAI的o1-preview和o1-mini绝对可以被检测到,尤其是如果您使用的是 无法检测的人工智能探测器.
您可以调整您的提示,重新措辞,甚至在这里或那里骗过一个工具。但聊天 GPT o1 被检测为人工智能检测的几率仍然很高。
如何使用 GPT-o1 绕过人工智能探测器
你已经从 GPT o1 直接获得了闪亮的新文本--干净、快速、连贯。好极了。但现在真正的诀窍来了:让它看起来像是人类写的。
GPT o1 完成工作后,不能直接发布。你需要让它看起来像是人写的。
不过,您可以通过人工智能人性化程序来代替手动操作。
这些工具知道如何处理听起来像机器人的文本,并赋予它一点人类的怪异性。这就是检测器难以解码的文字。
但问题是。市面上有很多这样的工具,它们承诺 "人性化 "你的文本,但最终却让你的文本听起来像一个糟糕的翻版文本。
因此,"无法检测的人工智能 "值得关注。
我们的工具套件包括 人道主义者, 隐形作家和 译员 真正了解人工智能探测器是如何思考的。
- Humanizer 对语流和措辞进行了调整,使之足以不被人察觉。
- Stealth Writer 增加了句子结构的变化,这是迷惑分类器的关键。
- 而 "释义者 "则在保持原文原意的基础上对文本进行重塑。
基本上,这些工具了解人工智能的语言,也知道如何让人工智能无计可施。
因此,如果您使用 GPT o1 进行写入,并希望您的作品以人类身份通过,请不要跳过后处理步骤。
即使使用 "无法检测的人工智能"(Undetectable AI)稍加清理,也能在击败检测工具方面大有作为。
在下面的小工具中了解我们的人工智能检测器和 Humanizer!
GPT-o1 与 GPT-4o:哪个更易检测?
我们已经讨论过 GPT o1 如何偏重于数学和科学,而 GPT-4o 在语言方面则更加细腻。但是,GPT o1 和 4o 在写作方面的比较如何呢?
首先,我们使用 GPT 4o 生成了 400 字的内容:
然后,我们通过同样的三个人工智能检测器对 GPT-4o 的输出进行了检测:Undetectable AI、QuillBot 和 Originality.ai。
无法检测的人工智能将 99% 的内容标记为人工智能。人工智能的检测能力令人印象深刻,不是吗?
然后 QuillBot 来了,它说:"没那么快"。它将 73% 的相同文本标记为人工智能生成的,这比它对 GPT o1-mini 更严厉的评判,因为它对 GPT o1-mini 的评分是 45%。
Originality.ai 仍停留在完全怀疑模式。它一如既往地将 GPT-4o 的内容记录为 100% AI。
那么这一切意味着什么呢?大多数 AI 检测器(如 Undetectable AI 和 Orginality AI)都擅长捕捉 ChatGPT o1 和 4o 文本。
但如果我们要记分的话,GPT o1 显然更容易被检测到。在多个检测器中,它始终被标记为 99-100% AI,即使改进了提示也是如此。
老实说,这是有道理的。GPT o1 并不是为语言模型而设计的。它是一个 STEM 优先的模型,是为解决问题而构建的。
另一方面,GPT-4o 知道如何让声音听起来更自然,尤其是在搭配稳固的提示音时。
因此,如果您要在这两款产品中选择一款来完成隐蔽性要求较高的写作任务,GPT-4o 是您避开雷达的最佳选择。
最终结论:GPT-o1 可以检测到吗?
我们的结论是,可以检测到 GPT o1。
即使有很好的提示工程,它生成的文本仍然会绊倒大多数人工智能检测器。
但平心而论,写作并不是它被训练来做的工作。GPT o1 是为 STEM 相关任务而设计的,比如解方程、编码和处理数据。
因此,如果你想编写听起来真正像人类的内容,GPT o1 可能并不适合。你最好使用语言流畅度更高的 GPT-4o,或者使用专门为编写难以察觉的人工智能内容而设计的工具。
这就是 "无法检测的人工智能"(Undetectable AI)的作用所在。
我们的 人工智能人性化设计器 改写您的内容,使其听起来自然、细致入微,并具有令人信服的人性。
无论是撰写博文、散文还是产品说明,它都能根据主题进行调整,而不会触发人工智能检测警报。
说到警报,如果您想测试内容的可检测程度(无论是来自 GPT o1、GPT-4o 还是其他型号),我们的人工智能检测器是市场上最准确的工具之一。
所以,不要再猜测了。