博文

AI越强，我们越该不信它？

已有 238 次阅读 2026-4-4 02:18 |系统分类:观点评述

重新理解“信任”，才是安全的开始

在自动驾驶、智能监控、工业AI越来越普及的今天，我们正在进入一个前所未有的时代：

人类开始“把决策权交给机器”。

但一个关键问题也随之而来：

我们应该多相信AI？

很多人会直觉回答：

AI越准 → 越应该信

AI不准 → 就别用

听起来很合理，但——这其实是一个危险的误解。

问题的核心：不是“信不信”，而是“信得对不对”

在安全领域，有一个非常关键但常被忽略的概念：

信任校准（Trust Calibration）

简单来说就是：

你的信任，是否匹配系统的真实能力？

信太多

→ 过度依赖（Overtrust）

信太少

→ 不敢用（Distrust）

而真正安全的状态是：

你对AI的信任≈它实际的可靠性

这正是我们论文试图解决的问题：

把“信任”从一个模糊感觉，变成可以计算、可以建模的东西

一个被忽视的事实：不信AI，反而更安全？

直觉上我们会觉得：

“过度怀疑AI是不好的”

但研究发现，在很多安全场景中：

不信任（distrust）其实比过度信任更安全

原因很简单：

不信

→ 人会多看一眼

过信

→ 人会完全放手

比如自动驾驶：

不信

→ 你还会盯着路

过信

→ 你刷手机

一旦系统出错，结果完全不同。

这也是论文中的一个重要结论：

过度信任的风险>不信任的风险

我们做了一件事：把“信任”画出来

为了真正理解信任，我们做了一个非常关键的建模：

把世界简化成两个变量：

R（Reliability）：AI的真实可靠性

T（Trust）：人对AI的信任程度

然后放在一个二维坐标里：

横轴：AI有多可靠

纵轴：你有多信它

从简单到复杂，我们提出了4种模型

1.理想模型：完美世界

T = R

你信多少，正好等于它有多靠谱。

但现实中几乎不可能。

A diagram of a trust and reliability AI-generated content may be incorrect.

2.容忍区模型（现实一点）

允许一点误差：

只要信任在一个“范围内”，就算合理

但这里有个关键设计：

允许多一点“不信”，少一点“过信”

因为安全优先。

A diagram of a graph AI-generated content may be incorrect.

3.三角模型（更真实）

现实中：

AI越靠谱，人越容易“多信一点”

于是信任区间不是固定的，而是：

低可靠

→ 要非常谨慎

高可靠

→ 可以稍微放松

形成一个“逐渐展开”的区域。

A diagram of a rectangle with lines AI-generated content may be incorrect.

4.Logistic模型（最接近人类行为）

这是最关键的一步。

现实中，人类信任不是线性增长，而是：

一开始：很难建立信任

到某个点：突然开始信

后面：再提升也没太大感觉

就像这样：

“用了一阵觉得挺靠谱→ 突然就开始依赖它了”

我们用一个S型函数来描述这个过程

A diagram of a curve AI-generated content may be incorrect.

一个非常重要的结论

AI不是越准就可以放心用

而是：

必须超过一个“最低可靠性门槛”（Rmin）

否则：

即使你

“正确地信它”

这个信任本身也是不安全的

换句话说：

有些AI，根本不应该被信任

一个有意思的发现（案例研究）

我们分析了32个AI应用，结果发现：

大多数系统其实是：

“比用户想象的更可靠，但用户仍然不太信它”

换句话说：

人类整体是偏保守的（偏不信）

这其实是个好消息。

A graph with a red line AI-generated content may be incorrect.

这项研究真正想做什么？

很多人以为：

“信任是心理学问题”

但我们想做的是：

把信任变成一个工程问题

让它可以：

被计算

被预测

被设计

最终实现：

“可控的信任”

更大的意义：AI安全的下一个阶段

未来的AI安全，不只是：

算法多准

模型多强

而是：

人类如何与AI正确互动

真正的问题不是：

AI会不会出错

而是

人类会不会在错误的时候还继续相信它。

最后一句话

AI的风险，从来不只是“它做错了什么”，更是“我们在什么时候还在相信它”。

本文基于作者的以下论文改写：

Wen, H., Mounir, A. Mathematical Modeling of Trust Calibration for Human–Automation Safety. SAE Technical Paper, Detroit, Michigan, 2026. https://doi.org/10.4271/2026-01-0530.

转载本文请联系原作者获取授权，同时请注明本文来自温贺科学网博客。
链接地址：https://wap.sciencenet.cn/blog-3523098-1528833.html

上一篇：AI 出错了，谁来负责？

收藏 IP: 71.66.102.*| 热度|

当前推荐数：2 推荐人：许培扬 郑永军

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

温贺

扫一扫，分享此博文

温贺的博客分享 http://blog.sciencenet.cn/u/wenhe716 安全工程领域学术与杂谈

博文

AI越强，我们越该不信它？

当前推荐数：2 推荐人：许培扬 郑永军

该博文允许注册用户评论请点击登录评论 (0 个评论)

温贺

全部作者的其他最新博文

全部精选博文导读

温贺的博客分享 http://blog.sciencenet.cn/u/wenhe716 安全工程领域学术与杂谈

博文

AI越强，我们越该不信它？

当前推荐数：2 推荐人： 许培扬 郑永军

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

温贺

全部作者的其他最新博文

全部精选博文导读

当前推荐数：2 推荐人：许培扬郑永军

该博文允许注册用户评论请点击登录评论 (0 个评论)