温贺的博客分享 http://blog.sciencenet.cn/u/wenhe716 安全工程领域学术与杂谈

博文

AI越强,我们越该不信它?

已有 207 次阅读 2026-4-4 02:18 |系统分类:观点评述

重新理解“信任”,才是安全的开始

在自动驾驶、智能监控、工业AI越来越普及的今天,我们正在进入一个前所未有的时代:

人类开始“把决策权交给机器”。

但一个关键问题也随之而来:

我们应该多相信AI

很多人会直觉回答:

AI越准 越应该信

AI不准 就别用

听起来很合理,但——这其实是一个危险的误解。

问题的核心:不是“信不信”,而是“信得对不对”

在安全领域,有一个非常关键但常被忽略的概念:

信任校准(Trust Calibration

简单来说就是:

你的信任,是否匹配系统的真实能力?

信太多

过度依赖(Overtrust

信太少

不敢用(Distrust

而真正安全的状态是:

你对AI的信任≈它实际的可靠性

这正是我们论文试图解决的问题:

把“信任”从一个模糊感觉,变成可以计算、可以建模的东西

一个被忽视的事实:不信AI,反而更安全?

直觉上我们会觉得:

“过度怀疑AI是不好的”

但研究发现,在很多安全场景中:

不信任(distrust)其实比过度信任更安全

原因很简单:

不信

人会多看一眼

过信

人会完全放手

比如自动驾驶:

不信

你还会盯着路

过信

你刷手机

一旦系统出错,结果完全不同。

这也是论文中的一个重要结论:

过度信任的风险>不信任的风险

我们做了一件事:把“信任”画出来

为了真正理解信任,我们做了一个非常关键的建模:

把世界简化成两个变量:

RReliability):AI的真实可靠性

TTrust):人对AI的信任程度

然后放在一个二维坐标里:

横轴:AI有多可靠

纵轴:你有多信它

 

从简单到复杂,我们提出了4种模型

1.理想模型:完美世界

T = R

你信多少,正好等于它有多靠谱。

但现实中几乎不可能。

A diagram of a trust and reliability AI-generated content may be incorrect.

2.容忍区模型(现实一点)

允许一点误差:

只要信任在一个“范围内”,就算合理

但这里有个关键设计:

允许多一点“不信”,少一点“过信”

因为安全优先。

A diagram of a graph AI-generated content may be incorrect.

3.三角模型(更真实)

现实中:

AI越靠谱,人越容易“多信一点”

于是信任区间不是固定的,而是:

低可靠

要非常谨慎

高可靠

可以稍微放松

形成一个“逐渐展开”的区域。

A diagram of a rectangle with lines AI-generated content may be incorrect.

4.Logistic模型(最接近人类行为)

这是最关键的一步。

现实中,人类信任不是线性增长,而是:

一开始:很难建立信任

到某个点:突然开始信

后面:再提升也没太大感觉

就像这样:

“用了一阵觉得挺靠谱→ 突然就开始依赖它了”

我们用一个S型函数来描述这个过程

A diagram of a curve AI-generated content may be incorrect.

一个非常重要的结论

AI不是越准就可以放心用

而是:

必须超过一个“最低可靠性门槛”(Rmin

否则:

即使你

“正确地信它”

这个信任本身也是不安全的

换句话说:

有些AI,根本不应该被信任

一个有意思的发现(案例研究)

我们分析了32AI应用,结果发现:

大多数系统其实是:

“比用户想象的更可靠,但用户仍然不太信它”

换句话说:

人类整体是偏保守的(偏不信)

这其实是个好消息。

A graph with a red line AI-generated content may be incorrect.

这项研究真正想做什么?

很多人以为:

“信任是心理学问题”

但我们想做的是:

把信任变成一个工程问题

让它可以:

被计算

被预测

被设计

最终实现:

“可控的信任”

更大的意义:AI安全的下一个阶段

未来的AI安全,不只是:

算法多准

模型多强

而是:

人类如何与AI正确互动

真正的问题不是:

AI会不会出错

而是

人类会不会在错误的时候还继续相信它。

最后一句话

AI的风险,从来不只是“它做错了什么”,更是“我们在什么时候还在相信它”。

 

本文基于作者的以下论文改写:

Wen, H., Mounir, A. Mathematical Modeling of Trust Calibration for HumanAutomation Safety. SAE Technical Paper, Detroit, Michigan, 2026. https://doi.org/10.4271/2026-01-0530.



https://wap.sciencenet.cn/blog-3523098-1528833.html

上一篇:AI 出错了,谁来负责?
收藏 IP: 71.66.102.*| 热度|

2 许培扬 郑永军

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-4-4 09:54

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部