
在人机协同中,“利己”是各自追求自身利益最大化,人和 AI 在决策中互不干涉,但形成一种微妙的平衡,就像两人在拔河中各使力气,谁也占不到便宜;“利他”则是 AI 主动考虑人的最佳反应,通过设置策略来保障人的安全与舒适,即使牺牲部分自身效率,也换来整体的稳定,仿佛 AI 主动让出一步,让人更轻松;而“共利”是双方将目标整合为一,共同优化一个联合收益,任何一方的改变都会影响整体,携手迈向最优解,好比两人同撑一把伞,步伐一致,共同躲避风雨,达到最佳的协同效果。
一、合作与非合作
要理解这三种对应关系,核心是抓住三类博弈均衡的核心特征(决策独立性、先后顺序、利益协同),并与人机混合博弈的三类场景规则直接匹配。
1、非合作纳什均衡:人机“平等非合作”场景
非合作纳什均衡核心逻辑表现为博弈中双方(人、机)是平等的决策主体,无先后顺序,均在不合作(只追求自身利益最大化)的前提下,预判对方策略并选择自己的最优应对,最终形成“谁先改变策略谁就吃亏”的稳定状态。典型场景如人机自主对抗游戏(如AI与人类玩家对战MOBA),人不会提前告知操作意图,AI也不会分享决策逻辑,双方同时(或无明显先后)独立决策,最终的对战策略稳定在“双方都无法通过单独变招提升胜率”的状态,即平等非合作下的纳什均衡。
2、非合作斯塔克伯格均衡:人机“主从非合作”场景
非合作斯塔克伯格均衡核心逻辑是博弈存在明确的“主方”与“从方” ,主方(如人)先制定策略并公开,从方(如机)在知晓主方策略后,再选择自身最优策略(仍以自身利益最大化为目标,不与主方合作)。具体场景如人机协同任务中的“指令-响应”模式(如人类指挥官先下达作战区域指令,AI再根据该区域环境选择最优路径,但AI的路径选择仅考虑自身效率,不主动配合人类后续行动)。此时人类是“主方”、AI是“从方”,双方无合作意图,策略形成依赖“主方先动、从方后应”的斯塔克伯格均衡。
3、合作帕累托均衡:人机“协同合作”场景
合作帕累托均衡核心逻辑为博弈双方(人、机)通过合作达成“帕累托最优”——即不存在其他策略能让一方利益提升的同时,不损害另一方利益;双方目标从“自身利益最大”转向“整体利益最大”,且合作结果对双方都更有利。典型如人机联合手术(人类医生负责精准操作,AI实时分析患者生命体征并调整手术参数),二者通过数据共享、策略协同追求“手术成功+患者风险最低”的整体目标,最终的操作-参数组合无法再优化(若调整AI参数提升体征稳定性,不会导致医生操作难度增加),即协同合作下的帕累托均衡。
二、人机协同的“利他”、“利己”、“共利”
人机协同三种对应关系的核心,是通过三类博弈均衡的利益目标差异(利他、利己、共利),匹配人机混合博弈中双方的决策逻辑与互动模式,需先明确每种均衡的核心利益导向,再对应具体场景。
1、非合作纳什均衡:人机“利他”场景
纳什均衡的本质是“双方在不合作前提下,均以对方利益实现为前提来选择自身策略”,最终形成“自身策略最优依赖于对方利益满足”的稳定状态,即“利他”是实现自身决策有效性的基础。这里的“非合作”并非对抗,而是双方无主动利益绑定,但决策逻辑围绕“帮助对方达成目标”展开——因为只有对方目标实现,自身策略才具备最优性。例如AI辅助人类进行残障人士康复训练。人类(残障患者)的目标是“完成指定动作以恢复肌力”,AI的目标是“确保人类安全完成动作”。AI会根据人类的动作能力调整辅助力度(如人类发力不足时增大支撑力),其策略选择以“帮助人类达成动作目标”(利他)为前提;而人类也会根据AI的辅助节奏调整动作幅度(确保AI无需频繁切换参数),双方无合作协议但决策均围绕对方利益,最终形成“人类安全完成动作、AI辅助效率最高”的纳什均衡,对应“利他”场景。
2、非合作斯塔克伯格均衡:人机“利己”场景
斯塔克伯格均衡的“主从决策顺序”,决定了主方与从方的策略均以自身利益最大化为唯一目标(利己),从方仅在“知晓主方策略”的基础上优化自身利益,双方无任何利他或共利意图,“非合作”体现为纯粹的利益独立。例如,人机资源竞争场景(如AI与人类争夺同一台算力设备的使用权)。人类(主方)先提出“使用2小时算力”的需求,AI(从方)在知晓该策略后,选择“剩余时间占用算力”以最大化自身任务处理量(利己);人类提出需求时也仅考虑自身任务时长(利己),双方无任何妥协(如人类不会为AI预留时间,AI也不会缩短自身占用时长),最终形成“主方先占、从方补占”的斯塔克伯格均衡,完全对应“利己”场景。
3、合作帕累托均衡:人机“共利”场景
帕累托均衡的核心是“双方通过合作达成整体利益最优,且该结果下双方利益均得到提升(无一方受损)”,即“共利”是决策的核心目标——双方主动绑定利益,通过协同实现“1+1>2”的效果,且不存在“牺牲一方成全另一方”的情况。例如人机联合物流调度,人类负责制定“区域配送总时效目标”,AI负责优化“车辆路线与装载量”,双方通过数据共享协同决策:AI路线优化会兼顾人类时效目标(避免总时长超标),人类时效设定也会考虑AI的车辆载重限制(避免路线规划困难),最终达成“配送总时长最短+车辆空载率最低”的结果——人类目标(时效)与AI目标(效率)均实现,且无法通过调整策略让一方更好而不损害另一方,完全符合“共利”场景,对应合作帕累托均衡。
客观而言,在人机协同中,人优机优时,双方都追求自身目标,形成利己状态,彼此独立最优化,不过分干扰,达成一种平衡;人优机劣时,人处于优势地位,AI 为了整体稳定选择利他的策略,牺牲自己部分性能来配合人,确保整体表现不因 AI 的不足而下降;人劣机优时,AI 拥有更好的能力,它会采用利他的姿态,主动提升人机协同的综合效能,弥补人不足的部分;人劣机劣时,双方能力都不足,需要通过共利的方式,紧密合作,共同优化一个联合目标,才能在有限的能力下达到尽可能好的效果。总的来说,人优机优时更倾向于利己,人优机劣时 AI 会采取利他策略,人劣机优时同样 AI 会利他,而人劣机劣时双方需要共利合作。
转载本文请联系原作者获取授权,同时请注明本文来自刘伟科学网博客。
链接地址:https://wap.sciencenet.cn/blog-40841-1502897.html?mobile=1
收藏