|

融领域深度学习的可解释性:
基于Heston模型的案例研究
将深度学习模型应用于期权定价与风险管理金融模型校准的过程中,一个不可回避的问题随之产生:当神经网络输出一组“最优参数”时,是依据哪些期权价格做出的判断?这些参考依据是否合理?若无法回答这些问题,即便模型拟合效果再出色,也难以真正令人信服。本文围绕这一核心问题展开研究,选取一个在理论与实践中均被广泛应用、发展成熟的随机波动率模型作为“试验平台”,在完全可控的实验环境中,系统对比各类可解释性工具,探究何种工具能真正帮助我们理解神经网络的决策机制。
本文作者以经典的Heston模型为研究对象,利用该模型生成大量“理想化”期权数据。研究过程中,作者随机抽取多组模型参数,通过传统数值方法计算不同行权价与到期期限对应的隐含波动率曲线,随后将整个“波动率曲面”作为神经网络的输入,对应的参数组则作为输出。与部分仅将神经网络用于加速定价公式求解的研究不同,本文直接训练网络学习“从波动率曲面到模型参数”的完整映射关系,实质上是将整个模型校准过程交由深度学习完成。研究团队分别训练了结构相对简单的全连接网络与更为复杂的卷积网络,随后引入一系列可解释性工具,对比分析其实际效用。
本文的首个重要研究发现是,明确证实了在其他领域广泛应用的多种“局部可解释性方法”,在此类金融模型校准问题中实则并不可靠。这类局部方法通常通过简单模型对复杂网络在特定预测点附近的行为进行近似拟合,再从拟合结果中推断“哪些输入变量最为重要”。作者研究发现,此类方法的分析结果具有不稳定性:对同一个样本多次运行该方法,得到的“重要区域”结果差异显著。更关键的是,这些被标注为重要的区域在行权价——到期期限平面上呈现出分散分布的特征,难以与Heston模型背后的金融直觉相契合。例如,金融理论早已明确指出,哪些期权价格主要反映当前波动率水平、哪些捕捉价格分布的非对称性与曲率特征、哪些则主要与长期波动率相关。然而,局部可解释性方法往往无法得出具有说服力的对应关系。因此,在模型校准这类高度非线性、存在全局相互依赖关系的任务中,仅依靠局部近似方法,难以揭示神经网络真实的决策逻辑。
在此基础上,本文引入了基于合作博弈论的全局可解释性方法,重点应用了Shapley值法。该方法将每一个期权报价视为“博弈参与者”,将神经网络的预测结果视作一场“博弈”,通过Shapley值衡量每个期权报价对最终预测结果的平均贡献度。借助这一方法,研究人员能够在整个波动率曲面上绘制出直观的“贡献热力图”,清晰识别出对特定参数影响最大的行权价与到期期限组合。由于Heston模型本身已得到深入研究,学术界对于哪些期权信息应决定哪些模型参数早已形成明确的理论预期,因此Shapley值成为检验神经网络是否“学到了正确规律”的理想基准。研究结果显示,对于全连接网络而言,基于Shapley值得到的输入变量重要性分布与理论预期高度契合:决定当前波动率水平的参数主要依赖短期平值期权的信息;描述波动率偏度与曲率的参数则更多受短期深度实值或深度虚值期权影响;而与长期波动率水平相关的参数,主要由长期限期权合约决定。这一结果表明,全连接网络不仅能实现对数据的精准拟合,还能准确捕捉到模型的核心结构特征。
本文的第二个同样具有启发性的研究发现是,利用Shapley值法能够有效对比不同神经网络架构的优劣。从直觉上看,卷积网络在图像任务中往往表现优于简单的全连接网络,这也促使许多研究者将卷积结构移植到期权波动率曲面的分析中。但本研究发现,在模型参数校准问题中,情况恰好相反:全连接网络不仅实现了更低的预测误差,Shapley值分析结果还显示,该网络能精准聚焦于更符合金融直觉的信息区域。反观卷积网络,其往往会关注一些相关性较低的区域,同时忽略本应起决定性作用的关键价格点。作者认为,这一差异源于卷积层与池化层的内在运行机制:这些网络层擅长数据平滑与局部最大值提取,这一特性在捕捉图像的轮廓与纹理特征时十分有效,但在本研究场景中,却可能模糊甚至消除模型参数与特定行权价、到期期限之间的精细对应关系。换言之,Shapley值不仅能帮助我们解释特定神经网络 “关注了哪些信息”,还能作为选择模型架构的实用工具。在本研究的基准问题中,Shapley值分析结果明确表明,相较于直接套用计算机视觉领域常用的卷积结构,选择结构更简单的全连接网络更为合适。
综上,本文以一个理论研究成熟的金融模型为对象,开展了严谨的 “开盒实验”:一方面对比分析了在金融深度学习场景中,哪些可解释性工具真正具备实用价值;另一方面探究了当不同网络架构的表面拟合精度相近时,何种架构展现出更可信的决策逻辑。对于非该领域的读者而言,本文的两大核心结论具有重要参考意义:(1)在定价模型校准的深度学习应用中,基于Shapley值的全局可解释性方法,相较于常用的局部方法,结果更稳定,且更贴合金融直觉;(2)借助这类全局可解释性工具,作者发现结构更简单的全连接网络在本研究任务中的表现优于卷积网络。这一研究结论为未来针对更复杂金融模型与真实市场数据的研究,提供了清晰且具有实操性的思路与方向。
引用本文
Brigo, D., Huang, X., Pallavicini, A., & de Ocariz Borde, H.S. (2026). Interpretability in deep learning for finance: A case study for the Heston model. Risk Sciences, 100030.
免责声明
本文仅代表Andrea Pallavicini 先生的个人观点,不代表其供职机构意大利联合商业银行(Banca IMI)的官方立场。
期刊简介

Risk Sciences 是由清华大学经济管理学院与科爱公司共同创办的国际学术期刊。创立于2024年,旨在发表和推动多领域新兴风险与颠覆性科技的学术研究和行业实践,包括经济、金融、管理、农业、工程、环境、健康、公共卫生、公共管理、法律、自然科学等领域。该期刊是亚洲地区首次建立风险相关交叉学科领域的综合性学术平台。
风险科学包含研究来自各行各业与社会的风险与不确定性的识别、量化、分析、交流和治理的多学科领域。在人类文明进入高度复杂性的当代,风险科学成为快速发展的新交叉领域。Risk Sciences 致力于成为促进相关多领域的协同发展与融合创新的顶级国际学术平台。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-2-11 20:57
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社