|
本文介绍Copula熵(Copula Entropy:CE)的社会科学应用,涉及经济学、管理学、社会学、教育学、语言学、新闻传播学、法学、政治学、军事学、情报学和金融学等。
经济学
经济政策的评估需要定量分析,定量分析方法可以科学、客观地评估政策效果。Shan和Liu[1,2]提出了一种可以定量分析政策组合效果的决策树构建方法,CE被用来度量非线性相关关系并构建决策树,方法的思想是利用基于CE定义的信息增益来构建用以区别不同政策对象群体的政策决策树,由树的叶子节点来表示不同政策组合对应的群体划分。他们将该方法应用于发展经济学领域,评估我国的减贫政策效果,研究分析了2018年由政府开展的贫困家庭状况普查的问卷调查数据中四川省的数据。分析发现,就业政策、新收入来源和是否有抵押贷款是影响家庭收入的主要政策因素,并揭示了这些政策组合对应的不同目标贫困群体收入结构的不同特征。该方法在无历史数据的情况下,评估验证了减贫政策的有效性,并发现了更加有效的政策组合方案。Zhang等[3]将同样的方法应用于上述调查数据中河南省的数据,得出了基本相同的结论。
经济学的核心目的是发现因果关系。传统的经济学依靠推理建模以及基于此的实验设计。因果发现是从数据中发现因果关系的方法,将其与经济学理论模型相结合是设计经济学实验的新路径。Bossemeyer[4]基于CE和MI的关系提出了一种条件独立性测试算法,并将其应用于因果结构发现的PC算法中。作者利用新PC算法研究了经济学中的议价理论,研究讨价还价行为中互惠关系的作用,以及响应时间在这个过程中的作用。作者将算法应用于eBay的Best Offer平台数据,发现交易双方让价行为之间存在关联,印证了互惠理论;同时,发现了对手还价响应时间对下一次要价存在因果效应。
产业链是指产业部门之间基于经济关系形成的链条式关联关系形态。产业链基于资源要素分配和专业化分工等多种因素构成上下游关系,来进行价值互换,上游企业向下游企业提供产品和服务,同时接受下游企业的反馈信息,从而构成关联互动关系。产业链各环节之间的相关性分析,对产业布局管理和投资组合设计具有重要参考意义。韦颖璐[5]基于CE概念,提出了pair-copula熵的概念,用于度量多变量内部的成对相关关系。她将该概念应用于国内畜禽养殖产业链各环节之间的相关性研究,基于该领域内9家上中下游主要上市企业的股票价格数据,运用pair-copula熵度量了产业链内上中下游之间的相关性,发现该产业链上游相关性较强,下游相关性较弱;无条件相关性强,条件相关性弱;上中之间相关性强等现象。
投资者情绪对财经市场有着广泛而多面的影响,投资者情绪分析是经济学研究的重要问题之一。由于社交媒体和市场关系整合,投资者情绪会在人群和国家间传播,进而形成传播网络,使得局部情绪波动得以迅速扩散,造成系统性影响。Han和Zhou[6]提出了一个基于小波分析、传递熵(Transfer Entropy:TE)和网络分析组合的方法,研究公司间投资者情绪传播的模式,其中采用了基于CE的传递熵估计方法。他们采用2015-2021年间的中国137家新能源汽车上市公司的百度搜索索引数据来代表投资者情绪,将其用小波分析分解为多尺度信息,再用传递熵构建情绪传播网络,最后用网络分析的方法分析短期和长期传播特征。他们发现,投资者情绪表现为短期局部活跃,并具有连续且逐渐增长的进化模式。
通胀预期直接影响市场主体的经济行为,是通胀的成因之一。研究通胀与预期的关系是一个重要的课题,特别对中央银行决策者具有重要价值。Ardakani[7]提出利用CE分析预期对通胀的信息量,证明了负费舍尔信息(Fisher Information)是CE的下界,可以作为通胀和预期关系的最小度量值。他利用CE等工具分析了美国1982至2022年逐月通胀指数(CPI和PPI)和通胀预期指数(密歇根大学调查指数、克利夫兰联邦储备银行2年、10年和30年预期指数)数据,发现30年预期与通胀之间CE最小,说明其提供了更多可以预测通胀的信息。此研究为中央银行管控预期以达到通胀目标提供了一个有力工具,能够帮助理解不同预期对通胀的预测能力,从而更有力地调控通胀。
管理学
准确预测农产品期货价格有助于为政府相关部门的科学决策提供参考,因而对保障国家粮食安全具有重要意义。然而价格预测受多种复杂因素的影响,如国际形势、市场情绪博弈等。因此,识别价格的影响因素对构建准确的价格预测模型至关重要。An等[8]提出了一个基于历史数据和文本数据的融合多种方法的混合预测框架,其中经验模态分解(Empirical Mode Decomposition:EMD)用于预处理历史数据,动态主题模型(Dynamic Topic Model:DTM)和情感分析用于提取微博文本信息,再利用CE等方法对提取的因子进行筛选,用于构建预测模型。作者在两个实际数据上验证了该方法框架:国家统计局的猪肉价格数据和大连商品交易所的大豆期货价格数据,并收集了相应时间内的微博文本数据。在实验中,作者将CE方法与同类的dCor和HSIC方法进行了对比,结果表明,在两个数据上,基于CE的预测模型都给出了最好的预测性能。
巴西是全球第一大食糖生产和出口国,其甘蔗种植历史可以追溯到1532年,种植范围几乎遍布整个巴西领土,中南部地区和东北部是主要的产区,其中圣保罗州在种植面积和其衍生物产量方面都处于领先地位。同时,巴西又将过半甘蔗用于生产无水和含水乙醇作为车辆燃料,旨在减少该国对进口石油的依赖,其为全球第二大燃料乙醇生产和第三大燃料乙醇消费国。因此,巴西的汽油和乙醇组成的燃料市场与甘蔗生产的农业市场密切相关,并受多种自然、经济和社会因素影响,这三种大宗商品的价格之间关系复杂,分析它们之间的关系对巴西市场管理者和参与者具有重要参考价值。Flores[9]利用基于CE的TE方法分析了2004年5月至2023年11月期间三种商品价格、收益和波动率的时序数据,分析新冠疫情(COVID-19)前、疫情期间和疫情后三个时段三种商品之间的动态关系变化。分析发现,三个时段呈现不同的动态关系:疫情前的市场稳定且可预测,商品价格之间温和互动;疫情期间的商品价格波动性和相互关联明显增强;疫情后的市场稳定在一个新的平衡态,三者关系动态性受地缘政治和能源政策的影响。研究还表明,汽油和乙醇相互影响,且汽油对乙醇的影响要大些,符合乙醇作为汽油替代品的地位;同时,乙醇对糖的影响要强于汽油对糖的影响,因为汽油是通过乙醇间接影响糖。基于CE的TE方法成功揭示了巴西糖、乙醇和汽油三种大宗商品价格之间关系,以及疫情对三者关系的影响,证明其是一种动态经济关系分析的有力工具。
库存管理是企业运营管理过程中的关键环节,也是管理学的重要问题之一。报童问题是典型的单周期库存管理模型,一直是本领域研究的焦点。近年来,利用数据驱动模型和方法的报童问题研究展现出比传统方法的优越性,进而成为了热门话题。Tian和Zhang[10]提出了一种端到端的算法框架,利用深度学习模型从在线商品评论等特征数据中预测订单数量,其中采用了包括CE在内的方法来选择模型的输入特征。他们将方法应用于汽车库存管理问题,基于2016至2022年间的大众朗逸汽车的历史销售量、某网站的评论、某搜索引擎指数、和宏观经济指数等数据构建了模型。结果显示,本方法能够大幅减少超额成本和短缺成本之和,与同类方法相比减少了31.8%的成本。
中国企业海外并购面临着时代的机遇和挑战。探究影响中国企业海外并购的国内外各种因素,分析并购的短期和中长期绩效,具有重大的理论和现实意义。王琳君[11]提出利用Copula VECM模型,分析与海外并购数量强关联的经济变量对并购的影响,特别考虑了被其他研究者忽视的宏观经济变量的动态影响。由于此类经济变量较多,容易使构建的VAR模型复杂度增加,导致估计模型的不准确性。因此,他提出利用CE对经济变量进行选择后再建立模型。他在Wind数据库中选取了海外并购数量和其他7个与并购数量可能关联的宏观经济变量的季度数据,通过CE关联度分析后,得出结论认为宏观经济杠杆率、GDP、货币供给增长率和汇率四个宏观经济因素是影响我国海外企业并购活动不可忽视的重要因素。他进一步分析论述了所选变量对并购数量影响的内在经济逻辑,增强了模型的合理性。
社会学
性别不平等是社会学研究的问题之一。由性别视角,我们可以发现很多不平等现象,如两性在收入上、教育上、职业上的不平等等。分析和鉴别导致不平等现象的社会学因素是学者们关心的问题,利用定量方法分析相关社会学数据是研究的手段之一。然而各种社会因素之间的因果链条十分复杂,需要采用科学的数据分析工具加以应对。马健[12]提出了一种多域因果关系鉴别方法,将性别因素作为社会外在变量,将不平等问题转化为数据分析中的域迁移问题,利用基于CE的条件独立性测试发现社会变量之间的因果关系。他将方法应用于美国国家成人收入社会调查数据,分析了性别、教育和收入之间的因果关系链条,发现了性别导致教育不平等,进而造成收入不平等的科学证据。
教育学
高中教育各学科之间具有内在的联系,教学大纲中强调了数学对物理、化学和生物等学科的基础性地位,数学知识、数学思维和思想方法深刻地渗透影响着其他学科的教学。因此,数学成绩被认为与其他学科成绩具有相关性。利用实证的方法研究数学与其他学科的关系,分析数学成绩与其他成绩之间的相关性是一个重要的基本问题,对于教学改革和学习方式的选择具有普遍参考意义。柳琼[13]基于某市2013级理科学生高一、高二期末考试成绩和高三两次模拟考试成绩,研究了数学成绩与其他学科成绩之间的相关性。作者比较了经典线性相关系数、秩相关系数和MI三种相关性度量方法,从CE和MI理论关系的角度分析论证了MI度量的优越性,并实验证明了MI度量能够更好地刻画揭示数学对其他不同学科(语文、英语、物理、化学和生物等)的影响力机制。
计算语言学
城市服务热线是政府公共管理系统的重要组成部分,促进了政府和市民的沟通,改善了政府的公共服务。但传统的人工派单方式无法满足日益增长的热线诉求,如何高效快速的处理大量的市民热线诉求是城市服务热线提高服务质量面临的重要课题。大量的热线文本数据积累为快速筛选和处理热线诉求提供了可能,可以利用自然语言处理方法处理热线文本数据,进而构建智能派单系统。陈作海等[14]提出了一种基于知识图谱技术的城市热线派单方法,基于城市热线数据构建热线知识图谱,再对待派单诉求根据构建的知识图谱检索结果进行派单,大大改善了热线服务的工作效率。在此智能派单系统中,CE作为特征选择方法被用来对城市热线数据进行预处理,以构建和更新知识图谱。结果表明,CE表现优于其他同类方法。作者将该方法应用在济南市民服务热线的系统上,通过不断更新知识图谱,最终获得了90%以上的派单准确率。
新闻传播学
公共卫生事件发生过程如何影响公众情绪是一个重要的问题,具有理论和现实意义,对政府的信息发布和舆情管控具有参考价值。特别是新媒体环境中,公众情绪的传播和演化过程受多种因素影响,因而更趋复杂。新冠疫情的发生给研究这类问题提供了条件。Zhang等[15]研究了上海新冠疫情发生期间,疫情过程对公众情绪的影响特点和机理。他们以微博平台上“上海疫情”主题的数据为基础,研究了公众情绪的影响因素、时间演化以及疫情与公众情绪之间的因果关系。研究利用了基于CE的传递熵方法分析了疫情和公众情绪之间的因果关系,实证地发现了疫情过程对公众负面情绪的因果效应大于正面情绪,且正面情绪对负面情绪具有抑制效应。
法学
社区是基本的社会生活单元,社区治安管理与每个人的生活息息相关。社区属性与社区犯罪之间具有内在联系,分析社区经济、社会和人口等属性与各类犯罪之间的关系,可以加深对犯罪行为发生的理解,对执法部门合理安排部署资源力量具有重要参考意义。Wieser[16]基于CE与MI的等价关系,提出了一种新的信息瓶颈(Information Bottleneck)估计方法。由于利用了CE的变换不变性,该方法较传统同类方法具有更好的估计性能。他将该方法应用于美国社区与犯罪数据集,分析125种经济社会因素与18种犯罪属性(包括8种犯罪行为,人均犯罪率和人均(非)暴力犯罪率)之间的关系,学习得到了可以表示这种关系的潜变量模型,为构建犯罪预测模型提供了参考。
政治学
政治安全事关国家安危。政治学研究关心政权领导力因素与政权危机之间的关系,并根据这些信息配置资源,开展情报收集、稳定或颠覆政权等行动。基于雪城大学莫伊尼汉全球事务研究所的国际政治领导力数据集,Card[17]研究了37个领导力因素与政治安全之间的非线性关系,采用CE(MI)作为非线性分析工具,重点关注了两个领导力变量(政权建立原因和政权结束原因)与其他因素的关系。分析结果佐证了社会学家的已有理论,分析也印证了已知的关系,发现了未知的关系和现象。
军事学
目标意图及时准确识别是战场态势感知的一项重要内容,是指挥决策的基础和前提。空中飞行目标意图识别会面临多种不确定性的挑战,如行为特性与物理特性的不确定性、飞行规则的不确定性和行动能力的不确定性等,使得及时准确的意图识别十分困难。张可等[18]提出了一种基于动态贝叶斯网络的目标意图识别方法,用于从复杂态势中目标的时序数据中完成意图识别,方法利用基于CE的MI估计算法从目标属性和目标意图数据来生成贝叶斯网络结构,再利用自适应遗传算法迭代优化网络结构,利用最终优化得到的网络来进行未知目标的意图识别。他们将该方法应用于空中目标的处理过程,利用空中目标的位置信息、飞行信息,以及雷达和通讯系统信息来识别其6种不同意图(巡逻、预警/指挥、电子侦察、电子干扰、攻击和打击等)。该方法可不限于空中飞行目标,可以很方便地推广到其他类型目标上。
情报学
颠覆性技术是具有原始创新性的技术,会对现有主流技术和产业产生变革性作用,推动经济社会发生突变式进步。开展颠覆式技术的前瞻识别及预判研究是科技情报分析领域的重要问题,对科技政策制订、科技产业布局和科技创新生态培育具有指导意义。基于知识网络分析的科学、技术和产业互动模式研究是解决识别研判问题的路径之一。许海云等[19]提出了一个颠覆性技术研究流程框架,以渐进式技术为参照获取科技、专利和产业文献资料的文本数据,利用自然语言处理技术分别构建三者的知识网络,再利用知识网络的三种整体网络属性和网络社区相似度属性将知识网络互动模式划分为预设的五种模式,包括科学-技术-产业联动模式。其中,CE被用来度量三种知识网络的整体网络属性之间的关联度,以表征互动模式。他们以再生医学(干细胞)领域作为颠覆性技术对象,以白血病治疗领域为渐进性技术参照开展实证研究,获取了截至2020年底的权威数据库相关文本数据,利用该流程框架研究了两个对比领域科学-技术-产业互动模式的共性和差异,加深了对颠覆性技术创新生态要素的知识流动和扩散规律的认识。
金融学
量化金融是通过对金融数据的数量关系分析指导金融决策的新兴金融学科。基于金融交易系统产生的大量金融市场交易数据,利用数学工具分析金融产品之间的数量关系,可以明晰市场规律和动态,进而管理金融资产。其中,分析市场金融变量之间的相关性是金融工程的重要问题,可以帮助交易员洞察它们之间的动态关系,进而调整投资组合和管理风险。由于金融市场变量具有非线性、非高斯性等特征,使得MI成为了理想的相关性度量,而MI估计算法则成了量化金融工具箱的重要工具之一。基于CE的MI估计算法就被量化金融算法库MLFinLab20和ArbitrageLab[21]实现,并得到业界广泛应用。
基于中国股票市场(沪市A股指数、深市A股指数和沪深300指数)真实数据,Wang[22]研究了利用股票资产之间的相关性关系网络,优化投资组合的方法。方法采用了包括CE在内的线性和非线性相关性度量,基于相关性强度构建股票资产间的关系网络,进而构建投资组合。研究中估计了不同Copula参数函数族的CE(MI)。廖轶楠[23]研究了投资标的筛选的问题,他基于净资产收益率、净利润三年复合增长率和市盈率三项指标从A股4000多家上市公司中初步筛选了10家A股上市公司,再利用CE等工具对标的股票的价格数据进行了统计分析,以判断投资组合的抗风险能力。
股票市场的投资者总是希望投资发展良好的上市公司,因此甄别一只股票的好坏对投资者十分重要。ST股票制度是在我国A股市场实施的股票风险警示机制,有助于投资者选择投资组合并规避风险。股票分类是股票分析领域的一类重要问题,对金融市场投资者具有参考价值。朱仲儿[24,25]提出了一种基于机器学习方法的ST股票分类方法,采用Boruta算法和CE方法进行特征选择,再利用6种回归模型进行预测,利用Optuna框架对模型的超参数寻优。他选取了tushare数据库中上交所和深交所的2076只股票(含351只ST股票)自2016年以来的数据,含有139个股票特征变量,最终利用Boruta和CE方法筛选了7个可解释的变量。模型预测结果表明该方法在筛选特征和XGBoost模型组合上获得了最好的预测精度。
“一带一路”是由我国倡导的针对丝绸之路沿线国家的国际合作倡议,对我国和相关国家的经济社会发展具有重要的推动作用。“一带一路”指数(Belt\&Road Index:BRI)是与此发展倡议相关的行业和公司的金融市场指标,反映了倡议涉及国家和地区的发展趋势和变化,对政府和投资者的决策具有重要参考价值,因此指数的预测分析是本领域的一个重要问题。徐泽晖[26]提出了一个结合了GAS模型、CE和lightGBM的BRI收益率预测方法,其中CE被用于对预测模型的输入特征进行选择。他利用2020年至2023年间的58支BRI成分股的数据验证了该方法,结果表明,与同类对比方法相比,GAS-CE-LGBM方法在所有四个预测性能评估指标上表现最优。特别是,利用CE进行特征选择显著地提高了模型的预测性能,表明CE能够捕捉到问题中变量之间的非线性动态关系。
分析金融数据需要对其建模数学模型,但金融变量以及其联合分布具有非高斯性,给数据建模带来了挑战。Calsaverini和Vicente[27,28]给出了一种巧妙的Copula函数模型选择方法。该方法利用CE或互信息(Mutual Information:MI)的边缘分布无关特性,将Copula鉴别问题的目标与边缘函数分开,再利用CE的定义,将问题转化为以MI为上界的模型选择问题。作者还定义了超量信息(Informaion Excess)的概念。作者将建模方法应用于1990至2008年间标普500指数的150只股票的每日对数收益率数据,利用超量信息,验证了该方法作用于T-Copula函数族时的有效性。
R藤Copula是一种灵活的构建多元copula分布的工具,确定藤的结构是建立此类模型的关键步骤。Alanazi[29]}基于CE和MI、CMI之间的关系,提出了一种R藤copula的构建方法,基于MI建立最小生成树,再计算前一子树每对边上的CMI,根据CMI建立新的子树并决定藤copula的层级结构。他将该R藤copula构建方法应用于股票间相关结构的建模问题,基于德国DAX指数15种主要股票数据(2005年1月至2009年8月)构建了资产间关系结构的R藤copula模型,与传统方法相比,该方法建立的copula相关结构模型能够更好地拟合数据。王念鸽[30]基于CE与MI、CMI之间的关系提出了一个类似的藤copula结构选择算法。作者利用该算法分析了中证五大行业指数之间的相关结构,利用2019年3月1日至2022年3月1日之间的数据,构建了基于Kendall相关系数的藤copula结构和基于MI的藤copula结构,结果表明,从拟合优度指标看,后者的结果优于前者的结果;从可解释性角度看,后者的结果刻画的五大行业资产之间的依赖关系更合理。
金融危机的发生使金融系统的系统性风险问题受到各国监管部门的关注。我国股票市场放开管制加深了经济金融的一体化程度,造成了各个行业之间的耦合,从而加大了系统性风险的程度,因此需要对跨行业的风险溢出效应加以研究,以期进行防范和化解。熵作为量化不确定性的数学工具,十分适合度量金融风险组合。熊靖宇[31]采用CE等工具对2005年1月5日至2020年7月3日我国股票市场11个行业的日对数收益率数据进行了分析,研究行业个体风险和跨行业风险溢出特征的动态演变过程,特别针对2008年金融危机、2013年钱荒和2015年股灾三个时期的风险特征进行研究。研究发现,行业联合CE动态变化滞后于累加独立熵发生,说明了行业间联动导致了系统性风险增强;2008年金融危机的市场内部传染性更强,破坏程度更大;近期11个行业内部关联水平较强。丁永辉[32]利用CE对116家上市金融机构2006年10月27日至2023年12月31日之间的日收益率数据进行了分析,以研究金融系统风险联动的特征。研究发现,系统性冲击会导致金融系统的风险联动程度急剧上升,银行业的部门内风险联动要强于其他部门,部门间风险联动的程度要高于部门内,多元金融部门会传播放大系统性冲击造成的风险。
金融脆弱性是由金融部门自身高负债经营带来的内在不稳定性。金融脆弱性度量工具可以使国家及时地对危机进行响应和干预,因此得到了大量的研究。日益成熟的网络分析理论为从金融网络的角度度量金融脆弱性提供了方法工具,但传统的网络构建方法只是基于线性关系度量工具,如皮尔逊相关系数等,不能够反映金融系统中的非线性关系特性。Chen等[33]提出了一种利用CE改进的网络曲率(Network Curvature)金融脆弱性度量方法,该方法先利用CE构建金融网络,再计算网络的四种离散Ricci曲率作为市场脆弱性度量。他们将该度量方法应用于2006年4月至2022年4月间沪深300指数的股票数据,分析金融危机前后的市场脆弱性。结果表明,该度量方法比基于皮尔逊相关的方法更清晰地描述了金融危机后市场的脆弱性,且具有传统风险度量同样的风险度量能力。
近年的研究表明,金融资产组合在极端事件的金融动荡中会受到冲击,存在巨大的金融风险。家庭和金融组合管理者迫切需要了解金融冲击和极端事件对投资的影响。传统的风险度量工具难以检测到这种尾部相关性,而基于Copula模型的方法越来越显示出在此问题上的优越性。Ardakani和Ajina[34]提出利用基于CE的MI来度量极端事件区域的尾部风险,来明确多样化策略对于应对尾部风险的意义。他们在2022年消费者金融调查的数据上应用了此风险度量工具,发现某些资产组合表现出了强相关,因而加大了尾部风险。这一发现对家庭理财应对尾部风险具有重要参考价值。
信用风险是金融银行业面对的主要基本风险之一,保障金融安全需要有效地管理信用风险。信用评分卡模型是一种对客户进行信用风险评价的模型方法,是管控金融风险的决策工具。该类模型根据客户的信用历史数据为其划分信用等级,来决定其金融权限。传统的建立信用评分卡模型方法依靠专家经验,效率低且生成的模型不够完善。孔祥永等[35]提出一种基于CE的自动化信用风险模型构建方法,能够显著提高建模效率,可以同时保证模型具有高预测性能和可解释性。作者将该方法在真实信用卡数据上与专家建模进行了对比,实验结果表明方法大大缩短了建模时间,且能够得到媲美专家模型的预测性能和可解释的客户信用特征。
P2P(Peer-to-Peer)借贷是一种通过互联网进行集资和放贷的金融模式,该类金融模式的信用风险主要是由借贷人未能履行还款义务造成的,对集资债权人的资金安全构成了巨大风险。因此,如何准确地评估借贷方的信用风险是一个重要问题,通过借贷数据构建个人信用风险模型是一个主要的解决方法。彭翊庭[36]提出利用CE度量风险变量和个人数据高维特征之间的非线性相关性,用以选择个人信用风险预测模型的输入特征。他利用美国P2P借贷平台Lending Club的贷款数据展开实证研究,对比了CE和皮尔逊相关系数两种常用特征选择方法,发现CE选择的非线性特征在XGBoost模型上获得了更好的预测结果。
绿色信贷是金融机构提供的一种以生态环境保护为目标的上市公司融资工具,研究绿色信贷风险评估能够提升金融机构对工具使用中的风险把控。王钊颖[37]提出了一种基于CE和机器学习模型相结合的绿色信贷风险评估方法。她以2021年A股上市公司作为实际案例,选取了公司状况、创新发展能力和绿色评价三个方面的67个指标,基于CE选择了其中的18个指标构成了风险评估指标体系,再利用四种机器学习方法构建评估模型。实验结果表明,所得模型的准确率达到95.01%,为绿色信贷风险提供了可靠的评估工具。
准确地预测金融产品价格可以帮助投资者管理风险并进行投资决策,因而建立相关预测模型是研究者关心的重要问题之一。由于金融产品之间存在内在的市场逻辑,它们的价格也会产生相应的因果联动效应。因此,可以利用这种价格间的因果关系建立比传统方法更准确的价格预测模型。Zhang等[38]提出了一种基于价格间因果关系的迁移学习框架,利用基于CE的TE方法计算不同金融产品价格之间的因果关系,以选择因变量价格用于预测果变量价格,再在选择的基础上,提出了用于训练深度学习模型的学习算法以得到预测模型。他们将算法分别应用于国际主要的财经指数、能源期货价格和农产品期货价格2010年至2021年的每日价格数据上,结果发现,利用基于CE的TE方法发现了同类价格间的因果关系,在此基础上,利用该迁移学习框架得到的模型在三类价格数据上均给出了较同类对比算法更好的预测结果。
流行病疫情对人群健康构成严重威胁,促使社会和个体采取应对措施。这些疫情应对进而会产生巨大的经济社会影响,特别是对金融市场的影响。研究疫情对金融市场的影响是一个重要课题,对市场利益主体具有现实意义。Gurgul和Syrek[39]利用CE方法研究了波兰股票市场指数在2019新冠疫情期间的相关性特征,特别研究了2020年3月13日波兰疫情发生当天WIG指数和其14个板块指数之间的相关性,发现宣布疫情后这种相关性明显增强。作者还利用同样的方法研究了四个国家(法、德、英、美)的股市,利用CE计算了各国股市板块收盘价和股市指数之间的相关性,发现了疫情后这种相关性也明显增强[40]。这一发现与2008年金融危机得到的经验是一致的。他们还发现CE方法得到的结论与经验相符,而传统皮尔逊相关得到的结论则不符合过去的经验,如后者低估了德国股市疫情后的相关性。作者认为这是因为CE可以度量金融市场变量之间的非线性相关关系而不做任何假设,从而验证了CE的优越性。
中国保险行业经历了40余年的快速发展后,正在经历数字化进程,保险科技的应用正在深刻影响行业企业,面向行业痛点的解决方案正在加快落地。因此,研究我国保险企业对科技的应用程度,以及这些应用对企业经营造成哪些影响是一个重要课题。栗嵩林[41]从理论层面提出了保险科技对保险公司绩效的四个方面(包括发展能力、盈利能力、营运能力和风险管理能力等)产生影响的理论假设,并以2018至2020年全国114家保险公司的相关数据为基础进行了实证研究。其中,他利用回归基准模型分析了保险科技水平对企业的影响,再利用CE计算保险科技与模型变量之间的非线性关联强度加以验证,二者均表明保险科技水平对保险公司业务费用率、临时分保比率、总资产收益率、综合投资收益率等产生了显著影响,实证研究结论与理论分析相符。他基于该理论和实证研究,对保险公司和行业监管提出了具有重要价值的建议。
近年来,机器学习方法在金融市场预测领域的研究兴趣正在增加,主要得益于其非线性分析能力和较高的资产预测准确性,但是在加密货币市场预测的实际部署却很少,因为传统的机器学习方法不能够在动态市场环境和极端市场条件下选择出与目标金融资产有关联的预测变量,根本原因在于方法背后不合理的有效市场假设。CE方法能够在无分布假设的条件下分析非线性、非高斯性和非对称性的相关性,为解决问题提供了工具。基于自适应市场假设,Mahmutovic[42]提出了一种在真实市场动态性条件下进行有效且可解释预测的方法,方法采用基于CE的方法选择时变且尾部相关的指标变量,同时采用Copula散度混合误差函数来指导预测模型学习。他基于四种加密货币(比特币、以太币、瑞波币和狗币)真实多年历史数据验证了方法,结果发现,基于CE的方法在提高了预测准确度的同时还增加了模型的可解释性,而Copula散度误差函数也减小了累积误差。方法的成功说明了自适应市场假设在加密货币市场上的合理性。
更多Copula熵的理论和应用,请参考我们在ChinaXiv的综述论文。
参考文献
1. Qingsong Shan and Qianning Liu. Binary trees for dependence structure. IEEE Access, 8:150989–150998, 2020.
2. 罗良清, 平卫英, 单青松, and 王佳. 中国贫困治理经验总结:扶贫政策能够实现有效增收吗?. 管理世界, 38(2):70–83, 2022.
3. Haonan Zhang, Jiapeng Dai, and Yousaf Ali Khan. Poverty improvement policies and household income: Evidence from China. Heliyon, 9(11):E21442, 2023.
4. Leonie Bossemeyer. Machine learning for causal discovery with applications in economics. Master’s thesis, Ludwig-Maximilians-Universität München, 2021.
5. 韦颖璐. 基于 pair–copula 熵的相关性度量. 硕士学位论文, 苏州大学, 2021.
6. Muye Han and Jinsheng Zhou. Multi-scale characteristics of investor sentiment transmission based on wavelet, transfer entropy and network analysis. Entropy, 24(12):1786, 2022.
7. Omid M. Ardakani. Information content of inflation expectations: A copula-based model. Studies in Nonlinear Dynamics & Econometrics, 2024.
8. Wuyue An, Lin Wang, and Dongfeng Zhang. Comprehensive commodity price forecasting framework using text mining methods. Journal of Forecasting, 42(7):1865–1888, 2023.
9. Yuliana Apaza Flores. Estudo de séries temporais dos preços da gasolina, etanol e açúcar no estado de São Paulo através da transfer entropy. Dissertação de Mestrado, Universidade Estadual Paulista, 2025.
10. Yu-Xin Tian and Chuan Zhang. An end-to-end deep learning model for solving data-driven newsvendor problem with accessibility to textual review data. International Journal of Production Economics, 265:109016, 2023.
11. 王琳君. 中国企业海外并购的影响因素和绩效评价研究. 博士学位论文, 中国科学院大学, 2022.
12. Jian Ma. Causal domain adaptation with copula entropy based conditional independence test. arXiv preprint arXiv:2202.13482, 2022.
13. 柳琼. 基于 Copula 和 MI 理论的相关性度量及其应用研究. 硕士学位论文, 三峡大学, 2018.
14. 陈作海, 钱恒, and 高永超. 一种基于知识图谱的城市热线派单方法及系统, 2023. CN115860436A.
15. Bowen Zhang, Jinping Lin, Man Luo, Changxian Zeng, Jiajia Feng, Meiqi Zhou, and Fuying Deng. Changes in public sentiment under the background of major emergencies – taking the Shanghai epidemic as an example. International Journal of Environmental Research and Public Health, 19(19):12594, 2022.
16. Mario Wieser. Learning Invariant Representations for Deep Latent Variable Models. PhD thesis, University of Basel, 2020.
17. Stuart William Card. Towards an information theoretic framework for evolutionary learning. Master’s thesis, Syracuse University, 2011.
18. 张可, 刘施彤, 郑植, 贾宇明, and 黄乐天. 一种基于动态贝叶斯网络的目标意图识别方法, 2022. CN114997306A.
19. 许海云, 王超, 陈亮, 徐硕, 杨冠灿, and 朱礼军. 颠覆性技术的科学-技术-产业互动模式识别与分析. 情报学报, 42(7):816–831, 2023.
20. Hudson and Thames. Machine learning financial laboratory (MLFinLab). GitHub, 2021. URL: https://github.com/hudson-and-thames/mlfinlab.
21. Hudson and Thames. The ArbitrageLab package in Python. GitHub, 2024. URL: https://github.com/hudson-and-thames/arbitragelab.
22. Qiutong Wang. Social networks, asset allocation and portfolio diversification. Master’s thesis, University of Waterloo, 2015.
23. 廖轶楠. 基于 Copula 熵选股及集成神经网络预测的投资组合管理研究. 硕士学位论文, 南京信息工程大学, 2023.
24. 朱仲儿. 多种机器学习方法的股票分类预测. 硕士学位论文, 上海师范大学, 2022.
25. Zhonger Zhu and Wansheng Wang. Stock type prediction based on multiple machine learning methods. Journal of Intelligent Learning Systems and Applications, 16(3):242–261, 2024.
26. 徐泽晖. 基于 GAS-CE-LGBM 的“一带一路”指数收益率预测研究. 统计学与应用, 13(4):1431–1441, 2024.
27. Rafael Calsaverini and Renato Vicente. An information-theoretic approach to statistical dependence: Copula information. EPL (Europhysics Letters), 88(6):68003, 2009.
28. Rafael S. Calsaverini. Tópicos em Mecânica Estatística de Sistemas Complexos. PhD thesis, Universidade de São Paulo, 2013.
29. Fadhah Amer Alanazi. Truncating Regular Vine Copula Based on Mutual Information: An Efficient Parsimonious Model for High-Dimensional Data. Mathematical Problems in Engineering, 2021:4347957, October 2021.
30. 王念鸽. 基于互信息的 Vine Copula 模型的高频数据投资组合风险测度研究. 硕士学位论文, 浙江财经大学, 2023.
31. 熊靖宇. 基于 Copula 熵的行业风险溢出效应分析. 硕士学位论文, 东北财经大学, 2020.
32. 丁永辉. 中国金融系统的风险联动研究. 硕士学位论文, 东北财经大学, 2024.
33. Mengyuan Chen, Jilan Liu, Ning Zhang, and Yichao Zheng. Vulnerability analysis method based on network and copula entropy. Entropy, 26(3), 2024.
34. Omid M. Ardakani and Rawan Ajina. Tail risks in household finance. Finance Research Letters, 69:106065, 2024.
35. 孔祥永, 王浩, 袁伟, and 蔡明. 一种自动化特征工程信用风险评价系统及方法, 2021. CN114049198A.
36. 彭翊庭. 个人信用风险评估模型比较——基于 Copula 熵的特征选择. 硕士学位论文, 清华大学, 2022.
37. 王钊颖. 基于集成算法的上市公司绿色信贷风险评估研究. 硕士学位论文, 重庆大学, 2023.
38. Dabin Zhang, Ruibin Lin, Tingting Wei, Liwen Ling, and Junjie Huang. A novel deep transfer learning framework with adversarial domain adaptation: application to financial time-series forecasting. Neural Computing and Applications, 2023.
39. Henryk Gurgul and Robert Syrek. Mutual information between Polish subindexes –the use of copula entropy around the time of the COVID-19 pandemic. Statistics in Transition new series, 25(1):23–41, 2024.
40. Henryk Gurgul and Robert Syrek. Mutual information between the main foreign subindices: The application of copula entropy around WHO’s declaration date at the time of the COVID-19 pandemic. International Entrepreneurship Review, 10(2):7–24, 2024.
41. 栗嵩林. 保险科技发展对保险公司经营绩效的影响研究. 硕士学位论文, 中央财经大学, 2023.
42. Amanda Mahmutovic. Forecasting cryptocurrency returns in adaptive markets with an extended copula based feature selection and extended copula divergence hybrid loss function. Master’s thesis, Linnaeus University, 2025.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-7-22 19:07
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社