世间唯变化永恒...分享 http://blog.sciencenet.cn/u/zlhua 世间唯变化永恒,以开朗的心简洁地生活...

博文

明知山有虎,偏向虎山行——再探可拓数据挖掘

已有 819 次阅读 2023-6-22 10:43 |个人分类:可拓青创联盟|系统分类:科研笔记

       2008年,科学出版社发行了蔡文、杨春燕、陈文伟、李兴森 四人著的《可拓集与可拓数据挖掘》,这是我国发行的第一本系统阐述可拓数据挖掘的著作。

      可拓数据挖掘是可拓学和数据挖掘结合的产物,它研究用可拓学的理论和方法,去挖掘数据库(数据仓库、数据集市)中解决矛盾问题的变换有关的知识。

     可拓学是以蔡文教授为代表的中国学者于20世纪80年代创立的新学科,主要用形式化的模型,研究事物拓展的可能性和开拓创新的规律与方法,并用于处理矛盾问题。

      在可拓学研究者看来,人类的历史是一部解决矛盾问题的历史。无论过去、现在或将来,人们无时无刻不在与矛盾问题打交道,解决矛盾问题的工具就是变换,因此,对可拓变换的研究成为解决矛盾问题的重要部分。而可拓数据挖掘,则是将可拓学理论和方法应用与数据挖掘过程中,旨在大量的数据中挖掘关于变换的知识(简称可拓知识),为人们处理矛盾问题提供决策支持服务。

      在这之前,关于数据挖掘,我的记忆最早停留在中国统计教育学会组编的张尧庭、谢邦昌、朱世武 编著的《数据挖掘入门及应用——从统计技术看数据挖掘》

       从数据搜索角度来看,数据挖掘(Data Mining)是当时计算机行业发展最快的产业,各个领域的专家都对数据挖掘产生了巨大的兴趣。

     1997 Berry and Linoff :

     分析报告给你后见之明(hindsight):统计分析给你先机(foresight);数据挖掘给你识见(insight)

     1998  Hand:

     数据挖掘所看重的是数据库的再分析,包括模式的构建或资料样式的决定,其主要目的就是从数据中发现先前关心却未曾知悉的有价值信息。 

     1999  Bhavani:

      Data minning is the process of posing various queries and extractions useful informaiton ,patterns,and trends often previously unknown from large quantities of data possibly stored in databases.

      The process of discovering meaningful new correlation ,patterns,and trends by sifting through large anmount of stored data,using pattern recogition technologies and statistical and mathematical techniques.

     2000 Hand et al:

     Data mining is the process of seeking interesting or valuable informaiton in large data bases.

      Kovalerchuk&Evgenii Vityaev:These techniques are now applied to discover hidden trends and patterns in financial databases.

     从统计角度可以得出:数据挖掘(Data Mining)所要处理的问题,就是在庞大的数据库中寻找出有价值的隐藏事件,加以分析,并将这些有意的信息归纳成结构模式,作为企业在进行决策时之参考依据。

     在数据挖掘技术发展的过程中,数据挖掘被赋予了不同的名称:知识发现(Knowledge Discovery in Databases,KDD)、数据采矿、模式发现、数据挖掘、知识挖掘、数据考古学(Data Archaelolgy)、数据模式分析(Data Pattern Analysis)或 功能相依分析(Functional Dependency Analysis)。

     面对众多的他人研究视角和成果,该如何取舍?

     面对日益纷繁复杂的信息世界,有迷惘是正常的,不要慌张,先静下来,回顾下来时的路~

     我于2002年加入“信息甄别”课题组,初衷是想把当时在USETC中学到的人工智能技术中的专家系统理论知识应用起来,解决当时国家统计局重点关注的“统计数据造假”这一实际问题中。

     通过信息甄别课题组成员对中国社会、经济、新科技发展趋势和文献研究,2003年,团队成员在一篇名为“信息时代的数据矿工——信息甄别”论文中,提出了“信息甄别学”以及理论研究框架。

    有了理论研究框架,接下来就需要应用场景,根据当时自己工作实际需要以及社会对专业人才需求分析发现——最急需解决的是日渐突出的“大学生就业难”问题。 于是,我申报了校选课题“信息甄别理论在大学生就业指导中的应用”。想着可以更好的理论联系实际,利用信息甄别理论去解决大学生就业难问题。

     综上所述,我最初其实是从信息甄别视角去看数据挖掘的,认为数据挖掘是信息甄别的有力工具。

     明确了应用场景,接下来就需要实验室,幸运的是,通过多方努力,很快,CUIT“国家统计局统计信息技术与数据挖掘重点开放实验室”于2006年挂牌建设。

      但2007年,突如其来的本科教学评估打乱了最初的研究计划。

     还好与此同时兴起的互联网时代统计数据的搜集与方法的研究,使得信息甄别理论研究在“网络统计数据的甄别与筛选”研究领域中得以继续。

     但好景不长,2008年开始的院系调整,使信息甄别课题所依附的信息统计教研室被撤销,团队成员也逐一分散。针对自己专业特长,为了继续理论联系实际,我申请到了信息管理与信息系统教研室。

    但树欲静而风不止,院系调整仍在继续,很快,2010年,电子商务系合并到管理学院,2013年,又分解出物流学院,好不容易组建的面向物流信息化方向的就业指导课题组成员又被迫分散在了两个学院。

    还好,CUIT-CDIO工程教育改革思潮继续兴起。受涂子沛《大数据》商务智能前生今世研究的影响,2014年,又鼓起了我继续研究信息甄别,应用数据挖掘工具的勇气,于是申请去物流学院电子商务教研室,想在该教研室新兴的商务智能研究中继续研究信息甄别,理论联系实际地深入用一用数据挖掘这一看起来很不错的工具。

     记得当时的物流学院领导很重视实践,看我之前是研究物流信息化的,于是鼓励我到物流工程教研室。于是服从分配到了物流工程教研室,继续物流信息化方向的就业指导实践。经过5年的积累,直到2019年,学了TRIZ和可拓学,才成功曲线迂回,发现可拓数据挖掘这一新的研究领域。

      通过指导物流工程专业毕业生创业后,直到2021年,才有机会重新申请到了CUIT统计信息技术与数据挖掘实验室课题,可以在青少年科教领域,结合新学习的可拓学理论和方法,搭建青少年科教统计平台,进行可拓数据挖掘研究。

      总体来说,从CDIO角度来看,仅仅有理论研究、实验室是不够的,还需要有科学精神,学习能力,明确的目标,现实应用场景,信息源....

     最重要的是,要相信自己,坚持做对的事,才能吸引到一群志同道合的小伙伴。




https://wap.sciencenet.cn/blog-520919-1392571.html

上一篇:CUIT“气象+旅游”特色——大气科学
下一篇:可拓数据挖掘案例导引:自然、阅读与创造之间有什么关系?
收藏 IP: 183.220.74.*| 热度|

3 许培扬 郑永军 宁利中

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-27 20:36

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部