一个月前,电子工业出版社的一名编辑关注我在科学网上的博文,邀请我写作一本有关生态学大数据方面书籍。我潜意识中其实也有这个打算,但并非特别明确,这样的邮件倒让任务明朗了。我回信说:“我很喜欢blog这种形式,没有任何任务的压力,自己想写也能抽出空的时候就写。认真做好每一件事儿,认真撰写每一篇文章,这是我对自己的要求,虽然大多数时候费力不讨好,但我仍然乐在其中。坦率地说,一说到写书,就有一个潜在的任务压力在那儿了。我不算一个拿得起放得下的人,有一个事儿没有做完,总是惦记着,因此现在一般我都不会主动招惹这样的活儿来干了。但是,一般对于约稿,我还是重视的,而且您给的这个选题,实话说也是我非常有兴趣的,因此,我现在倾向于答应您的约稿。”
随即,编辑发过来一个选题申报表,这个申报表真是有些复杂。我只好硬着头皮填写了,非常忐忑地发给了编辑,居然收到了编辑的好评:“选题表收到了,谢谢您!其实之前有老师跟我建议就让作者填大纲和个人信息就好,可是我总觉得我对选题背景和选题特色不如作者了解更深刻,所以我总会在发选题表的时候潜意识里忘记提“无法填的内容就留给我”这句话,所以抱歉:)不过,看了您的选题表之后,觉得选题特色和选题背景您写得真动人,我忘记加这句话也是值得的......”
我再次看了一下表格中的文字,突然发现今天灵机一动写出的东西,还有些价值,那就顺便撰写一篇博文,分享部分文字(选题特色、编写思路、报选优势,包括独到之处和卖点):
说起大科学,让人联想到的是火箭、天文望远镜和粒子加速器等需要大量资金支撑的研究。而生态学,研究区虽然是真正被人类占领的区域,却一直游离于大科学之外。而如今,生态学家们正试图乘坐大数据的飞船,进入大科学范畴。新一代的生态学家究竟应该是什么样子的呢?本书力求用融合当前技术到生态学研究中的最新案例来说明,现代生态学与传统生态学的具体区别是什么。未来世界90%的东西现在还未看到,这就更加敦促我们要以最新的资料和进展来讨论这些话题,力求缩小这种差距。
生态学大数据是一个发展中的新领域,还未形成系统的框架。纵观历史上系统性很强的教科书,也并非是传递知识和面向未来的最佳选择。回顾一下我们的教材,其实都是非常有系统性的,这导致我们在看国外的教材的时候,感觉他们写得很凌乱。我们的教材的确有系统性,告诉读者的东西太干净了,似乎全部是真理,往往缺乏启发性和探讨性了。比如,就我熟悉的地球科学和生命科学来说,从我开始接触这些学科开始,觉得这些学科非常完美了,几乎用系统性贯穿了所有,可以解释自然界几乎所有的现象和联系。由于逻辑严密,我都从来没有怀疑过。但现在发现,这里面其实是漏洞百出。许多问题,其实在历史上一致没有得到解决,但编写教材的人,估计也是花费了脑筋,有意无意将这些未解之谜淡化了,或者以讹传讹地用一些猜测代替事实。表面上看,学科保持了纯洁性和系统性,但其实这样的教材传递的可能是一个错误。
因此,本书将会不刻意去追求知识的系统性,我希望强调没有“失败”的实践,我们得出的结果都是特定条件下的“正确”值,应该去理解每一个输出结果的原因,去实现自己希望的条件,这才是探索精神,而不是简单“重复”一个过程。
大数据最本质的东西是什么?我觉得应该是“混杂”。只有混杂,才能得出更精确,更真实的数据。往往系统化,纯净的数据更具有欺骗性,更容易造假。而混杂的,来自多源的、多维的数据,从不同角度和状态看同一个问题,就减少了这种风险。因此,作为一本与大数据有关的书籍,我将尽力采用大数据思维来诠释一些基本原理和概念。留下必要的存疑,让读者思考和发挥,这其实也正是面向未来的探讨模式。
总之,作为一本定位为未来生态学发展提供创新思维人才的读本,将力求以面向未来的角度来讨论这个时髦的话题,并以大数据思维贯穿本书的文字。
未来的生态学和地球科学的研究,需要更多复合型人才的储备,更多的年轻生态学家除了需要掌握生态学知识,还需要掌握计算机知识和电子工程方面的技术,至少需要知道未来如何与计算机科学家和电子工程师们如何合作;同样,信息科学和计算机科学,其发展也需要寻求新的社会应用,至少目前的大生态学研究为大数据提供了一个极好的范式。本书可能是跨越两个差异巨大的学科的工作,但这恰好是我的特长。关于学科分界,恰好我非常赞同我校哲学学院刚过世的俞吾金先生的话:“实际上是没有跨学科的,因为世界本身是没有边缘的,我们先put into了一些学科。那我们跨学科,只是去对自己原来放进去的东西做了一些改变。世界本来就是交叉的。......但是我们搞得自己发现了新学科,其实只不过是改变了之前自己设定的分类方式。......学科分类是17世纪人类自己做的,对于学科壁垒,我们没有必要看得那么重。”
说到系统性的问题,突然想到了之前听过的罗辑思维中罗胖的一段话,找出来了。也许我上面的想法就受了他这段话的影响。“最近我在准备一些罗辑思维的视频节目,是关于数据造假的。资料看得越多就越是发现数据扭曲和造假现象实在是太严重了!那就出现了一个问题哈!很多人都在说大数据时代马上就到了,那如果这些基础数据都是假的,会不会堆积起来的大数据也是镜花水月呀?其实大数据的大不在于数据的总量大,而在于数据的维度多吧!一个城市的市长要搞GDP造假,但是用电量他就很难造假啊!如果再加上什么海关的进出口数据啊、大宗消费品的销售增长等等,最后数据的造假就不难识破,这就牵扯到一个很有趣的问题哈!就是在数据世界里面有秩序其实未必是好事,因为有秩序的数据就越方便造假?越多越乱,得出来的结论反而越准确。”
再补充一张照片,说明这个问题。看这幅图片,只在一个角度看,似乎人手捧着宝塔,稍微换一个角度,就看出了破绽。如果我们刚开始认定是人手捧着宝塔(类似纯净的教科书内容),就认为其他的数据是不精确的,是错误的。我是想说,在特定条件下创造的纯净数据和结论,并不可靠。但我们的许多知识建立在这么干净的特定条件下。这就是我们前面强调的要建立多源的、多维的数据。我们观测世界,大多时候并没有达到应有的维度。
继续分享我的新书柜。搬迁到新江湾校区,有了新办公室,购置了新书架。恰好上学期的新生研讨课《大科学、大数据、大生态》有一些课程建设费,我正好就用这些经费购买以下新书来撑满我的新书架。
看这层,挺生态学的吧。
再看这层呢,俨然是一名大数据专家或者数据科学家吧,呵呵。
转载本文请联系原作者获取授权,同时请注明本文来自赵斌科学网博客。
链接地址:https://wap.sciencenet.cn/blog-502444-863328.html?mobile=1
收藏