南京大学图书馆邵波副馆长在“‘互联网+’时代的文献资源建设工作研讨会”上的报告中,提及当前的图书馆学研究对图书馆产生的数据研究不够,这些数据比通过种种调查问卷得到数据更值得研究。我深表赞同。
沈奎林先生《拆解大数据》(http://url.cn/40gKklr)一文,对大数据进行了“科普”。“ 麦肯锡:‘数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。’IBM将大数据的特征归纳为4个‘V’(量Volume,多样Variety,价值Value,速Velocity)。第一,数据体量巨大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T);第二,数据类型繁多。比如,网络日志、视频、图片、地理位置信息等等。第三,价值密度低,商业价值高。第四,处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。”我赞同图书馆没有“大数据”,具体到任何一家更是没有,但“小数据”有不少,值得进一步挖掘与利用。
初步盘点一下,具体一家图书馆拥有的数据,大致可以有图书馆集成管理系统中的数据(比如书目数据、图书流通数据、阅览数据、公共查询系统访问产生的数据等),图书馆网站及其相关数据(包括由图书馆门户关联的各种数字资源及其利用情况数据),部分图书馆还可能有门禁系统数据、监控系统数据等。假如是各种图书馆及其相关的联盟,还可以有更多与共知共建共享数据。此外,还用公共图书馆评估定级数据、高校图书馆事实数据等等。如果要进一步深究,可以有许许多多规模不等、类型多样的数据。
面对上述种种数据,种种原因,挖掘与利用的层次甚浅。我自身做过图书馆集成管理系统管理员、网站管理员、数字资源采访馆员等工作,时不时参与填报各种类型各种需求的相关数据,也利用社会调查法开展过一些图书馆相关的调查研究。我的感受是,鞭长莫及,力不从心。有个人的原因,比如精力不足、能力有限;也有所处环境的原因,包括图书馆小环境,及图书馆之外的大环境。关于纸质馆藏利用率逐年下降,这是整体趋势。但可以有更细致的分析,比如与兄弟高校比,与自身不同时间段比……,可以有许多有意义的发现。关于馆藏统计,纸质馆藏的统计取得了一些共识,数字馆藏的统计则是令人困惑不已,缺乏可资参考的标准。关于数字馆藏利用,点击量,下载量,访问量等等,计量标准也是个大问题。好些时候,真是“难得糊涂”,“差不多”就好。
图书馆的数据,亟待多一些关注与思考。图书馆这一行的专业性、职业能力的提升,着力点之一或许就在于对其进一步挖掘与利用。
转载本文请联系原作者获取授权,同时请注明本文来自王启云科学网博客。
链接地址:https://wap.sciencenet.cn/blog-213646-1015038.html?mobile=1
收藏