笔者作为一名高校图书馆工作者,在信息检索方面投入了大量时间和精力。信息检索的理论、工具、方法等受到诸多因素影响,在不断发展变化。今年,冲击最大的要数生成式AI的影响。ChatGpt、DeepSeek、豆包、文心一言等等对搜索引擎、专业数据库等的冲击很大。中外文数据库陆续推出自身的“AI增强检索”产品与服务,功能不一,且可以说良莠不齐,各自都在摸索中,均是永远的beta版。如何有效提升自身信息检索能力?因时制宜、因地制宜,立足实际又高于实际,且需要“实践出真知”。稍事梳理近期观察与思考。粗略涉及两个方面,一是电子期刊的检索与利用,二是纸质馆藏的检索与利用。
有老师咨询我校在RSC数据库中的某刊的发文情况(能查到学校有在这个期刊上面发过论文吗?)。检索工具和方法多种多样,有直接的,也有间接的。解答过程中,我对中国知网的学术搜索(https://scholar.cnki.net/)给予较高期望。全部来源有3种:RSC e-Journals,xlink.rsc.org,PubMed期刊。可检索字段多了许多,但有可能是元数据整合与揭示存在瑕疵,检全检准效果并不理想,我实际测试过多种检索方法,效果不理想。但可以借助期刊导航帮获取期刊进一步信息(比如:ISSN: 2050-7488;EISSN: 2050-7496)。此外,也有可能是数据更新存在滞后。我可以肯定,所在机构2015年至今,在该刊上发表的论文有且仅有两篇,因为我检索了所在机构ESI论文详表。RSC数据库高级检索界面(https://pubs.rsc.org/en/search/advancedsearch),选择具体一种刊,Fulltext的with all of the words中填机构名称。这样执行操作后,结果显示页面为Keywords中包含机构名称。这样的结果实际是不准确的。高级检索界面,选择具体一种刊,发现Fulltext的with the exact phrase中填机构名称,这样执行操作后,检索结果是准确的(可以知道某机构在某刊的发文情况)。有位图书馆同行评论:“keywords含所在机构?进去试了,的确,这个数据库这里的Keywords不是我第一反应的论文的关键词。”该数据库“高级搜索技巧 全文 / 关键词 在该字段中输入的搜索短语,将对期刊全文进行检索。不同的搜索字段支持执行更复杂的检索操作。在 ‘包含所有关键词’ 字段中检索时,可使用布尔运算符 AND、OR 和 NOT(仅支持大写形式)。你也可以使用 ‘+’(对应 AND 运算符)和 ‘–’(对应 NOT 运算符)。”实际上,我也是首次注意到该情形。
延伸问题一,ISSN 国际中心(ISSN IC)明确规定:若期刊的印刷版与电子版 “出版频率、内容结构、获取方式存在显著差异”(如电子版有专属栏目、印刷版有纸质特刊),需分别分配 ISSN 和 EISSN;即使内容完全一致,只要同时发行两种形态,也建议分开编号,确保每一种形态在全球范围内都有唯一标识,避免因 “同一刊号对应多形态” 导致的检索混乱(如误将电子版文献关联到印刷版馆藏)。简言之,ISSN 与 EISSN 并非重复标识,而是 “针对不同出版载体的互补编号”—— 前者服务于传统印刷形态,后者适配数字出版趋势,共同帮助期刊实现 “纸电双轨并行” 的规范化管理,也让资源使用者能更高效地定位所需版本。ISSN、EISSN字段检索时,有的数据库支持输入完整的信息,有的对“-”不支持。哪个支持,哪个不支持需要实际测试。
延伸问题二,PubMed数据库。该数据库为国际知名生物医学信息资源平台 。PubMed® 包含超过 3900 万条生物医学文献引文,这些引文来源于 MEDLINE(美国国立医学图书馆生物医学文献数据库)、生命科学期刊及在线图书。这些引文可能包含指向 PubMed Central(美国国立卫生研究院开放获取文献库)和出版商网站上全文内容的链接。PubMed(https://pubmed.ncbi.nlm.nih.gov/)官网通知,“由于政府资金中断,本网站上的信息可能未及时更新,通过该网站提交的事务可能无法处理,且在拨款法案生效前,该机构可能无法回复咨询。美国国立卫生研究院(NIH)临床中心(即 NIH 下属研究型医院)仍正常开放。如需了解其运营状态的更多详情,请访问 cc.nih.gov 官网。有关政府运营状态及恢复正常运作的最新信息,可在 opm.gov 官网(美国人事管理办公室官网)查询。” 圕人堂成员Sunny评价:“我国的医学主题词表就是根据PubMed数据库翻译过来的,这个数据库做的主题标引最好,凡生物医学院校都离不开这个库。"该领域学者biochem反馈:“看得最多的就是这个数据库,尤其是申请项目时。”中国知网学术搜索中合作商导航中亦有PubMed期刊,介绍为“美国国立生物技术信息中心,创立于1988年,PubMed为其生物医学文献平台,目前收录有2000多本生物医药类期刊的1200多万篇期刊学术文献。“
关于图书馆书目检索系统(OPAC)。“电子资源大数据联盟“微信群有一段讨论。WWW老师“吐槽”。相关工作要求,“尊敬的读者:根据相关工作要求,图书馆书目检索系统只对我校校园网以内开放。读者在校园网外需通过 VPN(虚拟专用网络)接入校园网后,方可访问图书馆书目检索系统。”热书发现系统的统计很有意思,发现百度百科机器人会爬取系统数据做百科的参考文献。因为热书发现系统数据非常规范,机器人能自动抓取其中的数据,比如图书简介之类的,可见,中文开放资源的贫乏,本来互联网是走向去中心化,现在这个趋势不存在了。随着OPAC越来越封闭,热书发现系统也将走向终结。利用这个系统的馆,热书系统会有一个个性化的页面,是各自图书馆logo,馆藏关联自己图书馆和自己的电子书,以及自己的推荐购买链接。包括后台的辅助采访、专题共享等等,核心就是免费给大家用,用的人越多,发展越好我就提供一个免费的服务。采集人家的OPAC又不是天天去,是根据OPAC发布的榜单频率来的,如果是统计一个月的借阅数据,就一个月来一次,一个季度,就一个季度采集一次,对服务器来说,没有任何影响。随风飞扬建议:“OPAC封闭有各种原因,可以尝试OPAC对热书发现单独放开。不对校外开有时是领导怕惹上麻烦,什么整改。加个白名单对热书发现应该没什么问题。某些学校间互相放开也是可以尝试。”数字平台谢涛评论:“Web 服务器一般原则是对个体访问者开放,侦测访问行为,如果发现是爬虫,则 403 报错。您这个说法也很有创意,那就是侦测前端的行为,如果发现是个体访问者,就 403 报错,如果是爬虫,则友好开放,允许对方狂爬自己的全部数据。很幽默!类似批发市场,个人来买,不搭理;大量批发,才欢迎。”
当前,国内图书馆馆藏挂接做的最好的,个人认为是读秀学术搜索中的图书搜索。读秀图书搜索中,目前整合了多少家图书馆的馆藏信息?我自己的一本书显示有824家图书馆收藏,大致分为三种类型:高校馆、公共馆及其它类型图书馆。这824家算是“有名有姓”,除了他们还有谁?我希望了解。如果可以进一步明确高校馆多少家,公共馆多少家,其他类型图书馆多少家,这样效果更好。近几年,随着图星系统的占有额提升,采集的馆增加了。我尝试让生成式AI豆包回答,给出的答案明显不符合实际。进一步咨询了数据库供应商工作人员。有些信息貌似不想说,不知道为啥?不想说的可能原因。有可能我大致了解。当前有许多馆的OPAC信息是不对外的(包括好些牛校在内,限制外网访问)。读秀系统中采集到的信息很可能是更新滞后的(我所在馆每年更新一次,很多馆未进行这样的挂接,揭示不准)。当前总量为2000余家(2134家单位),实际是有水份(有可能是一共挂接过2000多家,目前数据正常的多少家不怎么好统计)。我做了粗略考察,目前发现最多的为1000余家单位,莫言的书、谭浩强的书均有。考察他们两人的情况,可以了解大致情况。目前我发现的收藏馆数字最大的为贾平凹的一本书,1271家收藏馆。
面对生成式 AI 浪潮的冲击,信息检索正经历范式重构。中外数据库推出的 “AI 增强检索” 虽带来便利,但其 “永远 beta” 的特性暴露了技术迭代与数据治理的深层矛盾。例如 RSC 数据库高级检索中 “全文关键词” 与 “精确短语” 的字段差异,迫使研究者必须通过实践验证工具逻辑;PubMed 因政府停摆导致的更新滞后,更凸显了学术资源对外部政策的脆弱性。这些案例警示我们:技术工具的进步从未消解 “实践出真知” 的检索本质。在纸电双轨并行的时代,ISSN 与 eISSN 的互补性被数据库检索规则割裂 —— 部分平台对连字符的支持差异,使得标准化标识在实际应用中仍需人工校验。图书馆 OPAC 的封闭化趋势更形成悖论:当热书发现系统因数据规范被百度百科爬虫抓取时,学术资源的开放共享与机构数据主权保护之间的张力已无法回避。读秀系统看似庞大的 2000 余家馆藏数据,实则混杂着更新滞后与统计水分,这印证了数字化整合中 “量” 与 “质” 的永恒博弈。作为信息桥梁的构建者,图书馆人既要警惕技术工具的 “幻觉陷阱”,更需回归检索本质:在 PubMed 主题标引优势与知网跨库整合短板间寻找平衡,在 RSC 字段逻辑陷阱与 OPAC 开放困境中探索路径。唯有保持对工具的批判性认知,在动态验证中优化检索策略,才能在技术浪潮中守护学术资源的精准获取与高效流转。
延伸阅读:
图谋.ScienceDirect数据库学习笔记.https://blog.sciencenet.cn/blog-213646-1505389.html
笔者作为一名高校图书馆工作者,围绕ScienceDirect数据库持续保持学习与思考。近期围绕高基报表相关数据填报及数字资源利用讲座做了进一步工作,稍事梳理。
转载本文请联系原作者获取授权,同时请注明本文来自王启云科学网博客。
链接地址:https://wap.sciencenet.cn/blog-213646-1506009.html?mobile=1
收藏