|
前段时间做了一个任务,用到一些冷门技巧。适用于有大量英文pdf论文,需要导入到参考文献软件JabRef的情况(因为不同软件的数据库记录格式不一样,在此不探讨对其他软件适用性,Mendeley除外)。这只是众多解决方法中的一种,不保证是最有效的,但减少了一定的人工工作量。
情况:三百篇以文件夹方式保存的论文pdf,现在要录入到JabRef,要求题录具备基本信息,并能链接附件。
思路:
1、逐条记录搜索,导出Bib文件,然后导入到Jabref,再手动添加附件-放弃。可能熟能生巧后工作量也不大,但感觉太没有技术含量。
2、编程或借助软件实现:读取论文名称,自动联网查询以补全题录信息生成bib,并写入附件链接(或文件以bibtex键可识别的方式重命名)。这个有技术含量-放弃。奈何我水平有限。
3、JabRef对PDF文件的识别能力不够强,而且自动补充题录信息需要doi号等;因此考虑用Mendeley作为中转-采用。因为懒得再想其他办法了。
过程:
1、将pdf分文件夹拉入到mendeley,mendeley会尽可能地提取pdf的信息。考虑到部分论文是图片内核的pdf,可以预先做批量的文本识别。
2、使用mendeley的自动更新功能,可见部分文献已经补全信息。然后做人工核对,找某个基本信息项排下序就知道哪些文献缺信息,有doi则查找一下看能否补全;大致看下题录信息和pdf文件名。
第一步无法识别的文件,以及某些错误题录,把文献名称填到mendeley,并在谷歌学术搜索,保存到“我的图书馆”,然后批量导出bib到mendeley。然后查找重复题录,以谷歌学术导出信息(即没有附件的那一个)为准做merge document。merge document会提示,没打勾的框就是存在冲突的框,而显示的值是在重复文件中勾选的内容,所以可以不用再打勾,确认即可。
诸如相近甚至相同名称的论文,中文文献(Mendeley不识别中文),非论文的文献,非PDF的文件等等……终归需要人工处理。
3、如果需要将文件夹信息导入到JabRef,则应该把文件夹名写到Mendeley的题录中,随便写一项即可。mendeley对批量选中文献的统一处理很便捷,比JabRef中选中后再选择域重设值要方便。
4、如果希望在JabRef中使用BibTex键链接附件的方式,则应该设置Mendeley的文件重命名。如果是根据路径来链接附件,则只是建议把文件重命名成统一的自己能识别的样式。
5、Mendeley导出bib文件,用记事本等打开后,ctrl+H把Mendeley格式的路径,替换成JabRef格式的路径(如相对路径)。一次替换解决。
6、在JabRef导入bib,并将文件拷贝过去。在JabRef中设置允许相对路径。完成。
P.S. JabRef中打不开附件的可能
1、caj、视频等非默认支持格式,需要先在选项-首选项-外部程序-管理外部文件类型中,添加CAJ格式,打开方式选择默认;然后jabref才会识别。
2、可能由于软件和系统差异,对特殊字符如_、法语字符等识别障碍。ctrl+H能解决多数问题;Mendeley中文件名重命名的设置能解决更多问题。
P.S.已有文献列表,如何下载并录入文献?
目前想的一种是Matlab做文本处理,写入到Bib文件,然后用能批量下载附件、自动更新题录的文献管理软件来下载。
对了,JabRef是开源软件,mendeley是免费软件,非常感谢。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 14:23
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社