气宇轩分享 http://blog.sciencenet.cn/u/yufree

博文

垂直搜索

已有 2798 次阅读 2018-11-23 10:57 |个人分类:科搜研手册|系统分类:科研笔记

收藏对于经历过紧缺年代的人有着莫名的吸引力,在网络时代也一样。10年前所有个人电脑都是四个分区:系统、软件、电影、照片,那时候电脑杂志也喜欢告诉你如何进行分区计算让你的空间显示为整数。因为版权意识没觉醒,在所有的网吧里你都能找到单机游戏的全集、周星驰搞笑电影全集与班得瑞的音乐全集。“全”这个字对于童年没能力集齐水浒卡片的80后是一种诱惑,而2008年是个人笔记本电脑成为大学生标配的元年,双核处理器、2G内存外带250G硬盘是一个常见搭配,250G硬盘自然就意味着虚拟收集是可行的。那个时候下载站的广告多到令人发指而优质的资源在迅雷的帮助下可以说瞬间就可以传遍学校。当时我收集了一大堆电子书并建立了一个学习文件夹用来存储,并暗自许诺有一天全部看完,但其实直到那个硬盘报废我都没再打开过。

互联网刚开始是用来连接经典知识的,但其实并没有多少人愿意把宝贵的时间放在这上面,后来互联网便有了自己的生产力,无数的网文与帖子开始塑造一个个虚拟形象。更重要的是很多网文内容与经验分享的质量与时效性已经超越了传统媒体,所以从delicious书签开始就不断有工具用来收集网络信息。印象笔记或者说evernote的闪亮登场可以说是开拓性的,当时网上比较活跃的几个知识管理大牛都很快开始推荐并整理出自己的使用心得,伴随智能手机的出现,这个工具直接成了其广告宣传的“第二大脑”。但也是这个时期,另一款软件的出现让我对收集整理信息产生了怀疑,那就是桌面搜索软件 everything 。

所谓桌面搜索就是对本机电脑文件构建的搜索引擎,当你自己系统里文件一大堆时,直接对本机搜索无疑是很快的。不过其实这对我没啥用,因为我当时的文件系统已经是项目化了,所以其实所有目录都不超过三层,我找文件根本不需要搜索。但我却发现如果要找一个当时确定收集到印象笔记里的东西,我还得用搜索,如果都是用搜索,那么为什么不直接在谷歌或百度里搜?紧接着我又发现其实当时在印象笔记里收集的网页除了极少数还是能在网上搜到,有时甚至能发现更新的版本,那么其实我不需要印象笔记作为中间商,只要公用搜索引擎就够了。在此发现下,同时也因为当时转到Linux平台,我废弃了Evernote。

不过很快我就回归了,原因在于伴随年龄阅历,我的文档中出现了越来越多仅仅对我有意义的东西,例如简历、论文还有各种报告与笔记,于是我重新启用Evernote来保存所有我创作的或搜索引擎搜不到的东西,而且Evernote是支持全文搜索的,所以此时我主要把这个软件当成自己的文献库。而这次的弃用则是因为我已经把这些内容中的大部分给放到Github上了,而且我也发现其实我绝大多数的东西都没有保密的必要,我不写日记,发表观点也都是直来直去,更重要的是目前我逐渐从知识的净流入状态扭亏为盈,可以生产一些了,而生产过程或者说资料整理的素材大都是网上可以找到的。也就是说,目前印象笔记里那些东西虽然重要,但其实我平时也用不到,这一次的弃用基本就是封箱了,以后大概只有想查大学研究生时内容时才会打开。

这就是垂直搜索,我构建了一个小数据库但全都是关于我过往的内容。其实仔细回想下,最近其实我用通用搜索引擎并不多了,多数场景我都是垂直搜索,也就是直接在信噪比高的地方获取知识。举个例子,你不会去谷歌上搜周边餐馆,这时候你会用yelp或大众点评。同样,你也不会去大众点评上搜住宿(虽然也有),你会去大的旅行平台或比价平台上找。在专业的地方搜索专业的事要比通用平台上搜“哪里有吃的”来的靠谱。也正是因为这样,当网民素质提高了,广告悖论就要消失。

广告主花钱推广产品,用户迫切想满足自己的需求,这两个场景就是搜索引擎盈利的本质原因。但如果用户与广告主的对接走的不是通用搜索而是垂直搜素,其实对双方都有利。学术界很早就实现了文献的专有数据库,在这里你使用关键词可以得到最相关的结果,甚至都没用到相似度匹配而仅仅是关键词。这里面的原因主要在于学术圈论文是有规范的,所以搜索复杂度很低。当然了,也有因为关键词分类不当导致很久每人引用的,或许学术圈可以做下SEO培训。不过这些数据库很少是免费的,而且有的双向收费,所以很多精明的商家就会搞期刊来盈利,买家也并不缺,各取所需,但这是学术评价与传播的耻辱。

垂直搜索很核心的问题就在于构建信噪比高的检索库或者知道到哪里去找,当年很流行的导航网站就是个起点,毕竟通用搜索引擎的结果不论几百页,到头来你最多也就看前几个。其实后来我观察到很多牛人的搜索引擎更简单:打电话。他们直接去问专家,连资料都不搜集,但其实也算搜集了资料,因为专家背书了。这种最传统的方法其实最高效,但问题是能用的人并不多,因为你得让专家乐意提供建议才行,而且对于大多数人能不能找到这样的专家都是问题。另一个有意思的事是,现在水货实在太多,很多人刚取得职位就被包装成了专家,而所谓的认证其实面对未知问题帮助不总是很大。

也就是说,从认知角度,垂直搜索在有些领域根本行不通。这些领域大都是新兴学科或研究前沿,属于理论不完善或根本就是形不成理论的知识,很多人只能通过经验来总结现象,很多时候根本不准或比较片面。我不是否定有些专业,只是很多领域噪音要远大于趋势,在这些领域里浪费时间很不明智。问题不在工具好坏上,而是本质上就不存在靠谱规律。但这样的专业日久天长后个人经验会达成群体共识,此时垂直搜索才有意义。

构建属于自己的经验垂直搜索引擎是很重要的,一来可以节约下次处理相似问题的时间,二来其实这属于个人核心竞争力。例如银行业的业务核心就是经营与企业的关系,银行家要去跟财团高管打高尔夫,因为这个运动很容易在轻松的氛围里听到企业家对一些事情的判断,这些判断最终会帮助银行控制借贷风险。在这里面高尔夫球构成搜索引擎,球场里的八卦信息提供了竞争力。事事找百度或谷歌其实你拿到的信息是基线信息,就是所有人都知道的事,但只有你垂直引擎里找到的才是你比其他人看法更独到的来源。可以是笔记,可以是杂志文章,也可以是某个人的电话号码或微信群,重要的是在这些地方相关信息的浓度比通用搜索引擎更高。如果某个人存在鲜明的个人风格,我想他多半具备特殊的垂直搜索引擎。

面试的一个常见问题是当你看到某个问题时,解决方案会是什么?这时候面试官关注的并不是你的答案是否正确,而关心的是你的思路是否可以处理未知问题。这类面试并不会发生在底层岗位而更多是在管理领导岗位,所以有志于从技术走向管理的同学应该多去想一下更抽象或更高层的东西,因为这是职能需要,而这个东西别人的经验往往不靠谱,需要自己打磨。垂直搜索更多是为解决疑难杂症问题服务的,如果你的行业内知识高度流程化与模块化,其实没必要焦虑自己没有垂直搜索的习惯,不过这类行业智力密集度不高,未来有可能被机器取代就是了。




https://wap.sciencenet.cn/blog-430956-1147760.html

上一篇:暴露组学的黎明
下一篇:研究生教育的灰犀牛
收藏 IP: 74.72.210.*| 热度|

1 ljxm

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 03:30

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部