||
两坐标轴均取对数,x轴表示3.7million唯一的标签,按照标签频率降幂排序。Y轴表示标签频率。符合幂律分布,指数为-1.15.头部表示的标签太常见而对标签推荐无价值,尾部包涵的一般是不常见的只是偶尔附带出现的标签,比如拼写错误的或者复杂词汇的。由于他们的不常见,我们希望这些特殊的标签可以在特殊例子的推荐中有用。
Figure 2 展示的是每张照片的标签数量的分布图,同样符合幂律分布。X轴表示52million张照片,按照照片数量降序排列。Y轴表示在相应照片上添加的标签的数量。幂指数是-0.33.头部表示的是已经非常详尽的注释了的照片,有多于50个标签。在这种情况下很明显已经很难提供有用的推荐了。尾部由多于15million张照片组成,只有2到3张标签。这些覆盖了64%的照片。在这部份里,我们希望可以进行有用的标签推荐。
为了分析不同原标签详尽度的照片在标签推荐系统中的行为,作者定义了四个类型。如下表Table 1.
1、 标签分类
为了找出“用户添加什么标签”的答案,作者讲Flickr的标签映射到WordNet broad categories中。标签受最高排名的分类的约束。如:London标签。根据WordNet,London属于两类:名词+地点,只得是London城市;还有名词+人,指的是小说家Jack London。在这种情况下,地名类别排名比人名更高,所以讲London标签认为是地点London。
Figure 3 显示的是Flickr标签在WordNet 最常见的分类中的分布。
作者分出了52% 的标签,还剩48% 的标签无法分类。由图可以看出,Locations的标签类是最常见的,占到28%;然后是artifacts or objects(16%)、 people or groups (13%), actions or events (9%), time (7%). 27%的other只得是属于WordNet中分类的但是不属于上述几种类型的标签。由此得出,用户不仅对照片的视觉内容加标签,还有更宽泛的内容,如照片在哪里照的,时间和行为。
标签推荐策略
标签推荐的总过程如Figure 4所示:
首先,给出一张有用户定义的标签的图片,一列有序的m个候选标签,这些候选标签是从每一个用户定义的标签中根据标签共存性(tag co-occurrence)派生出来的。这些候选标签作为标签聚合和排名的输入,最后产生一个包涵n个推荐标签的排名列表。
1、 Tag Co-occurrence
Tag co-occurrence是标签推荐方法的关键,只在当存在大量支持数据时才成立。作者将两个标签间的co-occurrence定义为这两个标签都用在同一个注释中的照片的数量。因为使用未加工的标签co-occurrence来计算两个标签间的关系的质量是没有意义的,所以作者提出了在考虑全部标签频率的基础上来标准化co-occurrence:
对称性的测量:
Jaccard 系数是衡量两个对象或集合相似性的有用方法。
不对称性的测量:
解释为一张照片在被添加了ti标签之后,被添加ti标签的概率。
通过实验表明,对称性的方法适合定义等价的标签,而非对称性的方法适合定义更为合适的多样性的标签。
1、 标签聚合和推广
在得到候选标签列表之后,就需要用标签聚合来将几个列表合并成一个排名列表。
U:用户定义的标签集合
Cu:候选标签集合
R:推荐标签集合
作者提出通过选举(voting)和加和(summing)的方法来合并列表。同时,执行重排名过程来促使候选标签有确定的性能。Voting 方法不考虑候选标签的co-occurrence的值。而summing策略使用co-occurrence来产生最后的排名。
提升(promotion):
稳定性提升(stability-promotion):——针对Figure 1 尾部不稳定的标签
本质上这是个加权函数,衡量候选标签对用户自定义标签的影响。 |u|是标签u的收集频率,Ks是一个参数,取决于训练。函数abs()返回x的绝对值。
描述性提升(descriptiveness-promotion): ——针对Figure 1 头部常见标签
这个加权函数用来重新给一个候选标签赋值,来抑制一个有非常高频率的候选标签的贡献。 Ks是一个参数,在训练中给出。
排名提升(rank-promotion):
在summing策略中作者发现co-occurrence下降的非常快。在这个算法中,作者不看co-occurrence的值,而是看对于一个给出的用户定义的标签所对应的那个候选标签c的 r位置。Kr是一个衰退参数。
结合提升函数讲一个标签对(u,c)应用到如下:
当提升函数和聚合函数结合到一起使用时,vote方法的得分函数变为:
下面通过实验来评估四种不同策略(Table 2)的性能,并通过训练集来确定四个参数 (m,kr,ks,kd)的值。
实验部分:
任务:在给出的一个Flickr照片和一个用户定义的标签集的系统中推荐那些可以很好描述这张照片的标签。在评估中作为一个排名问题来解决,例如系统检索一个标签列表,这些标签是按照作为好的描述性标签的可能性的降序排列的。在一个操作环境中,这个系统希望可以呈现出推荐的标签给用户,这样用户就可以通过从该列表中挑选相关标签来扩展注释。
照片收集:通过Flickr的API挑选了331张照片。这些照片是被专家挑选的基于一些列高水平的话题的,来确保他们通过专业技术来判断推荐的标签和照片内容的相关度。另外,确保这些照片的标签的详尽程度在所分的四个等级中(Table 1)。最后,将这些照片分成一个训练集(131张)和一个测试集(200张)。
评定:通过一个连接复审池的方法——分别从这四个策略中跳出前10个推荐的标签来构造这个池。专家再来评定这些标签的描述性:非常好,好,不好,不知道。结果是:非常好927、好984、2811不太好,289不知道。
评估度量:通过一下四个方面来度量:
Mean Reciprocal Rank(MRR):表示出在系统中一个相关标签在top排名的能力。
Success at rank k (S@k):k分别选1和5。表示在推荐的前K个标签中发现一个好的描述性标签的概率。
Precision at rank k(P@k):K=5.检索到的相关标签在全部照片中的比例。
系统调整:通过使用131张照片的训练集来调整系统的参数。Table 3 显示了最佳的参数设置和系统性能。
评估结果
聚合策略:Table 4 的上部分。Sum优于Vote。原因:Vote策略不区分在不同列表中的候选标签的位置。相反,sum策略把co-occurrence考虑进去了,把第一个co-occurrence作为一个更好的候选标签。
提升:Table 4的中间部分。 sum+和vote+的性能很相近,但是在P@5的情况下vote+要精度更高。
标签分类:Table 5.
对于sum策略,在只有1~3张标签的照片的评估结果性能要偏高。对于vote+策略,在四种分类的照片中性能分布相对均匀,相对于sum策略整体性能要高。
语义分析:
在figure 5 中我们可以得出,在未分类的统计中,用户自定义标签和用户接收的标签的跨度非常大,但是在通过worldNet分类后,它们之间的跨度基本消失或者变为很小。
Table 6中反映出,在Location这一类的标签中接受率是最高的。可见作者的系统在Location、Artifact or Object、Action or Event这几类标签的推荐中性能较高。
总结
1、 标签分布符合幂律分布。中间部分包含最适合推荐的标签。
2、在聚合一个推荐标签的排名列表时将候选标签的co-occurrence考虑进去是非常有必要的。
因为是第一次关注如何给用户加标签的文章,所以这篇主要用来入门和了解,没有太多自己的思考在里面。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-5-17 03:53
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社