|
引用本文
李金忠, 刘关俊, 闫春钢, 蒋昌俊. 排序学习研究进展与展望. 自动化学报, 2018, 44(8): 1345-1369. doi: 10.16383/j.aas.2018.c170246
LI Jin-Zhong, LIU Guan-Jun, YAN Chun-Gang, JIANG Chang-Jun. Research Advances and Prospects of Learning to Rank. ACTA AUTOMATICA SINICA, 2018, 44(8): 1345-1369. doi: 10.16383/j.aas.2018.c170246
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170246
关键词
排序学习,排序模型,机器学习,神经网络,支持向量机,树,进化算法
摘要
排序学习利用机器学习技术去训练排序模型以解决排序问题,是信息检索与机器学习交叉领域的一个新兴研究热点.越来越多的排序学习方法已经应用于实际系统中,如搜索引擎和推荐系统等.本文概括了排序学习的研究进展,并进行展望.首先,阐述了排序学习问题.然后,对排序学习方法进行了分类,并重点分析了依据训练排序模型时所采用的不同机器学习技术的排序学习方法类别.本文还介绍了一些代表性的标准排序学习数据集,对排序学习方法在若干领域的成功应用进行了总结,并归纳了一些排序学习方法软件包.最后,对排序学习的未来发展趋势和挑战进行了展望和探讨.
文章导读
随着互联网和云计算技术的迅猛发展以及网络用户规模的爆发式增长, 互联网已经步入了"大数据"时代.中国互联网信息中心发布第39次中国互联网络发展状况统计报告指出, 截至2016年12月底, 我国网页数量为2 360亿, 网民规模达7.31亿, 搜索引擎用户规模超过5.93亿.面对互联网上如此海量繁杂的网络大数据与千差万别的网络搜索用户, 传统的信息检索模型、机器学习方法在搜索引擎系统中的应用面临着极大的挑战.如何从互联网上的海量数据中, 准确、及时、高效地获取用户所需信息是信息检索研究的主要问题, 其本质即是信息的排序问题.排序是信息检索和很多实际应用如搜索引擎和推荐系统等所面临的核心问题, 排序模型在互联网搜索和推荐中起着关键作用, 其排序性能的优劣直接影响互联网用户使用搜索引擎和推荐系统的体验.因此, 针对排序技术的研究是基础且关键的研究问题之一.
传统的信息检索排序模型主要有相关性排序模型和重要性排序模型.相关性排序模型主要包括布尔模型、向量空间模型和概率检索模型(BM25和统计语言模型), 重要性排序模型主要包括PageRank算法[1]、HITS算法[2]、TrustRank算法[3]、BrowseRank算法[4]和ClickRank算法[5]等网页排名算法模型.
这些传统的排序模型的构建过程一般通过人工依据经验去调整排序模型中所涉及到的一些参数, 但这些经验参数不易调节且易产生过拟合; 另一方面, 尽管这些不同的排序模型大体上都使得排序效果得到了一定的性能提升, 但如何将不同排序模型融合在一起以构建一个性能更优的统一排序模型, 并不易于处理.同时, 随着影响排序性能的排序特征的不断增加, 排序特征已有成百上千种, 传统的排序模型的构建方法已不再适于处理如此多维和复杂的排序特征.而机器学习方法具有能自动调整参数, 融合多个模型的结果, 通过规则化的方式避免过拟合等优点.在如此背景下, 涌现了大量的研究者运用不同的机器学习技术去训练排序模型以解决信息检索中的排序问题, 并由此产生了信息检索与机器学习交叉的一个热点研究领域—排序学习(Learning to rank).排序学习就是利用机器学习方法在排序学习数据集上进行训练, 自动产生排序模型, 从而解决排序问题.和传统排序模型相比, 排序学习的优势在于对众多排序特征进行组合优化, 对相应的大量参数自动进行学习, 最终得到一个高效精准、更加优化的排序模型.
排序学习是信息检索和机器学习交叉的一个研究热点.近几年, SIGIR、WWW、WSDM、CIKM等国际顶级会议将Learning to rank作为一个主要的Session或Track, 特别是在2012年的SIGIR大会上, 最佳论文荣誉提名奖[6]和最佳学生论文奖[7]都颁给了Learning to rank方面的论文, SIGIR2015、CIKM2016、KDD2016和WSDM2016等的最佳(学生)论文奖也颁给了Learning to rank方面的论文[8-11]. 2010年, Springer期刊Information retrieval以特刊形式在其上刊登了"Learning to rank for information retrieval"[12].同年, Yahoo举办了Yahoo! Learning to Rank Challenge[13]比赛.很多知名的搜索引擎公司、推荐系统和大型电子商务平台等在很大程度上依赖于排序学习方法为用户提供高质量的搜索和推荐结果.
对排序学习的研究方兴未艾, 不仅具有重要的理论研究价值, 也具有广阔的实际应用前景.尽管排序学习在学术界取得了大量的研究成果和在工业界取得了令人瞩目的成功, 但在排序学习的研究领域中仍还有许多相关的问题有待更全面深入地探讨.鉴于此, 本文详细分析了当前排序学习的研究进展, 并重点对排序学习的发展趋势和有待深入研究的重难点进行了展望, 以示抛砖引玉.
本文第1节描述了排序学习问题; 第2节对排序学习方法进行了分类; 第3节到第5节分别归纳了排序学习的数据集、方法应用和方法软件包.第6节展望了发展趋势; 第7节对全文进行了总结.
图 1 排序学习典型框架
图 2 排序学习方法分类
排序学习是信息检索、机器学习和数据挖掘等领域中的一个重要问题, 它在当代搜索引擎和推荐系统等实际应用中占有举足轻重的地位.本文对排序学习所涉及的较多方面的研究现状和进展进行了归纳和分析, 并详细探讨了排序学习的未来发展趋势, 希望能起到抛砖引玉的作用, 能对学术界和工业界的相关研究人员提供有益帮助.期待学术界和工业界的研究者们应用更富有创造性的机器学习算法, 更神奇的排序特征, 以及更加强大的计算力, 开发高效且接地气的排序学习方法, 开创排序学习的一片新天地.
作者简介
李金忠
井冈山大学电子与信息工程学院副教授. 2017年获得同济大学博士学位.主要研究方向为机器学习, 信息检索, 智能计算, 服务计算, 大数据. E-mail: 1210510@tongji.edu.cn
刘关俊
同济大学嵌入式系统与服务计算教育部重点实验室副教授.主要研究方向为Petri网理论, 模型检测, 工作流, 离散事件系统, 网络信息服务, 信息安全. E-mail: liuguanjun@tongji.edu.cn
闫春钢
同济大学嵌入式系统与服务计算教育部重点实验室教授.主要研究方向为Petri网, 软件形式化验证, 服务计算, 可信计算, 智能计算. E-mail: yanchungang@tongji.edu.cn
蒋昌俊
同济大学嵌入式系统与服务计算教育部重点实验室教授.主要研究方向为Petri网, 并发理论, 软件形式化验证, 智能交通系统, 网格计算, 服务计算, 可信计算.本文通信作者. E-mail: cjjiang@tongji.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-5-12 07:43
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社