近年来,多模态数据的大规模融合、基于Transformer的表征技术以及人工智能的进步,深刻改变了自然语言处理的研究范式。这些发展强化了自然语言处理的跨学科属性,涵盖数据科学、语言学、认知科学和数字人文。尽管大语言模型取得了令人瞩目的成功,自然语言处理前沿技术仍然有赖于高质量的数据和语言学理论的指导,以确保模型的鲁棒性、可解释性和泛化性。因此,对认知与感知行为的表征、具身性表达以及关联数据基础设施的探索至关重要。这不仅仅是追求模型性能的比赛,更是发展人性化、可解释、符合伦理道德且安全可控的语言技术的核心所在。
Data 特邀来自香港理工大学的万明瑜博士和黄居仁教授创建特刊“大数据时代的自然语言处理”。本特刊旨在汇集大数据时代自然语言处理的高质量研究,秉承本刊推动大数据科学研究的宗旨,重点探讨如何将大规模数据集、表征学习和人工智能与认知语言学等学科融合,以构建高效、稳健、安全、可解释的自然语言处理系统。
特刊主题包括但不限于:
(1) 用于自然语言处理的数据质控、整理与标注;
(2) 语料库语言学和数据驱动的语言分析;
(3) 基于语言学基础的表征学习和大型语言模型;
(4) 面向认知、感知及具身表达的自然语言处理;
(5) 关联开放数据与知识增强的语言技术。
我们欢迎提交原创研究论文、综述文章、短篇通讯及数据驱动类相关稿件,要求研究方法创新、具备实证见解或可复用资源,且主题与本特刊范围相符。所有稿件须为原创未发表成果,未在其他刊物或会议中投稿或发表。欲了解更多信息,请访问期刊网站或联系特邀编辑。
我们期待收到您的贡献,共同探索与突破大数据时代自然语言处理的关键问题。
投稿截止日期:2026年9月30日
客座编辑
黄居仁 教授(香港理工大学)
黄居仁教授,香港理工大学语言科学与技术学系 (前中文及双语学系) 讲座教授,康奈尔大学语言学博士。其研究包括人工智能与语言的深度融合,涵盖汉语语言学、语料库语言学、自然语言处理、语言知识本体与数字人文,致力于以 AI 技术重构中文语言资源与文化知识,在国际语言科技领域具有广泛而深远的影响。2024-2025年获评计算语言学/人工智能领域全球引用量 (生涯累计) 前2%学者。
研究兴趣:汉语语言学;计算语言学;语料库语言学;词汇语义学;语言技术;人工智能
万明瑜 博士(香港理工大学)
万明瑜博士,计算语言学博士,电子工程学士及硕士。现任教于香港理工大学语言科学与技术学系。研究方向涵盖自然语言处理、语言的认知与情感建模,以及数据驱动的谎言及隐喻分析。教学方面,万博士主要负责 MScGAH 硕士课程的教学与课程开发;研究方面,其成果发表于多个国际知名期刊及国际会议,并积极参与学术期刊编辑与专业评审事务。
研究兴趣:自然语言处理;人工智能;数字人文;数据科学;语料库语言学
了解更多特刊信息:https://www.mdpi.com/journal/data/special_issues/EL33J55Y9Z
Data 期刊介绍
主编:Prof. Dr. Jamal Jokar Arsanjani, Aalborg University Copenhagen, Denmark
期刊主要发表数据科学领域相关论文,旨在提高数据透明度和可重用性。期刊发表范围涵盖多学科数据集和描述,数据处理方法及数据应用等。自2016年创刊以来,期刊已被ESCI-Web of Science、Scopus (2024 Citescore 5.0, Q2)、Ei Compendex等权威数据库收录。
2024 Impact Factor:2.0
2024 CiteScore:5.0
Time to First Decision:25 Days
Acceptance to Publication:2.9 Days
期刊主页:https://www.mdpi.com/journal/data

转载本文请联系原作者获取授权,同时请注明本文来自MDPI开放科学科学网博客。
链接地址:https://wap.sciencenet.cn/blog-3516770-1525450.html?mobile=1
收藏