李斌
访问数:2499834
教育情况:南京师范大学,博士
研究领域:信息科学->计算机科学->自然语言理解与机器翻译
加为好友
发送消息
全部博文
Token为什么翻译为词元?
Token(词元)术语详解:来源、内涵、定义 Token译为 词元 ,是语言学、计算语言学、自然语言处理(NLP)领域的核心基础术语,其内涵从符号学、理论语言学的原生概念,逐步延伸至计算语言学、大模型技术场景,最终形成了国内学界统一的“词元”译法。而 Type与Token 是相伴而生的一对经典二分术语,是现代语言学、语 ...
2026-2-26 21:53
宇航人文发凡
据报道,2026年1月27日上午,中国科学院大学星际航行学院揭牌仪式在中国科学院与“两弹一星”纪念馆举行,标志该学院正式成立。中国科学院战略高技术研究局局长朱俊强院士任星际航行学院院长。 未来10至20年,是我国星际航行领域跨越式发展的关键窗口期,原始创新基础研究和技术突破将重塑深空探索格局,深刻影响国 ...
2026-2-24 09:24
2025年总结——充满奇迹 恍如一梦
2025 年总结 今年是特别辛苦的一年,完成了太多不可能完成的任务,做成了许多不可思议的事情,恍如一场梦! 奇迹般地全程线上办完了第二届古代语言处理国际会议 ALP2025 ,在墨西哥州的NAACL上举办。楔形文字、希伯来文、拉丁文、古汉语等十多种古代语言计算的学者聚在一起,讨论大模型、小模型的种种应用 ...
2026-1-21 10:28
Nature: 8000年前陶罐上的花卉图案展现了“数学知识”
按:此文很厉害,过去看陶器上的图片看不出门道,这篇论文思路甚好。 This ancient pottery holds the earliest evidence of humans doing math Flower designs on 8,000-year-old pots show “mathematical knowledge,” archaeologists say (距今近 8000 年的哈拉夫陶器上的花卉图案(部分图案已展示)显示花瓣 ...
2026-1-17 10:11
intel笔记本12-15代cpu降功耗长续航秘籍
13代Intel CPU(1370P)关闭E核心经验:极限低频办公,续航翻倍+风扇静音 本人主力机搭载1370P CPU(6P+8E),平时主要用于几个Office文档+十几个网页+写代码的轻办公场景,之前一直被“续航短(不到2小时)、发热严重、风扇一直转”困扰,cpu降频使用仍然没有什么用。偶然尝试关闭E核心后,意外解锁“续航翻倍(达到四五 ...
2025-12-27 01:16
林语堂发明的中文打字机终于找到了,已被斯坦福大学收藏
虽是旧闻,但刚刚得知,2025年,林语堂的中文打字机,终于在纽约地下室被发现了!! 跟学生讲了十几年的中文信息处理概论,年年都要讲林语堂的打字机,传言它存放在中国台北的林语堂故居, 我还专门拜托学院去台北交流的本科生去探访,结果没有找到,说书桌上只有英文打字机,还以为被工作人员收起来了。 2018年 ...
2025-12-24 21:56
中文信息处理前传之二|汉字设计的现代之路
汉字设计的现代之路 作者: 岳洁琼 / 刘钊 出版社: 河北教育出版社 出版年: 2024-6 ISBN: 9787554578278 这本书是一本难得的实物考据的图文并茂的中文信息处理领域的新书。书中梳理了汉字在信息化和数字化过程中的种种遭遇,以及诸多天才学者的发明创造。姑且将它誉为《中文信息处理前传之二》。此书内容不论,仅相 ...
2025-12-24 14:55
我国语料库和计量语言学的早期探索
1922年11月,黎锦熙在《国文学会丛刊》创刊号上发表《国语中基本语词的统计研究》一文,经常被认为是语言统计方法用于汉语研究的开始。此文确实是提出了使用科学测验和统计方法,解决汉语教育问题,在理论和方法上提出了重要的研究问题、方向和路径。不过,此文仅有4页,篇幅不大,没有给出具体的统计数据。我们可以把它 ...
2025-12-13 17:50
1920年南高师首开暑期学校|用四通八达的教育来创造一个四通八达的社会
PS:办暑期学校,南京是有历史的,且看1920南高师的暑校。 1920年2月7日,南高师组建暑期学校研究委员会,4月17日第十次校务会议上通过《暑期 学校办法案》,次日推请陶行知任暑期学校教务主任,前期准备工作就绪。《申报》自1920年6月 1日起,连续五天刊登题为“南高师暑期学校国语讲 ...
2025-12-13 10:51