jiangdm的个人博客分享 http://blog.sciencenet.cn/u/jiangdm

博文

ACM CCF 通讯2013

已有 9766 次阅读 2012-8-24 19:53 |个人分类:PhD road|系统分类:科研笔记

Contents

1
2
3
4
 
=================
[1]  
 
第 9 卷 第 9 期 2013 年 9 月
 
工业控制系统的安全性研究
   李鸿培 于 旸 忽朝俭 曹 嘉
 
关键词:工业控制系统 安全威胁 漏洞分析
 
 
   工业控制系统(industrial control systems, ICS)
 
   
工业控制系统概述
   工业控制系统一般是指由计算机设备与工业过程控制部件组成的自动控制系统
 
工业控制系统包括但不限于以下子系统或功能组件(如图2 所示):
       
 
 
 
   
 
 


##生物多样性信息学研究及应用

许哲平 马克平 崔金钟 覃海宁
 
关键词:大数据 生物多样性信息学
 
 
   open source tools: OpenModeller 在线分析和建模功能
 
   基于Hadoop 和MapReduce的快速索引及响应方案:GBIF
       
 
   GBIF 主要的工作包括:
   (1)Hadoop :基于MapReduce 框架的分布式文件系统和集群处理。
   (2)Cloudera的分布式系统。
   (3)Sqoop :一个在关系型数据库和Hadoop 之间同步的工具。
   (4)Hive :基于Hadoop 构建数据仓储,由脸谱开发并对外开源
   (5) Oozie :针对Hadoop 的管理数据进程工作的开源工作流/ 协调服务,由雅虎进行开发和开源。
 

生物多样性信息学研究及应用.pdf

 

##跨越“朦胧期”的云计算

吴朱华

 

关键词:云计算 大数据 虚拟化

 

 

   虚拟机:  Xen vs. VMware

 

 

OpenStack的生态环境

   

Hadoop生态圈的完善

 

   数据流支持的Pig

   用于结构化查询语言解析的Hive

   用于日志收集的Flume

   用于数据提取、转换和加载的Scribe

   用于实时分析的Impala

 

NewSQL的兴起

   MapReduce

       -- BigTable

       -- Percolator

       -- Megastore 和F1 Spanner

       -- Dremel

 

跨越“朦胧期”的云计算.pdf

 

##国际机器学习大会

徐旻捷 朱军

 

关键词:ICML 机器学习

 

第三十届国际机器学习大会(International Conference on Machine Learning, ICML)

3个特邀报告,每个时长90分钟,内容涉及大规模机器学习、高维采样算法及深度学习在语音识别中应用

 

这3个报告的关键字是“大、高、深”,

   -- GraphLab

   -- 理论计算机(尤其是算法设计与分析)领域对于高维空间采样的最新研究成果

   -- 深度学习在语音识别尤其是声学建模中的成功应用

 

最佳论文:    第一篇论文来源于离散组合优化,另一篇则来源于代数几何


有8场教学报告会。报告会的主题分别涉及机器学习中的次模态、深度学习、张量分解用于隐变量模型的参数估计、多目标预测、拓扑分析、多视角数据的多聚类问题、机器学习中的连接函数以及应用机器学习进行音乐
信息处理等[8]

 

   

国际机器学习大会.pdf

 

##MobiSys 2013国际会议介绍
——关注车辆通信系统设计降低能耗及定位追踪

张苏 王新兵

 

关键词:创新 应用

 

- MobiSys: The International Conference on Mobile Systems, Applications, and Services, MobiSys

 

MobiSys 重点讨论系统研究问题,特别重视在设计、建构和使用移动系统、移动应用与移动服务
方面取得创新的优异成果

 

 

   

 

 

 

 

 

##系统能力培养初探

袁春风 王帅

 

关键词:系统能力培养 教学改革 计算机系统

 

 

软、硬件协同设计的软硬件贯通人才


图1 描述了计算机系统抽象层的转换

   

   表1 给出了相关课程基本教学情况的对比总结

       

 

   学生用电子设计自动化(electronic design automation, EDA) 方式设计具有相对完整流水线的CPU

   

 

系统能力培养初探.pdf

 

 

 

 

##计算机科学各领域产出与影响力之辩

-- 如何理解计算机科学领域研究者的评价标准

 

关键词:论文产出 引用率

 

 

   

 

 

 

 

 
 
 
 

 

***
2013年第8期(总第90期) 
本期专题是城市计算。空气污染、交通拥堵、能耗增加等问题正逐步困扰生活在城市中的人们
 
##城市计算与大数据
郑宇
 
关键词:城市计算 大数据 时空数据分析
 
 
1 城市计算的基本框架及核心问题
A 基本框架
城市计算的基本框架包括城市感知及数据捕获、数据管理、城市数据分析和服务提供(如图1)。
   
 
 
 
2 城市计算的典型应用
A 城市规划
 
 
3 城市计算的主要技术
A 传感器技术
 
 
 
主流的傲慢与偏见:规则系统与机器学习
 
 
  my view: 统计 vs 逻辑
 
   
机器学习的知识瓶颈在于需要大量的训练数据集。无监督学习通常只适用于研究,缺乏实用性
 
 
##学会聪明地犯错误
戴世强
 
关键词:错误 思维逻辑 科学方法
 
   应该培养犯错的习惯。        
       应该寻求犯大错的机会。
           犯错是进步之母。
               应该学会聪明地犯错误。
 
 
   不要在犯错时用否定的态度逃避错误
       错误是学习的良机
           生物进化:尝试和错误(tria and error)
 
       负强化 (negative reinforcement)
 
       少犯错的简单方法:善于猜测
 
- 好好计划,让你在每一步都可以检查错误并且采取补救措施
 
       坦然面对错误,与大家分享尝试和错误的经验史
 
           把犯错看作常态,设法知道何时和如何犯的错
               人们若要有所追求就不能不犯错误
 
 
大小考试之后,我都让他分析考卷,只要没拿到满分,我就让他交一份“错误分析报告”,明白地告诉我:那些分数是怎么丢掉的?课程内容未全面理解?概念不清?方法不熟练?粗心大意?等等,由我
来一一核实。这使他在不断“试错”中前进,不再重犯同类错误。事实表明,这种方法行之有效。
 
 

 

================
第9卷 第7期 2013年7月
 
##科学研究中多思考本质问题
彭思龙
 
关键词:本质问题 科研成果 异想天开
 
 
研究方向: 小波分析与应用
 
   :做科研的路子只有一条,就是多思考本质问题。那么什么是本质问题?应该如何思考本质问题呢?
 
1 什么是本质问题
 
A 领域内工具的弱点
 
   小波 -> 匹配追踪 -> 稀疏表示
 
B 领域内的理论缺陷
   
   信号自适应分析方法
- 希尔伯特- 黄变换(Hilbert-Huang Transform, HTT)
   - HHT 的核心问题是形式化问题,需要一个完整的数学描述,而不能单靠经验
 
   思考领域内的理论缺陷总能带来新的思想。

C 应用问题的彻底解决
 
手边看似合适的理论或者算法工具很多,但是真正拿到应用中才发现,那些漂亮的工具大多数是花架子,没有实用价值。与其忙于思考无用的理论工具的探讨,不如瞄准实际问题。
 

通过认真思考这些问题,就能发现现有理论的不足,最终会找到解决办法,并有收获。


2 如何思考本质问题
A 去除内心的暗示
 
集体意识往往是中庸的,本质问题的解决不能靠集体意识,只能靠自己特有的思想
 
B 有持续性
 
一个本质问题的解决不只需要思想上的不断的提高,而且还需要一整套的解决方案;短暂
的研究往往只想到了其中的一点,但是由于拿不出整体的解决方案,只能半途而废。
C 善于处理失败
 
 
D 具备“异想天开”的能力
 
 
E 具备很强的联想能力
 
 

 
##CPS研究案例分析
王启新
 
关键词:CPS 系统工程 混成系统
 
信息—物理融合系统(cyber physical system, CPS)
 
1 稳定性理论在自动控制CPS设计中的应用
 
   CPS 的一大核心课题就是系统工程
 
   多版本决策的系统设计方法(N-version programming)
 
       
   Lyapunov方程
2 混成系统模型在智能电网CPS建模/验证中的应用
   混成系统建模/ 验证 (hybrid modeling/hybrid model checking)
 
   混成自动机(hybrid automata)
 
 
##CPS研究热点概述
陈铭松 黄赛杰 李昂
 
关键词:模型融合 建模语言 模型检验
 
 
CPS领域面临一个挑战:如何设计一个统一建模框架,以准确刻画开放环境下控制和计算的有机融合
 
- Ptolemy II: 一种针对异构系统离散与连续行为可视化建模的框架
   - 角色模型(actor model)
- Modelica 协会开发的开源工具OpenModelica

   - Modelica: 一种开放、面向对象的以方程为基础的语言,可跨越不同领域,方便实现复杂物理系统的建模,包括:机械、电子、电力、液压、热、控制及面向过程的子系统模型。越来越多的行业开始使用Modelica语言进行模型开发。尤其是汽车领域,例如:Audi,BMW,Daimler,Ford,Toyota,VW 等世界知名公司都在使用Modelica来开发节能汽车、改善车辆空调系统等.

   - SciLab软件也有开源的Modelica编译器,但目前只是选择性地支持Modelica,以为Scilab提供与Modelica的接口

   - SystemC: 广泛用于系统级设计,支持软硬件系统早期的体系结构探索与协同设计
 
- CPS不确定性
       
 
图2是一个自顶向下的CPS设计与验证流程
       
 
   CPS 牵涉到连续的时间与行为,容易导致状态空间爆炸问题
   

CPS研究热点概述.pdf

 

 

##CPS行为建模及其仿真验证

杨刚 杜承烈 王宇英 杨亚磊

 

关键词:CPS 行为建模 仿真验证 一体化建模平台

 

 

   CPS 的仿真反馈流程可简化为图3

           

 

   AADL 和UML2.0/SysML

CPS行为建模及其仿真验证.pdf

 

##形式化验证:从混成系统到CPS

卜磊

 

关键词:形式化验证 混成系统 CPS

 

 

 

##深度学习——机器学习领域的新热点

胡晓林 朱军

 

关键词:深度学习

 

 

1 深度学习的前世今生
A 多层感知机

   感知机(perceptron) -> 一个线性分类器

 

   把单层感知机堆成多层(称为多层感知机,如图1 所示),是可以求解线性不可分问题

 

 

   反向传播(back propagation, BP) 算法

 

   

 

- 支持向量机(support vector machine,SVM): 是一个特殊两层神经网络,但因其
具有高效的学习算法,且没有局部最优的问题

 

B. 深度信念网络 (deep belief network)

 

深度信念网络 vs. 传统的多层感知机

唯一不同的是这个网络在做有监督学习前要先做非监督学习,然后将非监督学习学到的权
值当作有监督学习的初值进行训练

 

 

   概率图模型

   

 

C. 深度学习

 

2 繁华背后的思考

   

机器学习国际会议(the International Conference on Machine Learning, ICML)、神经信息处
理系统会议(Neural Information Processing System, NIPS) 以及《IEEE 模式分析与机器智能学报》(IEEE
Transactions on Pattern Analysis and Machine Intelligence, IEEE Trans. PAMI )

 

深度学习——机器学习领域的新热点.pdf

 

 

##智能体及多智能体系统国际会议
安波
 
关键词:智能体 多智能体系统
 
 
第12届智能体及多智能体系统国际会议(International Joint Conference on Autonomous Agents
and Multi-Agent Systems, AAMAS)
 
   
 
 
 
 

 

***

第9卷 第6期 2013年6月


##做有用的学问

——从学术到企业的一个支点

胡事民

清华大学



关键词:做有用的学问 与企业合作



做有用的学问


几年的经历给我打下了深刻的烙印,一定要做有用的学问,选题一定要选有实际应用价值的。所

以在我的个人主页上,文章面向全世界公开,尽量将实验数据、代码公开。我曾经开发了一个算法,

代码全部公开,大概超过800 个单位在使用,而且一年多被引用了将近200 次,并用于腾讯公司的相

关产品中。


与企业的合作


企业要做的是有用的技术,我申请欧姆龙公司的项目的时候,

欧姆龙只要求我讲4件事情:项目介绍、相关工作、准备怎么做、时间表。

中期检查就说4 件事情,项目介绍,关键问题是什么,进展怎样,接下来的3 个

月做什么。项目半年就验收了,很简单。企业要的是真正实用的技术。


通过与腾讯的合作,我有几点感受,

第一是我们需要改变在大学里的观念。选题一定要有实际应用价值。

如果写出来的文章没人看,没人引用,产业界也不关心,那就是没用的学问。

第二是如何看技术转移。我们以前都是将自己的研究成果束之高阁,其实一点用都没有。



##学术与产业 研究与创新

李凯

普林斯顿大学


关键词:研究 创新途径


关于研究与创新有很多种定义,我最喜欢杰弗里·尼科尔森(Geoffrey Nicholson) 博士的定义:

*研究是把钱转化成知识,创新是把知识转化成钱*。


我的建议是:如果一个学者要从事产业转化(创新),最好的方法是,把研究与创新分开。如果想创

新,那你就离开高校去创业;如果你在创业的同时还想继续从事研究的话,就好像脚踏两条船,虽然

声势很大,但是状态不稳定,结果往往也不会理想。


对研究者的建议


论文用**h index**(h 因子)评价比较好。如果用发多少篇论文来衡量恐怕会束缚住研究者的“手脚”,

会让研究者不敢去研究对行业有影响的难题。


对创新者的建议


对于创新,我最希望的是做*颠覆性创新*。克莱顿·克里斯坦森(Clayton M. Christensen) 写过一本书

叫《创新者的困境》(The innovation’s Dilemma)。他在书中提到,创新的产品在短期内的质量和性能或许不是最好的,但是它拥有客户和市场。颠覆性技术可以使产品在很短的时间内达到最苛刻的使用要求。


实现创新的正确途径


以Data Domain 公司为例,分享实现创新的正确途径:

第一,只做用户必须有的产品。这里不仅指产品,也指产品的功能。

第二,技术是由市场来推动的。不是先有技术,再找市场。

第三,与最好的VC 公司合作。

当时Data Domain 考虑的是如果VC 公司对Data Domain 的产品不感兴趣的话,Data

Domain 公司就不办了。

第四,初创的团队必须有非常高的标准。

不仅团队带头人在各方面要有比较强的能力,团队的其他人也都需要有各自的特点和较

强的能力。

第五,要通力合作。不要过于主观和强调自我,确保最终的决定是团队内最好的想法。



Data Domain 公司成功的秘诀有4 点:


第一,选择最好的人。

第二,必须对市场有很好的了解,要有一个好的产品路线图。

第三,对技术的长期发展趋势要有准确的判断。

第四,要想创业成功,就要开发一个新的产品市场。





##软件定义网络: 如果我们重新设计互联网

田晓华 任丰原
 
关键词:软件定义网络 OpenFlow 开放网络
 
 
   软件定义网络”(software defined networking, SDN)
 
   OpenFlow 作为实现软件定义网络体系结构的重要协议
   
1 什么是软件定义网络
 
- 软件定义网络体系结构的特点在于网络路由器或交换机(以下统称交换机)的控制面(control plane) 与数据面(data plane) 的分离
 
   -- 传统网络体系
     交换机的控制面是通过分布式算法实现的,如链路状态算法(link state algorithm) 和距离向量算法
(distance vector algorithm) 等。这些算法将数据转发策略以路由表的形式存放在交换机上,数据面通过查
询路由表获取每一个数据包的转发规则,通常是根据数据包的IP 地址查找路由表中该地址所对应的输
出端口,然后由硬件完成缓存和转发等操作。
       当网络设备供应商制造这些传统的交换机时,负责制定转发规则的控制面和负责实际转发操作的数据面是紧密耦合、不可分割的
   -- 软件定义网络中,交换机的控制面和数据面是可以分开的(如图1 所示)
   
 
2 软件定义网络如何工作
   OpenFlow: 控制面与数据面的信息通道、通信协议和转发规则表示格式
 
   从图2 的软件定义网络实例中可以了解软件定义网络的工作流程。
       
 
 
3 软件定义网络有什么好处
 
 
 
4 软件定义网络思想的根源在哪里
   软件定义网络的核心思想是开放网络基础设施
 
 
 
 
 
##第22届国际万维网大会
刘奕群 唐杰
 
关键词:万维网 社会网络 搜索引擎 数据挖掘
 
1 会议概况
2013年5月13~17日,第22届国际万维网大(the 22nd International World Wide Web Conference,
WWW2013) 在巴西里约热内卢
 
本次大会收到来自50个国家的831篇论文投稿,最终录用125篇(录用率约15%)
 
2 研究论文
会议最热门主题:社交网络分析、网络数据挖掘、用户行为分析与个性化、网络信息安全、网络搜索等
 
- 异构数据融合相关:大数据研究 + internet
 
3 主题报告
 
 
4 最佳论文
 
   -- No Country for Old Members: User Lifecycle and Linguistic Change in Online Communities
       斯坦福大学
   
 
 
##兴趣是科学研究的源动力
——访2012 CCF青年科学家奖获得者王新兵
       
   我的主要研究方向是无线网络,该领域的研究热点变化非常快,因此,具备发现新问题和研究新方向的能力至关重要。我每次调整研究方向都遵循一个原则:**做自己感兴趣的事,而不是跟风热门**。
   无线网络研究领域以理论研究为主,从最开始脑海里闪现的灵感,到**收集资料、查阅文献、思考方法、建立模型、深入分析**,再到撰写文章、修改文章、投稿、审稿后修改完善,直至文章发表,是一个系统的过程,这个过程是严谨的。
 
   指导研究生时,也一贯遵循让学生按兴趣选题的原则。在进入课题组之前,我会给学生足够的时间去了解和熟悉这个领域的相关文献和研究方向。
 
   三人行必有我师,置身其中,才能真正体会到“教学相长”的含义。

 

   

   磨刀不误砍柴工,我对刚入学的研究生的要求是首先把基础打好。我常开玩笑说“欲练神

功,先练内功”。


   我要求学生在学习专业课程的基础上,旁听数学专业的研究生基础课程。这样做的原因是,目前许多科研方向已不满足于简单地改进现有成果,而是需要一定的超前思想和创新。这些都离不开严密的数学推理和证明,好的数学与统计基础是当前工程学科科研的重要基石。

   

   例如无线通信网络这一研究领域,就对数学基础有较高要求。在我的指导下读研究生是很辛苦的,他们不仅要具备数学专业的基础,还要具备无线通信网络领域的专业知识,更重要的是要参与科研讨论的全过程。我的每一位学生每周至少要和我讨论一次,汇报科研进展,分析下一步的工作内容。


“work hard, play hard”



 
 
 
 
##从大数据中挖掘什么?
李航
 
关键词:大数据 数据挖掘 互联网搜索 日志数据挖掘
 
 
1 “挖什么”与“怎么挖”
   大数据挖掘有两个基本问题
   -- “挖什么”(what to mine)
       从数据中抽取什么样信息、统计什么样规律,是在数据收集、处理和挖掘的全过程中要考虑的问题
   -- “怎么挖”(how to mine)
       决定怎样具体进行抽取与统计,仅限于挖掘本身
 
2 大数据挖掘的四项策略
   
A 尽量设想挖掘的场景
B 尽量多方面收集数据
 
C 尽量将数据**整合**
   让数据发挥更大作用的办法是将相关数据整合在一起
 
           图1 所示为互联网搜索中的用户行为基本模型
           
 
D 悉心观察数据特征
   美国在线公司(AOL) 隐私泄露事件是一个著名的“人肉数据挖掘”案例
 
 
3 大数据挖掘事例
 
- IEEE transition
       关注云计算领域的期刊
       面向服务的计算(service-oriented computing)
 
 
 
##MOOC:一个学生的体验与思考
肖天骏
 
关键词:MOOC 学习体验 教育变革
 
 
- MOOC, 即大规模开放在线课程
 
       author :
       -- 对知识主线的把握较差,表现为阅读文献的内化不深;
       -- 对问题之间边界的把握模糊,表现为确定不了解决当下问题所需要的知识闭包
 
   加拿大多伦多大学的神经网络(neural networks for machine learning)
   美国加州大学伯克利分校的软件即服务(software as a service)
   普林斯顿大学的初等统计(statistics one)
 
 
##自行创建类jQuery的JavaScript库
刘振兴 张楠
 
关键词:JavaScript 库
 
   HTML5载体之一的JavaScript 库
 
- 匿名函数(anonymous function,又称lambda function):指无须定义标识符(函数名)的一类函数或子程序。
- 匿名函数的优点是规避命名冲突,避免误入“全局变量是魔鬼”的陷阱
- disadvantages:
 
 
   
##软件服务的自适应与演化需求建模

刘璘


关键词:软件服务 自适应 演化
 
1 关于自适应的理解
 
2 软件自适应建模机制
   图1 给出了软件系统自适应的分类谱系,目前有参数自适应和组件自适应两种实现方法
       
 
图2 给出了自适应模型的需求和反馈工作模式
           


- 反射模型描述运行态系统与环境,并与系统保持同步关联,

- 监控器通过实时采集到的系统和环境状态更新反射模型。

- 分析器对反射模型进行分析,判断当前系统是否满足预期目标,做出是否

触发自适应过程的决策。分析器的工作逻辑在评估模型中描述,主要定义对反射模型进行分析时

用到的约束条件。


I think: reflect mechanism 我对比Java Fx

 

3 软件服务演化方法
A 变化需求分类
B 基于版本管理的方法
C 基于适配器的方法
   
D 协议与过程演化

除了接口和结构,演化还表现在协议方面,包括组件间的组合模式和流程。


I think:作者此处没有说清


- Supporting the dynamic evolution of web service protocols in service-oriented

architectures



 
 
 
 
##软件可信性与自适应软件随想
张伟 赵海燕
 
关键词:软件可信性 自适应软件 软件智能
 
 
1 人与软件的信任关系
   人与软件的信任关系可以刻画为:在特定环境中,软件的实际行为对利益攸关者主观期望的满足程度
 
 
2 如何提高软件的可信性
 
   两个问题:如何获取需求以及需求和期望的关系是什么
 
           
   
       对比美国爱德华·斯诺登爆料:“棱镜”窃听计划
       
 
           
 
 

软件可信性与自适应软件随想.pdf

 

I think:此文太玄,不解

 

 
##社会技术系统的自适应技术
毛新军 孙跃坤
 

关键词:社会技术系统 自适应系统 自适应技术
 
 
- 物理系统、社会系统和计算系统
 
   《超大规模系统—对软件的挑战》(Ultra-Large Scale System: The Software Challenge)
 
1 什么是社会技术系统
       以“健康护理系统”为例(如图1),介绍社会技术系统的构成及其特点
           
A. 技术要素
 
2 社会技术系统的适应性的特点
 
 
 
3 社会技术系统给自适应技术带来的挑战
   MAPE(monitor, analyze, plan, and execute,监控、分析、规划、执行)控制环路
 
 
4 社会技术系统的自适应技术
软件工程、自适应技术等领域出现一些新研究方向有助于推动社会技术系统自适应问题解决(见表1)
       
 
A. 基于组织的软件工程及其适应性机理
 
 
5 结论
 

社会技术系统的自适应技术.pdf

 

 

==========


***

##2013年第5期(总第87期)

本期专题是互联网时代的中文言语信息处理。


##言语链:言语生成、感知及其交互

党建武1 刘宝林1 李爱军2

1天津大学

2中国社会科学院语言研究所



**关键词**:言语生成 言语感知 言语链


“言语链”(speech chain)[2],如图1所示


- 多通道感知,即同一感觉之间的相互影响或不同感觉之间的相互联系。


##从语音识别到言语识别

柯登峰 徐 波

中国科学院自动化研究所


**关键词**:语音识别 言语识别 类人听觉信息处理


##语音识别的发展历史


- 研究大致可以概括为5个发展过程,其中形成了6 种关键技术和4 个重要模型。


###五个发展过程


- 音素识别、音节识别和单词识别主要集中在20 世纪50 年代

- 1970 年以后,研究的热点主要集中在孤立词识别和连接词识别[3,4]

   - 隐马尔科夫模型(hidden makov model,HMM) [8]



###六种关键技术


- 声学特征提取技术

- 区别特征提取技术

- 区分度模型训练技术

- 大规模声学模型训练技术

- 大规模语言模型训练技术

- 大规模解码技术


###四个重要模型

- 隐马尔科夫模型

- 多元文法模型

- 加权有限状态机

- 深度神经网络  


##言语识别与互联网环境


> 很好入门综述,若深入,可参考该文文献


##面向互联网的多言语机器翻译

黄河燕

北京理工大学


**关键词** :机器翻译方法 互联网言语信息 互联网机器翻译


- 典型的机器翻译方法

   - 应用文法规则知识的基于规则的机器翻译     - 应用实例知识的基于实例的机器翻译

   - 应用统计知识的基于统计的机器翻译

   - 综合应用多种知识及方法的多策略机器翻译

   


###基于规则的机器翻译(rule-based MT, RBMT)


依据转换规则,该方法所表达知识的层次可分为语法型、语义型、知识型及智能型,其分类结构如图1所示。




语法型系统[3]由分析模块、语法层转换模块、生成模块及知识库构成


> 类似于DSL(Domain Specific Language)转换器



###基于实例的机器翻译(example-based MT,EBMT)


- 长尾真(Makoto Nagao): 提出基于实例的机器翻译方法[7,8]

   - 核心思想: 基于已有的经验和知识,利用类比原理进行翻译

   

> 对比迁移学习呢?


- ref

   - [7] Nagao M, Tsujii J, Nakamura J.

The Japanese government project for machine translation[J]. Computational Linguistics, 1985, 11(2-3): 91~110

   - [8] SatoS, NagaoM. Toward memory-based translation[C]//Proceedings of the 13th conference on Computational linguistics- Vol 3. Association for Computational Linguistics, 1990: 247~252



##CCF 2012海外杰出贡献奖获得者华云生教授


**关键词** :科研 教学



###问 :您在海外从事科研这么多年,对于国外的科研方式您有什么可以分享的?


华云生:


- 科学研究工作是一个不断提出问题和

解决问题的过程。**选题**是科研工作的起点。因为有价值、有吸引力的课题会激发研究人员去思考、去学习、去研究。可以说,**问题**是未知世界最早的拓荒者。

- 然而,选题的目标并不是随意地选取一个研究问题,而是要选择有价值有意义而被别人**忽略**的科学问题。因此,提出一个重要而别人未研究过的科研问题往往比研究一个已被别人多次研究的题目更有**挑战**。

- 因为想找到一个有价值有创造性的课题,要有相当丰富的学习背景、学术知识和研究经验,既要懂得课题的来源,又要有一定的科学素养;既要理解选题的价值及意义,又要富有想象力。此外,对选题也要有浓厚的兴趣。在一个受欢迎选题的基础上做出改进固然有意义,但是提出一个真正原创的、对社会有意义但被其他人忽略的研究问题则更显价值。

- “种豆南山下,草盛豆苗稀。晨兴理荒秽,带月荷锄归。”在大多数情况下,要找到合适的选题需要多次的尝试和改进,甚至可能会占据总研究时间的 90%。虽说选题需要多次尝试和改进,但是好的研究侧重于对问题的关键性理解和根本性分析,而不是无休止的实验。实验只是验证假设的工具。同时,产出研究成果是研究的手段,而不是研究的最终目的。科研质量比科研成果的数量更重要。科研工作应该较少强调定量的度量标准,而应更多强调科研成果给社会带来的影响。


##对斯坦福MOOC的思考

斯蒂夫·库珀(Steve Cooper),麦赫润·撒哈米(Mehran Sahami)

译者:孙志岗 蒋泽清


- 本文译自Communications of the ACM 2013, 56(2), 28~30的"Reflections on Stanford's MOOCs"一文。


**关键词** :MOOC



> 在线教育的新希望创造了新挑战。


- 大规模开放在线课程 (massive open online course,MOOC,中文简称“慕课”)

- 成本问题 vs. 远程学生

- “斯坦福公开课”(Stanford Engineering Everywhere,SEE)

   - 麻省理工学院开放课程 (OpenCourseWare)

- MOOC三重唱——人工智能、数据库和机器学习

   - 个人创业项目 :Coursera和Uda-city

   


###认定原创和防止抄袭



###认证


###更丰富的评分手段


###个性化教育


###混合教育



##特色办会 注重品质

——中国数据库学术会议经验介绍

孟小峰

中国人民大学


- 中国数据库学术会议 (CCF NDBC) 始于 1977 年

- 从制度做起,规范流程

- 严把论文评审,端正学术风气

   - 双匿名网上评审

- 精心筹划程序,丰富会议内容

- 设立奖励环节,提升品牌意识

   - 采取“双向匿名+三级筛评+现场考察+必要回避”原则





 

 

 

#===============

***

第 9 卷 第 4 期 2013 年 4 月
 
万维网服务描述和业务流程定义语言
裘宗燕 杨红丽
关键词:万维网服务 描述语言 流程执行语言 编排描述语言
 
 
万维网服务描述语言
   WSDL
 
万维网服务业务过程执行语言
   WS-BPEL
 
 
服务编排描述语言
 
   WS-CDL

万维网服务描述和业务流程.pdf

 

##互联网编程语言

陈雨亭 周憬宇 赵建军


关键词:客户端 服务器端 编程语言

 

- 互联网编程语言 -> 通信技术、互联网技术、产业界需要及人类生活方式改变

   - examples: JavaScript,PHP, Ruby,Dart和Go等

- 互联网编程模型

   - 互联网编程模型主要包括客户端/服务器端(client/server,C/S)架构和浏览器/服务器端

(browser/server,B/S)架构

   - C/S架构: 一种通用网络编程模型,描述两个程序之间如何进行网络通信交互

       - 客户端程序是指发送请求的程序,服务器端程序是指响应请求的程序

       - 常见远程过程调用(remote procedure call,RPC)采用就是C/S架构

       - 对等网络(peer-to-peer,P2P)则是C/S架构的进一步扩充


- 参照编程模型,可将相关编程语言简单分为超文本传输协议(hypertext transfer protocol,HTTP)客户端语言和HTTP服务器端语言

   - 客户端语言

       - 描述文档结构和内容的标记语言: HTML

       - 样式语言: CSS和XSL

       - 客户端脚本语言: JavaScript和VBScript

   - 服务器端语言

       - HTTP服务器包括ApacheServer和IIS等

       - 服务器端语言: PHP和Ruby

       - 数据库访问SQL语言: 如Oracle PL/SQL


###客户端语言

- JavaScript: 作为一种在浏览器中运行的轻量级脚本语言

- JavaScript vs. Java语言区别包括

   (1)JavaScript程序由浏览器解释执行,不需要事先编译;

   (2)JavaScript是弱类型语言,变量无须使用前声明,解释器会根据变量使用情况隐式定义或转换变量类型;

   (3)JavaScript采用基于函数原型的继承方式,而非类继承。


AJAX(asynchronous JavaScript and XML,异步JavaScript)

如图2所示,页面无需重新加载,仅通过局部动态刷新,就可以给用户提供反馈信息,从而使用户与页面的交互过程更加平滑和顺畅。



- JavaScript -> NodeJS[4] -> 服务器端 + 客户端

   - JavaScript语言成为一种通用编程语言。编写一次,就可在客户端、桌面和服务器端运行相同的代码,成为该语言的一大优势。同时,JavaScript 语言还具有简单、灵活特性,一定程度上降低编写服

务器端和桌面应用的难度。


###服务器端脚本语言

ASP.NET,JSP,Perl,PHP,Python和Ruby是六种可在服务器端使用的语言。这些编程语言都是在HTML中嵌入程序片段,由语言引擎解释执行程序,产生包含执行结果的新HTML页



- ASP.NET: 微软公司提供的Web应用编程解决方案

- JSP: 基于Java技术、跨平台的Web开发解决方案

   - Struts框架

- Perl

   - Catalyst和Mojolicious

- PHP

   - Smarty框架

   - FaceBook的Hiphop可将PHP和Python程序编译成C++程序

- Python

   - Django框架

- Ruby: Rails 框架 -> MVC(模式- 视图- 控制器结构)



###新兴的互联网编程语言

- 新型编程语言,包括Chapel,X10,Clojure,Fantom,Go,Zimbu,Dart和Opa

- 支持客户端或服务器端编程

   - 客户端和服务器端使用相同的语言,也为互联网编程提供了特有的优势

- 支持互联网计算

   - 支持云计算的分布式/并行编程语言成为研究的热点

   - X10:基于Java的扩展语言,具有诸如异步、本地化、原子性和顺序性等并行特征

   - Clojure语言: 软件事务存储(software transactional memory,STM)


###互联网编程语言的发展趋势







   







   





 

互联网编程语言.pdf

 

##空间信息网络的若干关键技术

潘成胜

 

 

关键词:空间信息网络 体系结构 协议体系 

 

 

 

空间信息网络的若干关键技术.pdf

 

相关论文:

##LBS的数据处理技术

陆 锋 段滢滢 袁 文

第6 卷 第 6 期 2010 年 6 月 CCF通讯

 

 

   

   用三角测量交会原理确定移动目标的位置,如图2所示

       

 

   志愿者地理空间信息(Volunteered Geographic Information,VGI),或称为众包(Crowdsourcing)

   OpenStreetMap(http://www.openstreetmaps.org)是志愿者地理空间信息和众包的一个典型实
例。OpenStreetMap是一个可供公众自由编辑和上传下载的世界地图数据库

 

 

LBS的数据处理技术.pdf

 

 

***

第9卷 第1期 2013年1月

 
##网络视频服务的关键问题
高文
 
关键词:视频编码 移动视觉搜索
 
   ACM ComputingSurveys上发表过一篇长达57页的论文“Vlogging: A Survey of Videoblogging Technology on the Web”
 
 
网络视频编码
视频压缩
 
人类视觉
   首先研究人脑是如何工作?
 
云时代的视频编码
   移动视觉搜索的关键技术包括低比特、高区分度、可伸缩的视觉词典编码技术 (visual vocabulary
coding technologies)和分布式计算、快速搜索响应的面向移动视觉搜索的云计算平台
 
 


##视频会议中基于延迟感应的丢包隐藏

华云生


关键词:视频会议 丢包隐藏
 
 
互联网上的网络行为
   延迟抖动(delay jitters)
   丢包(l o s s)
 
   solutions:
   -- 一是视频源层面方法(source-level methods)
   -- 一个是通道层面方法(channel-level methods),也就是把缓存时间调高
 
summary:
   本文的研究过程使用了整体化分析方法(holistic approach)。
   -- 首先通过分析互联网的网络特性,设计出针对性的解决方案;
   -- 使用了临界感知差异的概念,在不影响视听觉感受的前提下提高谈话时延;
   -- 通过重新设计编解码器优先传输关键信息;
   -- 并使用丢包隐藏策略去恢复丢失或延迟的信息,提高实时编解码及传输的影音质量。
 
 
   计算机通才+ 统计专家
 
 
##移动互联网时代的语音技术
刘庆峰
 
关键词:移动互联网 语音技术
 
 
       
 
- 语音合成技术的核心研究方向聚焦在三个方面:
   第一个是如何解决难度更高的各种语气的语音合成;
   第二个是随着整个经济全球一体化的进程,要解决多语种合成的统一架构,所有的规则有人工可以加进去,机器可以自动识别,未来只要添加当地的词典库进去就可以
   第三个是多模态合成,将来不光是语音,还有整个后台的背景环境、人物表情等等,成为真正的虚拟主持人。
       
 
 
   声纹库:现在通过声纹可以知道说话人是谁,通过语种可以知道说话人来自什么地方
   
安全博弈论
   安 波
 
关键词:博弈论 安全领域 资源分配
 
   安全博弈论:博弈论在安全领域的资源分配及调度方面的理论
   经典的Stackelberg博弈模型
 
   基于贝叶斯Stackelberg博弈论的ARMOR系统
 
   ASPEN算法
   使用基于属性的偏好启发方法来确定Stackelberg博弈模型的支付函数
 
   基于Stackelberg博弈模型的PROTECT系统
 
研究挑战
   -- 可扩展性
   -- 鲁棒性
   -- 协同优化
   -- 多目标优化
 
 
   
 
 
##第二十一届国际信息与知识管理会议 CIKM
The 21st ACM International Conference on Information and Knowledge Management,CIKM 2012
 
CIKM是信息与知识管理方面的重要年会,包含三个专题:信息检索(Information Retrieval)、数据库(Database)、知识管理(Knowledge Management)
 
- Yahoo大数据分析项目Pig
   
 
***
第9卷 第2期 2013年2月
 
 
##模型检测在分布式系统中的应用
林昊翔
 
关键词:模型检测 分布式系统 MODIST
 
- 模型检测(model checking)
   - 软硬件被建模为6元Kripke结构的迁移系统(transition system)
    - 系统属性或规范被描述成线性时序逻辑(linear temporal logic, LTL)或计算树逻辑(computation tree logic, CTL)公式
 

- 模型检测器(model checker): SPIN[6]、TLC[7]、NuSMV[8]和CBMC[9]等

   

- 模型检测器 + 分布式系统 -> difficulties:

   - 绝大多数的模型检测器不能直接处理C、C++、C#等编程语言的源代码。

   - 即使用户能够为分布式系统建模,模型检测器验证的也只是系统模型而非最终实现的版本

   - 分布式系统之间差异较大,建模工作很难复用。

   - 状态空间爆炸的问题在分布式系统中尤为突出

 
- author's work: MODIST -> 可用于分布式系统的模型检测器

- 将模型检测技术应用于分布式系统的首要难题: 如何建立系统的模型和规范

   - C、C++、C#等编程语言和PROMELA这种建模语言并无本质区别,前者的编程语言功能更强大,但欠缺精确性和时序逻辑的表达能力


图1展示了MODIST的工作流程



图2展示了MODIST的系统架构。


###动作建模


- API

- MODIST挑选所有提供线程交互的API


   


###模型检测

- 模型检测就是一个状态空间遍历的过程。


图3显示了MODIST模型检测过程的伪代码


###状态空间的约简

- MODIST采用了多种手段应对状态空间爆炸的问题

   - 首先,MODIST将两个系统API之间代码划归为一个动作的做法体现了偏序归约[16]思想

   - 其次,MODIST实现了动态偏序归约(dynamic partial order reduction)的算法[17]

   - MODIST提出并实现一种全新归约算法——动态接口归约(dynamic interface reduction, DIR)[18]。


###后续工作

- PROMELA、TLA+

- 故障注入



 
##神经信息处理系统国际会议
朱军


神经信息处理系统国际会议(the Neural Information Processing Systems,NIPS)

 
 
   深度学习(deep learning)  + wavelet
 
谷歌公司的杰出架构师杰夫·狄恩(Jeff Dean)的论文“大规模分布式深层网络”(Large Scale Distributed Deep Networks)
 
 

***


[3]CCF 第9卷 第3期 2013年3月
 
##机器学习和数据挖掘在个性化推荐系统中的应用
项亮
 
关键词:推荐系统 机器学习 数据挖掘
 
 
个性化推荐系统: 一种利用用户历史数据建立用户兴趣模型、帮助用户过滤无关信息、提供最能满足用户个性化需求信息的系统
   Movielens 电影推荐系统 -> 协同过滤算法
   推荐系统的架构:
       
       -- 降维: 用户聚类
           -- 硬聚类: K-Means 和层次聚类
           -- 软聚类: 主题模型(topic model)
               -- 基于概率的主题模型, pLSA、LDA
               -- 隐因子模型(Latent Factor Model, LFM)
 
 

机器学习和数据挖掘在个性化推荐系统中的应用.pdf

 


##场景引擎:下一代推荐系统的核心模块

龚亮 刘译璟 郭志金

 

关键词:推荐系统 场景引擎 用户意图

 

意图 -> 反映用户的行为目的 -> 场景

 question: 用户意图如何计算、用户需求目标如何改变、场景又如何控制?

   

 tools: 逻辑回归和贝叶斯

 

 

 

移动情境感知的个性化推荐技术
   陈恩红1 徐 童1 田继雷2 杨 禹1
 
关键词:移动情境感知 个性化推荐
 
 
 情境: 所有与人机交互相关,用于区分标定当前特殊场景的信息
 

 

 
图2 为移动情境感知推荐的基本流程
       
 
 
   GPS-> 轨迹挖掘
 
   图3 是一个用户行为模式的实例
       
 

移动情境感知的个性化推荐技术.pdf

 

##方兴未艾的计算广告学

刘铁岩

 

关键词:互联网广告 显示广告 搜索广告

 

互联网广告生态环境中,网页出版商、广告主、广告平台和互联网用户之间是既竞争又合作的关系(如图2所示)。

   

 

 

##移动互联网广告的机遇和挑战

张中峰 元张毅 糜万军

 

关键词:移动互联网广告

 

 

                   

 

               

 

##《现代软件工程》教学心得

           邹 欣

   实用教学!

 

 

   2013 ACM网络搜索与数据挖掘国际会议

       The Sixth ACM International Conference on Web Search and Data Mining, WSDM 2013

   Duncan Watts:The Virtual Lab -〉虚拟网络对社会科学研究的影响

   Catherine Tucker:信息技术对于人类商业行为的影响。她的演讲主题是数字化时代的个人隐私保护

   杨强的“Big Data, Lifelong Machine Learning and Transfer Learning”。

       大数据洪流带来两个挑战:一方面,如何能够有效地消除噪音,从大数据中挖掘到我们想
要的知识;另一方面,当数据发生变化时,已有方法能否自动调整    

 

   WSDM 2013  最佳论文“Optimized Interleaving for Online Retrieval Evaluation”

           新的交叉评估(interleaved evaluation) 框架。

           交叉评估是在线评估的主要方法之一。

           交叉评估算法是指将同一查询下的两个排序结果以某种方式组合在一起,通过跟踪用户在交叉排序列表上的点击表现来评估排序方法的好坏。交叉算法包括排序组合算法和点击评分机制两部分。

 

 

##我最爱的十篇“实用理论”论文*
* 本文译自ACM SIGCOMM Computer Communication Review,My Ten Favorite "Practical Theory" Papers,
2008,38(2), 43~45一文。

 

关键词:协议 路由 优化 测量 调度

 

   read in free time


 

我最爱的十篇“实用理论”论文.pdf

 

CCF 通讯 2012年第8期(总第78期)关注计算摄影学,问计算摄影学与图像/视频处理有何区别呢?不明白!作者描述:
计算摄影学是一门将计算机视觉、数字信号处理、图形学等深度交叉的新兴学科。
 
 
第 8 卷 第 10 期 2012 年 10 月
 
大规模数据中心的数据存储可靠性
沈志荣 易乐天 舒继武
 
 
关键词:数据存储可靠性 大规模数据中心
 
   数据存储的可靠性研究包括磁盘阵列的可靠性和文件系统的可靠性
 
 
 
第 8 卷 第 10 期 2012 年 10 月
 
集群重复数据删除与大数据保护
   付印金 江泓
 
关键词:大数据保护 集群重复数据删除 索引优化 数据路由
 
   企业数据中心管理的数据量已从TB级上升到PB甚至EB级
 
 
重复数据删除
   可靠数据配置
           
   系统可扩展性
 
   
集群重复数据删除系统
       典型的块级在线集群重复数据删除系统架构由
备份客户端、重复数据删除服务器集群和管理服务
器三个主要部分构成,如图1所示。
       
 
   三个目标:
       -- 容量
       -- 吞吐率
       -- 扩展性
 
 
索引查询优化
   基于局部性的优化策略
       重复局部性:当一个数据块在数据流中重复出现时,该数据块在旧数据流中邻近的其他数据块也很有可能在新数据流中重现。
 
       Bloom Filter
 
       稀疏索引结构
 
 
   基于相似性的优化策略
           Extreme Binning策略
           布罗德(Broder)的最小值独立置换理论
 
数据路由策略
 
Σ-Dedupe机制
 
       
 
 
   
[11]
 
 
##异构计算需要新的操作系统抽象
李曦 陈香兰 王超 周学海
第9卷 第 11 期 2013年 11 月

关键词:线程 多核 异构 服务体/ 执行流模型
 
1 异构计算
   动态异构片上多处理器结构(dynamic heterogeneous chip multiprocessor, DHCMP)
 
2 面临的挑战
 
A. 进程/线程模型的维护开销大,效率低
 
   continuations:
       其基本思想是令线程阻塞时可以通过续体函数指定被唤醒后恢复的运行点(不一定是原阻塞点)

 
    ref: Using continuations to implement thread management and communication in operating systems
 
   
    跨地址空间调用(cross-address space-call)
 
B. 多核(众核)环境中进程/线程模型面临可扩展性问题
 
   ref: The multikernel: a new OS architecture for scalable multicore systems
           Factored operating systems (fos): the case for a scalable operating system for multicores
           Corey: an operating system for many cores
 
 
C. 动态异构多核系统的CPU差异性和在线快速重构需要新的抽象模型
 
   拓扑信息
 
D. 支持基于可重构器件的可重构计算需要新的抽象
 
   基于现场可编程门阵列(field programmable gate array, FPGA)
 
 
E. 构建支持动态异构多核(众核)平台的编程模型需要新的抽象
 
   设计并行编程模型时需要考虑的5 个关键要素: 任务划分、任务映射、数据分布、通信和同步
 
 
3 我们的工作
 
   服务体/ 执行流模型: 基于服务体、执行流、端口、小端口及核心服务体等抽象概念进行构建的,
如图3 所示
 
   question: 服务体 vs. actor
 
                   
       

 

 

 
4 总结
 
 
 
 
 
 


https://wap.sciencenet.cn/blog-468147-605654.html

上一篇:review: Towards supporting the software architecture life
下一篇:review: Deriving detailed design models from an aspect-orie
收藏 IP: 106.6.169.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-28 22:48

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部