大工至善|大学至真分享 http://blog.sciencenet.cn/u/lcj2212916

博文

[转载]【机器学习开放项目】安然公司电子邮件数据集

已有 3493 次阅读 2019-2-15 10:06 |系统分类:科研笔记|文章来源:转载

安然电子邮件数据集包含大约50万封来自约150位用户的电子邮件。

The Enron E-mail data set contains about 500,000 e-mails from about 150 users.


项目思路:

你能对电子邮件的文本进行分类以确定是谁发送的吗?

* Can you classify the text of an e-mail message to decide who sent it?


该数据集是由CALO项目(一个学习和组织的认知助手)收集和准备的。

This dataset was collected and prepared by the CALO Project (A Cognitive Assistant that Learns and Organizes). 


它包含大约150位用户的数据,大部分是安然公司的高级管理层,这些用户被组织存储到文件夹中。

It contains data from about 150 users, mostly senior management of Enron, organized into folders. 


该数据集总共包含约50万条消息。

The corpus contains a total of about 0.5M messages. 


这些数据最初由联邦能源监管委员会在调查期间公布并发布到网络上。

This data was originally made public, and posted to the web, by the Federal Energy Regulatory Commission during its investigation.


该电子邮件数据集后来由麻省理工学院的Leslie Kaelbling购买,结果发现它存在一些完整性问题

The email dataset was later purchased by Leslie Kaelbling at MIT, and turned out to have a number of integrity problems. 


SRI的一些研究者,特别是Melinda Gervasio,努力纠正这些存在的问题,正是由于他们的不懈努力,数据集才可用于有效的分析。

A number of folks at SRI, notably Melinda Gervasio, worked hard to correct these problems, and it is thanks to them (not me) that the dataset is available. 


这些公开的数据集不包括附件,并且某些敏感消息已被删除,“因为受相关员工的请求,作为编辑整理工作的一部分”。

The dataset here does not include attachments, and some messages have been deleted "as part of a redaction effort due to requests from affected employees". 


数据集下载网址:

http://www.cs.cmu.edu/~enron/


更多精彩文章请关注微信号:qrcode_for_gh_60b944f6c215_258.jpg



https://wap.sciencenet.cn/blog-69686-1162289.html

上一篇:[转载]【读书2】【2014】基于MATLAB的雷达信号处理基础(第二版)——雷达散射截面的统计描述(13)
下一篇:[转载]【源码】从python获取的感知一致的色彩图谱
收藏 IP: 222.190.121.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-17 13:48

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部