19个数据科学项目的免费公共数据集

2019-12-03    来源:raincent

容器云强势上线!快速搭建集群,上万Linux镜像随意使用

顺利完成数据科学项目对于从事这个行业者来说很重要,不仅能锻炼能力,同时可以作为就业面试时的经验,可以在面试过程中进行讨论,从而增加自己的竞争力。

所以找到一个合适、有趣的数据集很关键。

本文选择了不同类型和复杂程度的数据集,这些数据集是比较适合于第一个项目。(他们中的一些人也为研究项目工作!)这些数据集涵盖了各种来源:人口数据、经济数据、文本数据和公司数据。

免费的学生数据集

1、美国人口普查数据:https://www.census.gov/data.html

美国人口普查局公布了州、市甚至邮政编码级别的大量人口统计数据。对于那些对创建地理数据可视化感兴趣的学生来说,这是一个非常棒的数据集,可以在人口普查局的网站上访问。或者,可以通过API访问数据。使用该API的一个方便方法是通过choroplethr。总的来说,这些数据非常清晰和全面。

2、FBI犯罪数据:

https://ucr.fbi.gov/crime-in-the-u.s/2016/crime-in-the-u.s.-2016/topic-pages/tables/table-1

https://ucr.fbi.gov/crime-in-the-u.s/2016/crime-in-the-u.s.-2016/topic-pages/tables/table-2

美国联邦调查局犯罪数据是有趣的,是这个列表中最有趣的数据集之一。如果你对分析时间序列数据感兴趣,你可以用它来描绘20年间全国犯罪率的变化。或者,您可以从地理位置查看数据。

3、美国疾病控制与预防中心(CDC)死因:https://www.cdc.gov/datastatistics/index.html

疾病控制和预防中心维护着一个死因数据库 。数据几乎可以通过所有可以想象的方式进行细分:年龄,种族,年份等。

4、Medicare医院质量:http://seer.cancer.gov/faststats/selections.php?series=cancer

医疗保险和医疗补助服务中心(Centers for Medicare & Medicaid Services)在全美4,000多家经医疗认证的医院中维护着一个医疗质量数据库,提供了有趣的比较。

5、SEER癌症发病率:http://seer.cancer.gov/faststats/selections.php?series=cancer

美国政府也有关于癌症发病率的数据,再一次根据年龄、种族、性别、年份和其他因素进行细分。它来自国家癌症研究所的监测、流行病学和最终结果项目。

6、美国劳工统计局:http://www.bls.gov/data/

美国许多重要的经济指标(如失业率和通货膨胀率)都可以在劳工统计局的网站上找到。大部分数据可以按时间和地理位置进行分段。

7、经济分析局:http://www.bea.gov/national/index.htm

经济分析局也有国家和地区经济数据,包括国内生产总值和汇率。

8、IMF经济数据:http://data.imf.org/?sk=388DFA60-1D26-4ADE-B505-A05A558D9A42&sId=1479329328660

要获取全球金融统计数据和其他数据,请访问国际货币基金组织的网站。

9、道琼斯每周收益:http://archive.ics.uci.edu/ml/datasets/Dow+Jones+Index

预测股票价格是数据分析和机器学习的主要应用。加州大学尔湾分校(University of California, Irvine)机器学习与智能系统中心(Center for Machine Learning and Intelligent Systems)提供的道琼斯指数(Dow Jones Index)周回报率是需要研究的相关数据之一。

10、英国政府网站data .gov.uk:https://data.gov.uk/

英国政府的官方数据门户网站提供数以万计的有关犯罪、教育、交通和健康等主题的数据集。

11、安然电子邮件:http://www.cs.cmu.edu/~enron/

安然公司倒闭后,大约50万封包含信息文本和元数据的免费电子邮件被公布。这个数据集现在很出名,为文本相关的分析提供了一个很好的试验场。您还可以通过该页面探索该数据集的其他研究用途。

12、Google图书Ngrams:http://aws.amazon.com/datasets/8172056142375670

:如果您对真正的海量数据感兴趣,Ngram viewer数据集将根据大量文本源按年计算单词和短语的频率。结果文件为2.2 TB。

13、联合国儿童基金会:https://data.unicef.org/

如果有关世界各地儿童生活的数据值得关注,那么联合国儿童基金会是最可靠的来源之一。该组织的公共数据集涉及营养、免疫和教育等方面。

14、Reddit评论:https://www.reddit.com/r/datasets/comments/65o7py/updated_reddit_comment_dataset_as_torrents/

Reddit发布了一个非常有趣的数据集,记录了网站上的每一条评论。它有超过1tb的未压缩数据,所以如果你想要一个更小的数据集与Kaggle一起工作,可以在Kaggle的网站上看到2015年5月的评论。

15、维基百科:https://en.wikipedia.org/wiki/Wikipedia:Database_download#English-language_Wikipedia

除了维基媒体基金会的其他项目外,维基百科还提供下载英文文章的说明。

16、Lending Club:https://www.lendingclub.com/info/download-data.action

Lending Club提供它拒绝的贷款申请的数据,以及它发放的贷款的表现。自由数据集既适用于分类技术(给定的贷款将会违约),也适用于回归(给定的贷款将会偿还多少)。

17、沃尔玛:https://www.kaggle.com/c/walmart-recruiting-store-sales-forecasting/data

沃尔玛公布了美国各地45家商店的历史销售数据。

18、Airbnb:http://insideairbnb.com/get-the-data.html

Airbnb提供世界各地数十个城市Airbnb房源的不同数据集。

19、Yelp:https://www.yelp.com/dataset/challenge

Yelp维护一个用于个人、教育和学术目的的免费数据集。它包括了来自10个大都市地区18.9万家企业的600万条评论。欢迎学生参加Yelp的数据集挑战。

标签: 数据 蒲钅  数据集

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点!
本站所提供的图片等素材,版权归原作者所有,如需使用,请与原作者联系。

上一篇:中国大数据应用市场专题分析

下一篇:国外人工智能领域最新进展