24个提高数据技能的终极数据科学项目

2019-10-12    来源:raincent

容器云强势上线!快速搭建集群,上万Linux镜像随意使用

数据科学项目为初学者在该领域开启职业生涯提供了一个方法。不仅可以通过应用它来学习数据科学,还可以在简历上展示你的项目经历!

如今,越来越多的数据相关工作招聘要求要有相关的经验。如果你没有任何东西可以展示给他们,那么你很有可能就会错过这个工作。下面是来自不同领域的各种数据集和项目处理方法。

我们将这个列表分为三个层次,即:

初级水平:这个水平由数据集组成,使用起来相当容易,不需要复杂的数据科学技术。可以使用基本的回归或分类算法来解决它们。而且,这些数据集有足够的开放教程,可以帮助入门。在这个列表中,我们还提供了一些教程来帮助入门。你也可以查看AV的“数据科学入门”课程。

中级水平:这一水平包含了更具挑战性的数据集。它由中、大型数据集组成,这些数据集需要一定的模式识别技能。

高级水平:这个水平是最适合的人谁了解先进的主题,如神经网络,深度学习,推荐系统等,高维数据集也在这里。同时,这也是一个富有创造力的时期。看看最好的数据科学家是如何把创造力带到他们的工作和代码中的。

 

Beginner Level

1.Iris数据集

问题:根据可用属性预测花的类。

获取数据:https://archive.ics.uci.edu/ml/datasets/Iris

教程:http://www.slideshare.net/thoi_gian/iris-data-analysis-with-r

2. Loan Prediction Dataset

贷款的预测数据集

问题:预测贷款是否会被批准。

获取数据:https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/

教程:https://www.analyticsvidhya.com/blog/2016/01/complete-tutorial-learn-data-science-python-scratch-2/

3.Bigmart销售数据集

问题:预测商店的销售额。

获取数据:https://datahack.analyticsvidhya.com/contest/practice-problem-big-mart-sales-iii/

教程:https://www.analyticsvidhya.com/blog/2016/02/bigmart-sales-solution-top-20/

4. 波士顿住房数据集

预测业主自有住房的中位数。

获取数据:https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html

教程:https://www.analyticsvidhya.com/blog/2015/11/started-machine-learning-ms-excel-xl-miner/

5. 时间序列分析数据集

预测一种新的交通方式的交通流量。

获取数据:https://datahack.analyticsvidhya.com/contest/practice-problem-time-series-2/

教程:https://trainings.analyticsvidhya.com/courses/course-v1:AnalyticsVidhya+TS_101+TS_term1/about

6. 葡萄酒质量数据集

预测葡萄酒的质量。

获取数据:https://archive.ics.uci.edu/ml/datasets/Wine+Quality

教程:https://web.stanford.edu/~ilker/doc/wine_Stats315A.pdf

7.Turkiye 学生评价数据集

使用分类和聚类技术来处理数据。

获取数据:https://archive.ics.uci.edu/ml/datasets/Wine+Qualityhttps://archive.ics.uci.edu/ml/datasets/Turkiye+Student+Evaluation

教程:https://sanghosuh.github.io/research/LA_EdMining_SanghoSuh.pdf

8.身高和体重数据集

预测一个人的身高或体重。

获取数据:http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_Dinov_020108_HeightsWeights

教程:https://www3.nd.edu/~steve/computing_with_data/2_Motivation/motivate_ht_wt.html

Intermediate Level

1. 黑色星期五的数据集

预测营业额

获取数据:https://datahack.analyticsvidhya.com/contest/black-friday/

教程:https://discuss.analyticsvidhya.com/t/black-friday-data-hack-reveal-your-approach/5986

2. 活动识别数据集

预测一个人的活动类别。

获取数据:http://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones

教程:https://rstudio-pubs-static.s3.amazonaws.com/291850_859937539fb14c37b0a311db344a6016.html

3.文本挖掘数据集

根据文档的标签对文档进行分类。

获取数据:http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multilabel.html#siam-competition2007

教程:https://wtlab.um.ac.ir/images/e-library/text_mining/Survey%20of%20Text%20Mining%202%20.pdf

4. 访问历史数据集

预测用户的类别,来自美国的一个自行车共享服务。

获取数据:http://archive.ics.uci.edu/ml/machine-learning-databases/census-income-mld/

教程:https://www.analyticsvidhya.com/blog/2015/06/solution-kaggle-competition-bike-sharing-demand/

5. 歌曲数据集

预测歌曲的发行年份。

获取数据:http://archive.ics.uci.edu/ml/datasets/YearPredictionMSD

教程:http://www-personal.umich.edu/~yjli/content/projectreport.pdf

6. 人口普查和收入数据集

预测美国人口和收入。

获取数据:http://archive.ics.uci.edu/ml/machine-learning-databases/census-income-mld/

教程:https://cseweb.ucsd.edu/~jmcauley/cse190/reports/sp15/048.pdf

7. 电影镜头数据集

向用户推荐新电影。

获取数据:http://grouplens.org/datasets/movielens/1m/

教程:https://www.analyticsvidhya.com/blog/2016/06/quick-guide-build-recommendation-engine-python/

8. Twitter分类数据集

识别哪些是仇恨推文,哪些不是。

获取数据:https://datahack.analyticsvidhya.com/contest/practice-problem-twitter-sentiment-analysis/

教程:https://github.com/abdulfatir/twitter-sentiment-analysis

Advanced Level

1、图像识别数据集

从图像中识别数字。

获取数据:https://datahack.analyticsvidhya.com/contest/practice-problem-identify-the-digits/

教程:https://www.analyticsvidhya.com/blog/2016/10/an-introduction-to-implementing-neural-networks-using-tensorflow/

2. 城市合理的分类

获取数据:https://datahack.analyticsvidhya.com/contest/practice-problem-urban-sound-classification/

教程:https://www.analyticsvidhya.com/blog/2017/08/audio-voice-processing-deep-learning/

3.Vox名人数据集

从音频中分类声音的类型。

获取数据:http://www.robots.ox.ac.uk/~vgg/data/voxceleb/

教程:https://www.robots.ox.ac.uk/~vgg/publications/2017/Nagrani17/nagrani17.pdf

4. ImageNet数据集

要解决的问题取决于您下载的图像类型。

获取数据:http://image-net.org/download-imageurls

教程:http://image-net.org/download-imageurls

5. 芝加哥犯罪数据集

预测犯罪类型。

获取数据:https://data.cityofchicago.org/Public-Safety/Crimes-2001-to-present/ijzp-q8t2

教程:http://nathanwayneholt.com/mathematicalmodeling/ChicagoCrimesReport.pdf

6. 印度演员年龄数据集

检测演员的年龄。

获取数据:http://image-net.org/download-imageurls

教程:http://image-net.org/download-imageurls

7. 推荐引擎的数据集

根据用户的当前状态预测解决问题所需的时间。

获取数据:https://data.cityofchicago.org/Public-Safety/Crimes-2001-to-present/ijzp-q8t2

教程:http://nathanwayneholt.com/mathematicalmodeling/ChicagoCrimesReport.pdf

8. VisualQA数据集

使用深度学习技术来回答关于图像的开放式问题。

获取数据:http://www.visualqa.org/

教程:https://www.analyticsvidhya.com/blog/2017/06/hands-on-with-deep-learning-solution-for-age-detection-practice-problem/

标签: 数据 蒲钅  数据处理

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点!
本站所提供的图片等素材,版权归原作者所有,如需使用,请与原作者联系。

上一篇:案例分析:大数据分析推动萨顿银行向前发展

下一篇:数据湖,大数据的下一个变革!