找回密码
 立即注册
搜索

24个提高知识和技能极限的机器学习项目

引见

数据迷信(机器学习)项目为你提供了一种有出路的方式来启动你在该范畴的职业。你不只可以经过运用它来学习数据迷信,还可以在本人的简历上展现一些项目!

如今,招聘人员经过他/她的工作来评价应聘者的潜力,而不是将重点放在认证上。假如你没有什么东西可以告诉他们,那也没关系!这是大多数人挣扎和错过的地方。

你以前能够曾处理过几个成绩,但是假如你无法使其表现得那么好且易于解释,那么终究有什么人会知道你的才能呢?这些项目将为你提供协助。想想你将花费在这些项目上的工夫,例如培训课程。练习花费的工夫越多,你就会变得更好!

我们确保为你提供不同范畴的各种成绩。我们以为,每个人都必须学习如何巧妙地处理大量数据,因此其中包括大型数据集。另外,我们确保一切数据集都是开放的并且可以自在访问。



有用的信息

为了协助你确定从何处末尾,我们将该列表分为3个级别,即:
    初级: 此级别包含相当容易运用的数据集,并且不需求复杂的数据迷信技术。你可以运用基本回归或分类算法来处理它们。而且,这些数据集有足够的开放教程来协助你入门。中级:此级别包含本质上更具应战性的数据集。它由中型和大型数据集组成,需求一些仔细的形式辨认技能。此外,功能工程将在这里有所作为。机器学习技术的运用没有限制;阳光下的一切都可以运用。高级:此级别最合适了解高级主题(如神经网络,深度学习,引荐系统等)的人员。此处还提供了高维数据集。另外,这是时分发挥创造力了。查看最佳数据迷信家将其带入他们的工作和代码的创造力。
目录

    初级 虹膜数据 贷款预测数据 Bigmart销售数据 波士顿住房数据 工夫序列分析数据 葡萄酒质量数据 Turkiye先生评价数据 身高体重数据中级 黑色星期五数据 人类活动辨认数据 暹罗比赛数据 行程记录数据 百万首歌曲数据 人口普查支出数据 电影镜头数据 Twitter分类数据高级 辨认你的数字 城市声响分类 Vox名人材料 ImageNet数据 芝加哥犯罪数据 印度演员数据的年龄检测 引荐引擎数据 VisualQA数据
初级

1.虹膜数据集





这能够是形式辨认文献中最通用、最简单、资源最丰富的数据集。没有什么比虹膜数据集学习分类技术更简单的了。假如你是全新的数据迷信学习生,这将成为你的终点。数据只要150行4列。

成绩:根据可用属性预测花朵的类别。

末尾:获取数据:https://archive.ics.uci.edu/ml/datasets/Iris

教程:http://www.slideshare.net/thoi_gian/iris-data-analysis-with-r

让我们看一下Iris数据,并在下面的“实时编码”窗口中构建一个Logistic回归模型。

https://id.analyticsvidhya.com/auth/login/?next=https://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills
2.贷款预测数据集





在一切行业中,保险范畴是分析和数据迷信方法最大的用途之一。该数据集使你可以从保险公司的数据集中停止操作,那外面临着哪些应战,运用了什么策略,哪些变量影响了却果等等。这是一个分类成绩。数据有615行和13列。

成绩:预测贷款能否会获得同意。

末尾:获取数据:https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/

教程:https://www.analyticsvidhya.com/blog/2016/01/complete-tutorial-learn-data-science-python-scratch-2/

让我们看一下“贷款”数据并在下面的“实时编码”窗口中构建一个Logistic回归模型。

https://id.analyticsvidhya.com/auth/login/?next=https://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills
3. Bigmart销售数据集





批发是另一个广泛运用分析来优化业务流程的行业。运用数据迷信技术可以巧妙地处理诸如产品放置,库存管理,自定义报价,产品捆绑等义务。顾名思义,该数据包含销售商店的买卖记录。这是一个回归成绩。数据具有12个变量的8523行。

成绩:预测商店的销售额。

末尾:获取数据:https://datahack.analyticsvidhya.com/contest/practice-problem-big-mart-sales-iii/

教程:https://www.analyticsvidhya.com/blog/2016/02/bigmart-sales-solution-top-20/

让我们看一下Big Mart销售数据,并在下面的“实时编码”窗口中构建线性回归模型。

https://id.analyticsvidhya.com/auth/login/?next=https://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills
4.波士顿住房数据集





这是形式辨认文献中另一个盛行的数据集。数据集来自美国波士顿的房地产行业。这是一个回归成绩。数据具有506行和14列。因此,这是一个相当小的数据集,你可以在其中尝试任何技术而不必担心笔记本电脑的内存被过度运用。

成绩:预测业主占有的房屋的价值中值。

末尾:获取数据:https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html

教程:https://www.analyticsvidhya.com/blog/2015/11/started-machine-learning-ms-excel-xl-miner/
5.工夫序列分析数据集





工夫序列是数据迷信中最常用的技术之一。它具有广泛的运用程序——天气预告,预测销售,分析逐年趋向等。此数据集特定于工夫序列,而此处的应战是以一种运输方式预测交通量。数据具有行和列。

成绩:以新的运输方式预测交通量。

末尾:获取数据:https://datahack.analyticsvidhya.com/contest/practice-problem-time-series-2/

教程:https://trainings.analyticsvidhya.com/courses/course-v1:AnalyticsVidhya+TS_101+TS_term1/about
6.葡萄酒质量数据集





这是数据迷信初学者中最受欢迎的数据集之一。它分为2个数据集。你可以对此数据执行回归和分类义务。它将测试你在不同范畴的了解才能——异常检测,特征选择和不平衡数据。该数据集中有4898行和12列。

成绩:预测葡萄酒的质量。

末尾:获取数据:https://archive.ics.uci.edu/ml/datasets/Wine+Quality

教程:https://web.stanford.edu/~ilker/doc/wine_Stats315A.pdf
7. Turkiye先生评价数据集





该数据集基于先生针对不同课程填写的评价表。它具有不同的属性,包括出勤率,难度,每个评价成绩的得分等。这是一个无监督的学习成绩。数据集有5820行和33列。

成绩:运用分类和聚类技术来处理数据。

末尾:获取数据:https://archive.ics.uci.edu/ml/datasets/Wine+Qualityhttps://archive.ics.uci.edu/ml/datasets/Turkiye+Student+Evaluation

教程:https://sanghosuh.github.io/research/LA_EdMining_SanghoSuh.pdf
8.身高和体重数据集





这是一个相当简单的成绩,非常合适刚末尾运用数据迷信的人们。这是一个回归成绩。数据集具有25,000行和3列(索引,高度和权重)。

成绩:预测一个人的身高或体重。

末尾:获取数据:http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_Dinov_020108_HeightsWeights

教程:https://www3.nd.edu/~steve/computing_with_data/2_Motivation/motivate_ht_wt.html
中级

1.黑色星期五数据集





该数据集包含在批发商店捕获的销售买卖。这是一个经典的数据集,可从多种购物体验中探求和扩展你的特殊工程技能以及日常了解才能。这是一个回归成绩。数据集具有550,069行和12列。

成绩: 预测购买金额。

末尾:获取数据:https://datahack.analyticsvidhya.com/contest/black-friday/

教程:https://discuss.analyticsvidhya.com/t/black-friday-data-hack-reveal-your-approach/5986
2.人类活动辨认数据集





该数据集是从经过嵌入式智能惯性传感器启用的智能手机捕获的30个人物的记录中搜集的。许多机器学习课程将这些数据用于教学目的。轮到你了。这是一个多分类成绩。数据集有10,299行和561列。

成绩:预测人类的活动类别。

末尾:获取数据:http://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones

教程:https://rstudio-pubs-static.s3.amazonaws.com/291850_859937539fb14c37b0a311db344a6016.html
3.文本挖​掘数据集





该数据集最后来自2007年举行的暹罗文字采矿比赛。该数据包含描画某些飞行中出现的成绩的航空安全报告。这是一个多分类的高维成绩。它具有21,519行和30,438列。

成绩:根据文档的标签对文档停止分类。

末尾:获取数据:http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multilabel.html#siam-competition2007

教程:https://wtlab.um.ac.ir/images/e-library/text_mining/Survey%20of%20Text%20Mining%202%20.pdf
4.行程历史数据集





该数据集来自美国的自行车共享服务。此数据集要求你锻炼专业数据处理技能。该数据从2010年第四季度末尾按季度提供。每个文件有7列。这是一个分类成绩。

成绩:预测用户类别。

末尾:获取数据:https://www.capitalbikeshare.com/trip-history-data

教程:https://www.analyticsvidhya.com/blog/2015/06/solution-kaggle-competition-bike-sharing-demand/
5.百万首歌曲数据集





你知道数据迷信也可以用于文娱行业吗?本人动手吧!该数据集提出了回归义务。它由5,15,345个观测值和90个变量组成。但是,这只是大约一百万首歌曲的原始数据数据库的一小部分 。

成绩:预测歌曲的发行年份。

末尾:获取数据:http://archive.ics.uci.edu/ml/datasets/YearPredictionMSD

教程:http://www-personal.umich.edu/~yjli/content/projectreport.pdf
6.人口普查支出数据集





这是一个不平衡的分类,是一个经典的机器学习成绩。你知道,机器学习已广泛用于处理不平衡的成绩,例如癌症检测,欺诈检测等。如今是时分本人动手了。数据集具有48,842行和14列。

成绩:预测美国人口的支出等级。

末尾:获取数据:http://archive.ics.uci.edu/ml/machine-learning-databases/census-income-mld/

教程:https://cseweb.ucsd.edu/~jmcauley/cse190/reports/sp15/048.pdf
7.电影镜头数据集





你能否已建立引荐系统?这是你的机会!该数据集是数据迷信行业中最受欢迎和援用最多的数据集之一。它有各种尺寸。在这里,我运用了相当小的尺寸。它在4,000部电影中获得6,000名用户的100万收视率。

成绩:向用户引荐新电影。

末尾:获取数据:http://grouplens.org/datasets/movielens/1m/

教程:https://www.analyticsvidhya.com/blog/2016/06/quick-guide-build-recommendation-engine-python/
8. Twitter分类数据集





运用Twitter数据已成为情感分析成绩不可或缺的一部分。假如你想在这一范畴为本人开拓一片天地,那么你将很乐于应对该数据集带来的应战。数据集大小为3MB,具有31,962条推文。

成绩:辨认哪些是仇恨推特,哪些不是。

末尾:获取数据:https://datahack.analyticsvidhya.com/contest/practice-problem-twitter-sentiment-analysis/

教程:https://github.com/abdulfatir/twitter-sentiment-analysis
高级

1.确定你的位数数据集





该数据集使你可以研讨,分析和辨认图像中的元素。这就是相机运用图像辨认来检测你的脸的方式!如今轮到你构建和测试该技术了。这是一个数字辨认成绩。该数据集包含7,000张28 X 28大小的图像,总计31MB。

成绩:辨认图像中的数字。

末尾:获取数据:https://datahack.analyticsvidhya.com/contest/practice-problem-identify-the-digits/

教程:https://www.analyticsvidhya.com/blog/2016/10/an-introduction-to-implementing-neural-networks-using-tensorflow/
2.城市声响分类





当你末尾机器学习之旅时,你会遇到简单的机器学习成绩,例如泰坦尼克号生活预测。但是,对于理想生活中的成绩,你照旧没有足够的练习。因此,此练习成绩旨在向你引见常规分类状况下的音频处理。该数据集包含10个类别的8,732个城市声响的声响摘录。

成绩:从音频中分类声响的类型。

末尾:获取数据:https://datahack.analyticsvidhya.com/contest/practice-problem-urban-sound-classification/

教程:https://www.analyticsvidhya.com/blog/2017/08/audio-voice-processing-deep-learning/
3. Vox名人数据集





音频处理正迅速成为深度学习的重要范畴,因此这是另一个具有应战性的成绩。此数据集用于大规模的说话人辨认,包含从YouTube视频中提取的名人所说的单词。这是用于分离和辨认语音的风趣用例。数据包含1,251位名人所说的100,000次讲话。

成绩:找出声响属于哪个名人。

末尾:获取数据:http://www.robots.ox.ac.uk/~vgg/data/voxceleb/

教程:https://www.robots.ox.ac.uk/~vgg/publications/2017/Nagrani17/nagrani17.pdf
4. ImageNet数据集





ImageNet提供了各种成绩,包括对象检测,定位,分类和屏幕解析。一切图像均可收费获得。你可以搜索任何类型的图像并围绕该图像构建项目。截止到目前,该图像引擎曾经拥有超过1500万张多种外形的图像,大小高达140GB。

成绩:要处理的成绩取决于你下载的图像类型。

末尾:获取数据:http://image-net.org/download-imageurls

教程:http://image-net.org/download-imageurls
5.芝加哥犯罪数据集





如今,每位数据迷信家都希望可以处理大型数据集。当公司在整个数据集上具有计算才能时,他们不再喜欢运用样本。该数据集为你提供了在本地计算机上处​​理大型数据集所需的实践阅历。成绩很容易,但是数据管理才是关键!该数据集具有600万个观测值。这是一个多分类成绩。

成绩:预测犯罪类型。

末尾:获取数据: https://data.cityofchicago.org/Public-Safety/Crimes-2001-to-present/ijzp-q8t2

教程:http://nathanwayneholt.com/mathematicalmodeling/ChicagoCrimesReport.pdf
6.印度演员年龄数据集





对于任何深度学习爱好者来说,这都是一个吸引人的应战。数据集包含数千个印度演员的图像,你的义务是确定他们的年龄。手动选择一切图像,并从视频帧中裁剪一切图像,这导致了比例,姿态,表情,年龄,分辨率,遮挡和化妆具有高度的可变性。训练集中有19,906张图像,测试集中有6,636张图像。

成绩:预测演员的年龄。

末尾:获取数据:http://image-net.org/download-imageurls

教程:https://www.analyticsvidhya.com/blog/2017/06/hands-on-with-deep-learning-solution-for-age-detection-practice-problem/
7.引荐引擎数据集





这是一个高级引荐系统的应战。在这个实际成绩中,将为你提供程序员的数据和他们先前已处理的成绩,以及他们处理该特定成绩所花费的工夫。作为数据迷信家,你建立的模型将协助在线评委决议下一级的成绩引荐给用户。

成绩:根据用户的当前形状,预测处理成绩所需的工夫。

末尾:获取数据:https://datahack.analyticsvidhya.com/contest/practice-problem-recommendation-engine/
8. VisualQA数据集





VisualQA是一个数据集,其中包含有关图像的开放式成绩。这些成绩需求有对计算机视觉和言语的了解。这个成绩有一个自动的评价目的。数据集包含265,016张图像,每张图像3个成绩,每个成绩10个真实答案。

成绩:运用深度学习技术回答有关图像的开放性成绩。

末尾:获取数据:http://www.visualqa.org/

教程:https://arxiv.org/abs/1708.02711
尾注

在下面列出的24个数据集中,你应该首先找到一个与你的技能组婚配的数据集。假如你是机器学习的初学者,请避免从一末尾就运用高级数据集。不要咬一个超过你咀嚼才能的东西,不要对照旧要做的事情感到不知所措。相反,应专注于逐渐获得停顿。

完成2-3个项目后,在简历和GitHub个人材料上展现它们(非常重要!)。如今,许多招聘人员经过检查GitHub个人材料来招聘候选人。你的动机不应该是完成一切项目,而应根据要处理的成绩,范畴和数据集大小挑选出一些项目。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评7

只剩想念 2020-10-29 13:54:17 显示全部楼层
凶猛了
回复

使用道具 举报

劳追居何 2020-10-29 14:02:48 显示全部楼层
分享了
回复

使用道具 举报

linux_oicq 2020-10-29 14:10:03 显示全部楼层
分享了
回复

使用道具 举报

chriszc 2020-10-29 14:16:41 显示全部楼层
分享了
回复

使用道具 举报

喜喜1234 2020-10-30 09:30:15 显示全部楼层
来啊,互相伤害啊
回复

使用道具 举报

尕燕子 2020-10-30 21:37:31 来自手机 显示全部楼层
小白一个 顶一下
回复

使用道具 举报

决爱天使 2020-10-31 21:49:11 来自手机 显示全部楼层
很看好这个
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies