找回密码
 立即注册
搜索

我的数据发掘之路


由于本科专业是生物信息(可以了解为生物统计学或者与基因数据相关的数据发掘学科),所以那时曾经末尾接触数据发掘,对统计也算有一定的基础。记得大二的时分,我便末尾学用matlab,然后玩弄SVM, 神经网络之类的机器学习算法做一些分析和实验。如今想想那时分能够连这些算法的基本概念都不是很明晰,算是皮毛都不懂。但有一点就是,让我对这类算法不怎 么畏惧,甚至于非常感兴味。本科的时分,发现本人对生物兴味不大,倒是对编程颇以为是,所以读研又改学了计算机。虽然换了专业,但我对数据发掘照旧兴味不 减。在研讨生阶段,触及数据发掘,机器学习,高级数据库之类的课程我的成绩都是90+, 这至少阐明我很用心。总之,读研这几年我也在不断地规划着本人的数据发掘之路。但是,数据发掘是门交叉学科,触及的内容很多,而且还需求实际联络实践,要 掌握起来其实是非常困难的。我曾经非常干练地以为,数据发掘无所不能,适用于各行各业,却忽视了数据发掘非常难以掌握的一面。首先,要构建残缺的数据发掘 实际知识体系;其次,要可以 深化到详细的行业或市场停止详细项目的实战。至于学习数据发掘的前景,引荐看看一篇博客,扒一扒这个数据发掘行业,黄油和面包。这篇文章算是资深人士对数据发掘行业一点点小小的爆料,感觉对于我这样的初学者来说,有着高屋建瓴的作用。

1发现SASlist

学习SAS 源于我当初想去金融行业做分析师的想法,而这个想法又是源自于本人的 MBTi 测试的结论。算起来末尾学sas 应该是 10 年下半年的时分,我先是买了一本《SAS 编程与数 据发掘商业案例》,后是看了《The little SAS book (3rd)》电子版,还有 SAS 认证考试 样题-123 题。我还在 saslist 上建立起了博客,分享了一些学习心得,还有找实习的一些阅历。而我对 sas 的学习阅历,也就集中在 10 年的下半年这段工夫了。后离开了11 年终, 偶然间看到统计之都上,举行第一届数据发掘应战赛的信息。我便花了 1 个多月去参加比赛,再后来便去找实习。到如今不知道本人还会不会继续学习 sas,但 saslist 的确对我的数据 发掘之路,起着承上启下的作用。在这里很容易让你融入一个学习数据分析,数据发掘的圈子,很多长辈们的精彩博文都对本人起着极大的鼓舞作用。

2数据发掘应战赛

没想到本人参加的还是全国首届数据发掘应战赛(编者注:2011年统计之都 cos.name举行),看来真不知道是本人的数据发掘之路起步早,还是国内的数据发掘起步比较晚。总之,我是抱着实战的目的来玩玩的,很惋惜的是没有组队成功,虽然中间还硬拉着 sxlion来玩了一下,不过他那时分好像的确也比较忙。从标题和资助方(世纪佳缘网)来看,这是一个典型的Web数据发掘如何做用户引荐的案例。提供的数据如下:

profile_f.txt,女性会员的材料,203843 条数据

profile_m.txt,男性会员的材料,344552 条数据

test.txt,原始数据

train.txt,原始数据

评分目的采用的是NDCG@10。对这个目的并不生疏,由于去年还选修了Web数据发掘那门课, 那位教师还是从加拿大过来的,当时听得还挺仔细,这里引荐一下他这门课的主页,还有 他指定的两本教材:《搜索引擎:信息检索实际》,《数据发掘:概念与技术》,后一本的书的作者正是他的导师。本来一看这个标题是做引荐,于是我就想到了协同过滤,试了一下又发现不行,其实这些数据是非常稀疏的而且是冷启动的,后来又尝试了回归还有SVM, 总之效果都不是太分明,感觉是本人特征选得不好。赛后,看了别人的阅历贴,居然投票是最简单有效的,可以极大地提升预测精度。反正,我也是对数据发掘都还 没入门就去参加比赛了。这次比赛算是第一次接触真实的用户数据,并且用来处理一个非常理想的成绩。对引荐用户的预测精度的提升,是可以直接带来可观的经济 效益的。这次比赛的另一个播种是,我末尾学习python和看《集体智慧编程》这本书。如今好像又有腾讯资助2012知识发现与数据发掘应战赛,感兴味可以去参与一下。

3实习与工作

saslist还有一个好处,就是可以查看到一些数据分析相关的实习和找工信息。其实,这些信息还是蛮管用的,我还因此拿到过人人网数据发掘工程师的offer。在我看来,数据分析相关的职位大致分三个板块:医药、金融和互联网。要去医药行业,可以多关注胡江堂的博客,还有中南大学统计系的本科生韩帅同窗的博客。金融行业的话,可以多关注一下人大经 济论坛等;我当初投过一家叫discover的上海公司,好像是从大摩分出来的,专做信誉卡这一块的,面试的时分假如懂sas还是有加分的,当然外企能够更注重是你这个人本身的一些基本素质。由于,我最后还是决议去互联网行业,所以我的就职阅历也都集中在几家大的互联网公司。

在刚参加完数据发掘应战赛之后,也就是去年 4月份了,那个时分很多大的IT公 司都末尾来校园招聘实习生。由于我本科毕业之后,决议读研,也没找过工作。所以,这个时分找实习,也算是为我找工作赞阅历。我投了百度的数据发掘工程师和 淘宝的广告和搜索发展部的产品经理助理职位。前者的详细状况可以参见我的博文链接,至于实习我还是去了后者,由于淘宝就在学校旁边。在淘宝的实习阅历算是 我真正意义上地走出校园,也坚定了我去互联网行 业的信心,我喜欢像淘宝这些的互联网公司里那种从上而下,自在而又年轻的氛围。也正是在淘宝的实习,让我切身体会到了互联网广告市场的盈利形式,以及如何 经过数据发掘来提升淘宝的生态平衡和盈利空间。感兴味的同窗可以去读读淘宝搜索技术博客。

4总结

我找工的阅历,其实非常地短暂,也就集中在那几家互联网公司,这里也就不细说了。值得一提的是除了我在实验室做的项目外,那次数据发掘应战赛的阅历,往往 会非常引人留意, 由于那个应战赛是非常贴近互联网公司做数据发掘的实践的。而且,参加比赛本身也阐明你本来的兴味和积极性都比较高。
最后,再总结一下我的数据发掘知识体系:
1. 统计学基础:《概率与数理统计》、《生物统计学》;

2. 编程言语与工具:SAS、Matlab、Python、R 等;互联网公司,还需求 Linux Shell, Hadoop, C++, Java 言语等;

3.数据发掘实际:《集体智慧编程》(python)、《Web数据发掘》、《SAS编程和数据发掘商业案例》,另外还引荐一些开放式课程,我仔细学习过的有 CS229(stanford 的机器学习课程);

4. 参加贴近商业的比赛或者去实习。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评2

abc5441 2018-12-16 18:28:28 来自手机 显示全部楼层
强烈关注楼主~请继续!
回复

使用道具 举报

在孤独中 2018-12-17 09:13:17 显示全部楼层
结束了嘛?有种还没完成的感觉,嘻嘻
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies