经典图书引荐:《数据发掘概念与技术》、《机器学习实战》、《人工智能及其运用》、《数据库系统概论》、《算法导论》、《Web数据发掘》、《Python标准库》、《thinking in Java》、《Thinking in C++》、《数据结构》等。
(3).迷信研讨方向
需求深化学习数据发掘的实际基础,包括关联规则发掘 (Apriori和FPTree)、分类算法(C4.5、KNN、Logistic Regression、SVM等) 、聚类算法 (Kmeans、Spectral Clustering)。目的可以先吃透数据发掘10大算法各自的运用状况和优缺陷。相对SAS、SPSS来说R言语更合适科研人员The R Project for Statistical Computing,由于R软件是完全收费的,而且开放的社区环境提供多种附加工具包支持,更合适停止统计计算分析研讨。虽然目前在国内盛行度不高,但是激烈引荐。
可以尝试改进一些主流算法使其愈加疾速高效,例照完成Hadoop平台下的SVM云算法调用平台–web 工程调用hadoop集群。需求广而深的阅读世界著名会议论文跟踪热点技术。如KDD,ICML,IJCAI,Association for the Advancement of Artificial Intelligence,ICDM 等等;还有数据发掘相关范畴期刊:ACM Transactions on Knowledge Discovery from Data,IEEE Transactions on Knowledge and Data Engineering,Journal of Machine Learning Research Homepage,IEEE Xplore: Pattern Analysis and Machine Intelligence, IEEETransactions on等。可以尝试参加数据发掘比赛培育全方面处理实践成绩的才能。如Sig KDD ,Kaggle: Go from Big Data to Big Analytics等。
可以尝试为一些开源项目贡献本人的代码,比如Apache Mahout: Scalable machine learning and data mining,myrrix等(详细可以在SourceForge或GitHub.上发现更多好玩的项目)。
经典图书引荐:《机器学习》《形式分类》《统计学习实际的本质》《统计学习方法》《数据发掘适用机器学习技术》《R言语实际》,英文素质是科研人才必备的《Machine Learning: A Probabilistic Perspective》《Scaling up Machine Learning : Parallel and Distributed Approaches》《Data Mining Using SAS Enterprise Miner : A Case Study Approach》《Python for Data Analysis》等。