找回密码
 立即注册
搜索

关于大数据与机器学习,小白和牛人之间15个典型问答精髓整理下篇

问:公司数据分析人员如何转入大数据?

答:先学一门容易入门的言语 R 或者pyhton,掌握基础后再运用它们处理数据、分析数据,我觉得这种对你切入比较容易。

问:我从事两年JavaWeb最近想转大数据这块,请问有什么直观的入门指引呢?

答:入门指引的话,不妨关注一下《大数据实战手册》这外面对大数据和Hadoop生态圈做了比较详细的引见,用来入门很不错。 我个人以为,在大数据这个范畴还是要跟个人结合,扬长避短,对于是详细做可视化,工程运用,还是分析,这个还是要看个人能否擅长和喜欢。

问:我目前次要是做一些数据统计的工作,想要往引荐系统方向发展,这块儿我该怎样学习呢?

答:引荐系统如今用的比较多的是SVM算法或协同过滤等。 这个内容在我看来其实还是贝叶斯信心网络的延伸或变种,可以看一些关于引荐系统方面的专著。

问:业界采用的大数据处理方案有哪些?

答:如今的框架相对比较成熟的有hadoop,这是做离线处理的; spark可以做离线处理和准实时处理; storm,这是做实时处理的; mahout,spark mllib,离线机器学习; scikit-learn,离线机器学习; tensorflow,torch深度学习。 除此之外还有很多框架,处理方案也是运用这些工程与其它一些开源产品做组合。

问:个人对大数据没有太多的了解,客观地以为如今的大数据都基本是以Hadoop为核心,综合其他技术,如HBase, Hive等,根据行业实践建立相应的分析模型,但不知实施大数据项目时,在不同的行业中有没有标准的技术道路以及标准的架构呢?

我个人以为不要过于纠结这些。大数据的边界怎样划分会长期没有定义,不过有一点是确定的,就是一个人工作的价值。 一个人工作的价值能否可以协助公司或者客户提高效率,消弭不确定性,减小试错成本,找出好的改进方向,这些才是价值所在。 至于某一个工具都是有适用场景的,在不同项目里停止有侧重的选择运用就可以了。

问:个人对大数据的了解就是历史数据产生了很多,然后多表查询时效率很慢,怎样用一些缓存或数据库中间件处理功能的事?

答:假如单纯从你说的这个场景来看,应该属于海量数据存储的研讨范畴。 大部分都是用相似分布式存储、表分区、索引、紧缩存储等手腕停止处理。 这个应该不属于大数据研讨的重点。

问:机器学习有哪些最新的实际知识?假如要完成机器学习,业界能否有成熟的开源方案?

答:最新的实际知识多用google停止相关论文的查询,更新还是比较快的。

机器学习开源方案有不少,我们用的是scikit-learn,是python言语的框架,曾经能处理不少成绩了。

问:在大数据范畴,机器学习首先应该是有足够多的数据来支撑其运算吧,但其实很多理想是数据量并没有到达那个级别,或者数据维度还有许多尚不被我们所认知。所以,有没有一个相对明晰的分界限,哪些状况下就可以运用机器学习,哪些还不足够呢?

答:在神经网络出现之前,对于特征抽取比较准确,解释比较明晰的范畴都是可以运用机器学习的。 在神经网络出现之后,尤其是卷积神经网络出现之后,对于形式辨认方面的加强是令人注目的。很多原来运用随机森林或者SVM都无法处理得很好的形式辨认成绩都有了停顿。 假如一定要划界限的话,我想可以从特征提取的难易程度下去做划分。假如特征很难提取,甚至特征完全不明白,则十有八九在机器学习过程中得不到令人称心的模型解

最后多说一句,小编是一名python开发工程师,这里有我本人整理了一套最新的python系统学习教程,包括从基础的python脚本到web开发、爬虫、数据分析、数据可视化、机器学习等。想要这些材料的可以关注小编,并在后台私信小编:“01”即可支付。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评4

三清山 2019-10-13 12:58:33 显示全部楼层
01
回复

使用道具 举报

heromxs 2019-10-14 11:21:39 显示全部楼层
撸过
回复

使用道具 举报

欧阳年年 2019-10-15 09:43:09 显示全部楼层
支持你哈...................................
回复

使用道具 举报

河鞋社会7 2019-10-16 09:55:53 来自手机 显示全部楼层
关注,等大神更新完了再看!楼主加油!
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies