找回密码
 立即注册
搜索

这篇文章把数据讲透了(二):数据采集


编辑导读:随着“数智化”时代的到来,我们生活中的方方面面都离不开数据,而你真的了解数据吗?本文将为你重新解读数据的概念和价值,以及数据的价值是如何在“数智化”时代下一步一步得到运用与升华的;因内容颇多,笔者将分几期为大家停止讲解。



一、前言

上一期文章中,我们曾经了解到“数据”是一个庞大的体系(如下图所示)这篇文章把数据讲透了(一):数据来源;并用了菜市场的例子,为大家讲解数据来源的含义;而明天小陈次要给大家到了指定“菜市场”后,我们怎样“买菜”,即数据采集的过程。



二、数据采集(买菜)

首先,我们先对数据采集的方式停止一个简单的分类引见,后面分别引见每一种数据采集方式需求留意的要点。



1. 按数据采集方式


线下(问卷、实地调研)——留意要点:遵照5大要素!

5个要素:

1)紧紧围绕研讨主题和目的

评价一份问卷调查优劣程度的准绳中很重要的一点就是,问卷内容能否贴合研讨主题,就算一份问卷设计得再精妙,假如与主题有关,也是毫无价值的,由于我们展开问卷调查的本质目的也是调查相关要素和调研群体背后千丝万缕的联络。

例如,调查用户称心度,普通触及到产品本身(价格、包装等)和受众特点(年龄、地域、心思满足等)两个维度。

2)标题易读、易了解、且具有普通性

问卷分发后,是需求受众停止填写的,所以问卷的易了解程度也最终决议者问卷的质量。

问卷并不是学术论文,不需求为了彰显专业素养而触及很多专业、晦涩难懂的词汇,让调查者可以真的看懂才是关键。

而普通性则指的是这个成绩的设置能否对一切受众都具普遍意义。例如,调查居民出行方式的问卷中,你以为最安全的交通工具是,A火车 B飞机 C宝马小轿车 D电动车,我们可以看到C选项不具有普遍意义,且和A、B、D不是一个维度的选项。

3)充分思索被调者特点

在运用问卷调查方式时,要充分结合被调群体的特征,来停止问卷的设置;例如针对学龄前儿童和老年人,则不宜采取书面问卷调研的方式,要充分思索到他们的言语偏好(有些老人能够普通话不标准,但方言流利)、对内容的了解才能,再派出访谈调研小组停止调研。

4)充分思索成绩排序(按部就班)

问卷成绩的设置除了思索每个成绩的规范性、合感性外,还需求思索到成绩与成绩之间的逻辑性和连接性,避免工夫、空间、人称等维度的频繁腾跃。

5)充分思索统计便利性

除了思索问卷调查的受众外,问卷设置还需求充分思索后期问卷回收后的统计分析;尽能够减少后期工作压力,变量不宜设置太多,应该用尽量少的变量高效获取标签信息,协助后期研讨定性。

线上(按数据采集端口细分为APP端和网页端)

APP端(主)——数据埋点获得相关数据:

首先,先和大家科普一下,数据埋点到底是什么?以及APP端为何要特别注重数据埋点。

其实,所谓埋点就是在用户运用APP的过程中,对他们的一系列行为数据停止搜集,以优化产品和运营;而大多APP自带服务和盈利性质(如淘宝、得到等),那么想要完成转化,引导购买就需求将“点”埋到详细的交互组件上(例如,点击跳转链接、购买按钮等),然后对PV、UV;停留工夫、跳出率、购买率等目的停止量化。

就埋点的方式而言,次要分为以下三种:

代码埋点:控件操作发生时经过预先写好的代码来发送数据,目前百度统计、友盟都提供这一服务。

下面举一个例子,例如,我们想统计淘宝APP外面加入购物车这个按钮的点击次数,则在其被点击时,可以在这个按钮对应的 OnClick 函数外面调用SDK提供的数据发送接口来发送数据。

优点:控制发送数据工夫,事情自定义属性详细记录;缺陷:工夫、人力成本大,数据传输的时效性。

可视化埋点:应用可视化交互手腕,经过可视化界面配置控件操作与事情操作发生关系,经过后台截屏的方式采集数据;例如,当用户产生多次刷新这一举动时,结合大数据算法,推算出用户的爱好并切换推送内容、产品,再经过可视化埋点,自动切换到对应的个性化引荐内容页面。



优点:成本低,速度快,产品、市场等各部门均能参与;缺陷:行为记录信息少,支持的分析方式少,减轻开发负担。

无埋点:用户展现UI界面元素时,平台会经过控件绑定触发事情,事情被触发的时分系统会有相应的接口让开发者处理这些行为;上传UI界面后,系统可以自动辨认生成控件的独一ID,ID是在程序外部生成,只需保证在不同的手机下面这些ID是一样的,就能完成用户端的无埋点数据获取。



优点:无需埋点,方便快捷;缺陷:行为记录信息少,传输压力大。

网页端——网页爬虫(python,C…):

就详细语法而言,由于运用工具不同,并不能就详细语法提供指点(大家根据本人运用的言语,在CSDN上停止搜索),但其总体方法论是分歧的。

方法论:人工确定爬取信息的维度→分析目的网站URL构成→确认爬取工具→编写程序文语→获取数据→保存于本地→后续停止数据发掘。

三、结语

本期,笔者经过一个“买菜”的例子,带着大家了解了数据采集的几种方式,置信大家有所播种!

下期,笔者讲在数据采集的基础上,为大家讲解如何应用常用工具停止数据清洗和数据清洗的几个维度!

本文由 @小陈同窗ing. 原创发布于人人都是产品经理,未经作者答应,制止转载。

题图来自Unsplash,基于CC0协议。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评8

“数字”与“数据”之间有没有本质区别?“大数字”与“大数据”由于什么不同。“体育健康技术大数字”与“体育健康大数据”彼此之间有什么本质不同?
回复

使用道具 举报

猛兽 2020-11-26 21:51:02 显示全部楼层
分享了
回复

使用道具 举报

佐鸣雪子 2020-11-26 22:00:56 显示全部楼层
分享了
回复

使用道具 举报

苏培敏 2020-11-26 22:09:05 显示全部楼层
分享了
回复

使用道具 举报

哈了少1 2020-11-26 22:14:14 显示全部楼层
分享了
回复

使用道具 举报

水木小圣 2020-11-28 07:53:54 显示全部楼层
LZ是天才,坚定完毕
回复

使用道具 举报

福和家具 2020-11-28 20:44:34 显示全部楼层
你用实力诠释了一句话,高手在民间
回复

使用道具 举报

南方沈艺 2020-11-29 15:36:20 显示全部楼层
有没有什么需要注意的?
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies