大数据特性
<p>[TOC]</p>
<h1>特点</h1>
<p><img src="https://www.showdoc.com.cn/server/api/attachment/visitfile/sign/b778fa638df7a9a91e2c996eeb9db754" alt="" />
1,Volume: 数据体量大
2,Variety: 数据类型多样
3,Value: 价值密度低,商业价值高
4,Veloctity: 数据产生速度快,要求输入输出的速度快
5,Veracity: 数据准确和可信赖</p>
<h1>指标和术语</h1>
<p>数据分析总是离不开各种指标和术语,最近我花了一周整理了共120个数据分析指标与术语:用户数据指标、行为数据指标、业务数据指标、数据分析术语、统计学常用语、数据报告常用术语。
<img src="https://www.showdoc.com.cn/server/api/attachment/visitFile?sign=5968022cf3af9234dcf9740b58515ae5" alt="" /></p>
<p>用户数据指标</p>
<p>IP、UV、PV、VV</p>
<p>IP(Internet Protocol):独立IP数。</p>
<p>UV(Unique Visitor):独立访问客数。</p>
<p>PV(Page View):页面浏览量/阅读量。</p>
<p>VV(Visit View):访问次数。</p>
<p>注:在对视频产品的数据分析中,VV(Video View)是播放类指标,是指在一个统计周期内,视频被打开的次数之和。</p>
<p>DAU(Daily Active User):日活跃用户数</p>
<p>MAU(Monthly Active users):月活跃用户数</p>
<p>DNU(Day New User):日新增用户。</p>
<p>活跃留存率:指某日新增用户在其后N日仍启动该APP的用户数,占所选日期新增用户数的比例。
<img src="https://www.showdoc.com.cn/server/api/attachment/visitFile?sign=7b3169e4c307ca9d8780acbb8695ed30" alt="" />
TGI(Target Group Index):目标群体指数。
<img src="https://www.showdoc.com.cn/server/api/attachment/visitFile?sign=af354b6fd1fc175f0cb806b909971522" alt="" />
TGI指数高于100,代表该类用户该特征比例高于整体水平,即具有更高的相关倾向或偏好;小于100,则说明该类用户相关倾向较弱;等于100表示在平均水平。</p>
<p>TGI指数常用于用户画像的评判中,它可以清晰地反映不同群体某一特征的关联程度,并进行直观的比较,挖掘更多潜在的用户价值。
<img src="https://www.showdoc.com.cn/server/api/attachment/visitFile?sign=2730ae4084d1f471747324b8b3cd6368" alt="" />
行为数据指标</p>
<p>之前我曾经总结过用户行为分析的5类指标,这里的行为数据指标便直接引用前文[1]。</p>
<p>用户访问类的指标有13个:PV、UV、DV、日新增用户数、获客成本、用户访问时长、人均页面访问量、人均浏览页数、平均访问页面、访问来源、平均停留时间、跳出率、搜索访问次数占比。(其中PV、UV、日新增用户数前文已介绍,其余指标具体含义如下图所示。)
<img src="https://www.showdoc.com.cn/server/api/attachment/visitFile?sign=92649b3dd6a0c3681d3347759d2559fc" alt="" /></p>
<p>用户转化类指标共有15个:最近购买间隔、购买频率、购买商品种类、平均每次消费额、单次最高消费额、日应用下载量、一次会话用户数、用户会话次数、漏斗转化—第一步进入次数、漏斗转化—中间步进入次数(漏斗中)、进漏斗转化—进入率(漏斗中)、漏斗转化—进入次数(漏斗中)、漏斗转化—进入率(漏斗中)、漏斗转化—退出次数、漏斗转化—退出率,这些指标具体含义如下图所示。
<img src="https://www.showdoc.com.cn/server/api/attachment/visitFile?sign=2c0daea223cd16f506369dfa9903cfcd" alt="" />
△点击查看大图</p>
<p>用户留存类指标共有15个:用户留存率、渠道留存率、次日留存率、退出率、活跃度、活动参与率、活跃交易用户数、DAU、MAU、用户回访率、用户流失率、功能使用率、GMV、复购率、退货率,这些指标具体含义如下图所示。
<img src="https://www.showdoc.com.cn/server/api/attachment/visitFile?sign=8d2a20aa22a3c50f1d204e589b01c402" alt="" />
△点击查看大图</p>
<p>用户社交类指标共有8个:好友数量、帖子数量、看帖数量、回复数量、分享数量、点赞数量、转发数量、评论数量,这些指标具体含义如下图所示。
<img src="https://www.showdoc.com.cn/server/api/attachment/visitFile?sign=6f7b03ffc10ba42be1379315c074cc03" alt="" />
△点击查看大图
业务数据指标</p>
<p>互联网线上推广渠道总体上可以分为5种类型:原生广告类社交媒体、普通社交媒体、搜索引擎、软件商店和换量联盟。</p>
<p>渠道投放相关的数据指标有:曝光量、CPM、CPC、CPA和ROI,这5个指标的具体含义如下图所示。
<img src="https://www.showdoc.com.cn/server/api/attachment/visitFile?sign=8d602a08628ef9264f63095578ec5091" alt="" />
△点击查看大图</p>
<p>此外,还有指标ARPU与ARRPU,这二者分别的含义为:</p>
<p>ARPU(Average Revenue Per User):每用户平均收入。</p>
<p>ARRPU(Average Revenue Per Paying User):每付费用户平均收益。</p>
<p>最后,关于广告渠道投放的常见CPM、CPC、CPA等指标,还包括以下6个指标。</p>
<p>CTR(click through rate):点击率,是衡量广告效果非常重要的一个指标:内容被点击的次数/内容展现的次数。
<img src="https://www.showdoc.com.cn/server/api/attachment/visitFile?sign=6d9cf78fb64eee42948342563077f6a8" alt="" />
CVR(Click Value Rate):转化率【衡量CPA广告效果的指标】</p>
<p>CAC(Customer Acquisition Cost):获客成本【获取一个客户所花费的成本】</p>
<p>CPR(Cost Per Response):每回应成本【以浏览者的每一个回应计费】</p>
<p>ADPV(Advertisement Page View):载有广告的pa-geview流量</p>
<p>ADimp(ADimpression):单个广告的展示次数</p>
<p>数据分析术语
<img src="https://www.showdoc.com.cn/server/api/attachment/visitFile?sign=93a71ed81f96a9d9304c8668d0e1863b" alt="" />
用户画像简单来说,用户画像是根据用户的社会属性、生活习惯、消费行为等信息而抽象得出的一个标签化用户模型。勾画用户画像的核心在于给用户贴“标签”。(涉及的元素比如用户的姓名、年龄、收入、喜好、购物习惯等等)</p>
<p>海盗模型(AARRR)获取用户(Acquisition)、提高活跃度(Activation)、提高留存率(Retention)、获取收入(Reve-nue)、自传播(Refer),这个五个单词的缩写,分别对应用户生命周期中的5个重要环节。</p>
<p>RARRA模型
<img src="https://www.showdoc.com.cn/server/api/attachment/visitFile?sign=a50fc0061640932b7fc5b8d3737692e2" alt="" />
AARRR模型的核心在于获客,而在RARRA的模型下,专注用户的留存。</p>
<p>OSM模型</p>
<p>OSM模型(Object-Strategy-Measure)就是把宏大的目标拆解,[对应到部门内各个小组具体的、可落地、可度量的行为上,从保证执行计划没有偏离大方向](<a href="http://www.woshipm.com/pd/4356866.html">http://www.woshipm.com/pd/4356866.html</a> 《OSM模型,最接地气的业务分析框架》)。</p>
<p>UJM模型
<img src="https://www.showdoc.com.cn/server/api/attachment/visitFile?sign=b3f9beb490793926c6790e45ff1992b8" alt="" />
UJM模型(User Journey Map,用户旅程地图)就是我们在设计一款产品的过程中,必须要去梳理的用户生命旅程。</p>
<p>RFM</p>
<p>根据客户的交易频次和交易额衡量客户的价值,对客户进行细分。RFM是衡量客户价值的三个维度,分别为R(Recency)交易间隔、F(Frequency)交易频度、M(Monetary)交易金额组成。</p>
<p>ABTest
<img src="https://www.showdoc.com.cn/server/api/attachment/visitFile?sign=b6c939ecc31cfc40faf43197a8b69dfc" alt="" />
AB测试是为APP或Web的界面/流程制作两个(A/B)或多个(A/B/n)版本,在同一时间维度中,分别让组成成分相同/相似的访客群组(目标人群)随机的访问这些版本,收集各群组的用户体验数据和业务数据,最后分析、评估出最优版本,正式采用。</p>
<p>数据埋点</p>
<p>数据埋点是一种常用的数据采集方法,是数据产品经理、数据运营以及数据分析师,基于业务需求或产品需求对用户在应用内产生行为的每一个事件对应的页面和位置植入相关代码,并通过采集工具上报统计数据,以便相关人员追踪用户行为和应用使用情况,推动产品优化或指导运营的一项工程[2]。</p>
<p>用户生命周期价值</p>
<p>LTV(life time value)也就是用户生命周期价值,是产品从用户获取到流失所得到的全部收益的总和。LTV用于衡量用户对产品所产生的价值,是所有用户运营手段为了改善的终极指标,同时LTV也应该是所有运营手段的最终衡量指标。</p>
<p>归因分析
<img src="https://www.showdoc.com.cn/server/api/attachment/visitFile?sign=66e4d488aa4f20f1f76b5db3e7fbd471" alt="" />
在数据时代,广告的投放效果评估往往会产生很多的问题。而归因分析(Attribution Analysis)要解决的问题就是广告效果的产生,其功劳应该如何合理的分配给哪些渠道[3]。</p>
<p>统计学常用语</p>
<p>绝对数和相对数</p>
<p>绝对数:是反应客观现象总体在一定时间、一定地点下的总规模、总水平的综合性指标,也是数据分析中常用的指标。比如年GDP,总人口等等[4]。</p>
<p>相对数:是指两个有联系的指标计算而得出的数值,它是反应客观现象之间的数量联系紧密程度的综合指标。相对数一般以倍数、百分数等表示。相对数的计算公式:</p>
<p>相对数=比较值(比数)/基础值(基数)</p>
<p>百分比和百分点</p>
<p>百分比:是相对数中的一种,它表示一个数是另一个数的百分之几,也称为百分率或百分数。百分比的分母是100,也就是用1%作为度量单位,因此便于比较。</p>
<p>百分点:是指不同时期以百分数的形式表示的相对指标的变动幅度,1%等于1个百分点。</p>
<p>频数和频率
<img src="https://www.showdoc.com.cn/server/api/attachment/visitFile?sign=d66cbf47ab488c08c77f58f27233602e" alt="" />
频数:一个数据在整体中出现的次数。</p>
<p>频率:某一事件发生的次数与总的事件数之比。频率通常用比例或百分数表示。</p>
<p>比例与比率</p>
<p>比例:是指在总体中各数据占总体的比重,通常反映总体的构成和比例,即部分与整体之间的关系。</p>
<p>比率:是样本(或总体)中各不同类别数据之间的比值,由于比率不是部分与整体之间的对比关系,因而比值可能大于1。</p>
<p>变量</p>
<p>变量来源于数学,是计算机语言中能储存计算结果或能表示值抽象概念。变量可以通过变量名访问。</p>
<p>连续变量</p>
<p>在统计学中,变量按变量值是否连续可分为连续变量与离散变量两种。在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。如:年龄、体重等变量。</p>
<p>离散变量</p>
<p>离散变量的各变量值之间都是以整数断开的,如人数、工厂数、机器台数等,都只能按整数计算。离散变量的数值只能用计数的方法取得。</p>
<p>定性变量</p>
<p>又名分类变量:观测的个体只能归属于几种互不相容类别中的一种时,一般是用非数字来表达其类别,这样的观测数据称为定性变量。可以理解成可以分类别的变量,如学历、性别、婚否等。</p>
<p>均值
<img src="https://www.showdoc.com.cn/server/api/attachment/visitFile?sign=3ced67feee6116220193649e7e830343" alt="" />
即平均值,平均数是表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数。</p>
<p>中位数</p>
<p>对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。</p>
<p>缺失值</p>
<p>它指的是现有数据集中某个或某些属性的值是不完全的。</p>
<p>异常值</p>
<p>指一组测定值中与平均值的偏差超过两倍标准差的测定值,与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。</p>
<p>方差</p>
<p>是衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。在许多实际问题中,研究方差即偏离程度有着重要意义。方差是衡量源数据和期望值相差的度量值。</p>
<p>标准差</p>
<p>又常称均方差,是离均差平方的算术平均数的平方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。</p>
<p>皮尔森相关系数</p>
<p>皮尔森相关系数是用来反映两个变量线性相关程度的统计量。相关系数用r表示,其中n为样本量,分别为两个变量的观测值和均值。r描述的是两个变量间线性相关强弱的程度。r的绝对值越大表明相关性越强。</p>
<p>数据报告常用术语</p>
<p>倍数和番数</p>
<p>倍数:用一个数据除以另一个数据获得,倍数一般用来表示上升、增长幅度,一般不表示减少幅度。</p>
<p>翻n番:指原来数量的2的n次方。</p>
<p>同比和环比
<img src="https://www.showdoc.com.cn/server/api/attachment/visitFile?sign=9257c4600eb6f3b4a152264d7b191791" alt="" />
同比:指的是与历史同时期的数据相比较而获得的比值,反应事物发展的相对性。</p>
<p>环比:指与上一个统计时期的值进行对比获得的值,主要反映事物的逐期发展的情况。</p>
<p>增量:增长的绝对量=现期量-基期量</p>
<p>增速:增长速度=(现期量-基期量)÷基期量</p>
<p>增长率:增量与基期量之比。</p>
<p>增幅:即增长的幅度,也可理解为增量。</p>
<p>基期和现期</p>
<p>基期:被用作参照物的时期称为基期,描述基期的量即为基期量。</p>
<p>现期:相对于基期的称为现期,描述现期的量即为现期量。</p>
<p>YTD:截止到今天为止今年的</p>
<p>LY:last year去年</p>
<p>YoY——跟上年相比</p>
<p>MAT(moving annual total):年度动态变化总值</p>
<p>Q4/Q1:4季度/1季度</p>
<p>GDP:国内生产总值</p>
<p>GNH(gross national happiness):国民幸福指数</p>
<p>GNP:国民生产总值</p>