错位的梦寐

数据分析经典分析方法-TGI分析


TGI:即Target Group Index(目标群体指数),可反映目标群体在特定研究范围(如地理区域、人口统计领域、媒体受众、产品消费者)内的强势或弱势。

数据分析经典分析方法-TGI分析

一、TGI的概念

TGI 分析是数据分析中经常用到的一种方法,先来看一下百度百科中 TGI 的概念:

TGI:即Target Group Index(目标群体指数),可反映目标群体在特定研究范围(如地理区域、人口统计领域、媒体受众、产品消费者)内的强势或弱势。其计算公式为:TGI指数= [目标群体中具有某一特征的群体所占比例/总体中具有相同特征的群体所占比例]*标准数100。

举个简单的例子,比如知乎全体用户中关注篮球话题用户占比为20%,男性用户中关注篮球的占比为 50%,那么篮球话题在男性用户中的 TGI 为=50%/20%=250%,说明篮球话题在男性用户中表现更为强势,即更受欢迎。

从上面的例子可以看出,TGI可以帮助我们分析特征在目标群体中相对全体用户的表现情况,如果对TGI进行分区的话,主要可以分为三段区间:

  • TGI=100%:特征在目标群体和全体用户中的表现没有差异
  • TGI>100%:特征在目标群体中表现更为强势,数字越大越强
  • TGI<100%:特征在目标群体中表现较为弱势,数字越小越弱

二、为什么要用 TGI?

举一个简单的例子,假如现在要分析年龄特征对用户流失的影响,发现流失用户中年龄结构如下:

年龄段 流失用户
0-18 岁 2%
18-25 岁 30%
25 岁以上 68%

可以看到流失用户中 25 岁以上的用户占比很高,达到了 68%,那我们可以下结论说 25 岁以上的用户更容易流失了吗?答案是否定的,我们还需要观察全体用户中年龄段的分布情况,有可能全体用户中本身 25 岁以上用户的占比就比较高。

年龄段 流失用户 整体用户 TGI
0-18 岁 2% 1% 200%
18-25 岁 30% 20% 150%
25 岁以上 68% 79% 86%

通过观察整体用户年龄结构可以发现,整体用户中 25 岁以上用户的占比达到了 79%,其实还要高于流失用户,分别计算不同年龄段的 TGI,结果如下表格所示。18-25 岁年龄段的 TGI 为 150%,说明 18-25 岁这个特征在流失用户中表现更为强势,即 18-25 岁的用户可能更容易流失;而我们之前观察到的高占比的25岁以上的用户 TGI 为 86%,反而相对更不容易流失,通过这个 case,相信大家基本明白 TGI 的作用了。

除此之外,大家可能还注意到了 0-18 岁的用户 TGI 高达 200%,这能说明 0-18 岁的用户就更容易流失吗,答案是未必的。0-18 岁的用户在流失用户中占比2%,整体用户中1%,从绝对值上看,只相差了一个百分点,在占比较小的情况下,很有可能会因为数据上的波动导致 TGI 失真,这样就没什么价值了。所以在做 TGI 分析时我们往往需要排除占比较小(比如小于10%)的群体。

参考


上一篇 MECE 法则

Comments

Content