TGI:即Target Group Index(目标群体指数),可反映目标群体在特定研究范围(如地理区域、人口统计领域、媒体受众、产品消费者)内的强势或弱势。
数据分析经典分析方法-TGI分析
一、TGI的概念
TGI 分析是数据分析中经常用到的一种方法,先来看一下百度百科中 TGI 的概念:
TGI:即Target Group Index(目标群体指数),可反映目标群体在特定研究范围(如地理区域、人口统计领域、媒体受众、产品消费者)内的强势或弱势。其计算公式为:TGI指数= [目标群体中具有某一特征的群体所占比例/总体中具有相同特征的群体所占比例]*标准数100。
举个简单的例子,比如知乎全体用户中关注篮球话题用户占比为20%,男性用户中关注篮球的占比为 50%,那么篮球话题在男性用户中的 TGI 为=50%/20%=250%,说明篮球话题在男性用户中表现更为强势,即更受欢迎。
从上面的例子可以看出,TGI可以帮助我们分析特征在目标群体中相对全体用户的表现情况,如果对TGI进行分区的话,主要可以分为三段区间:
- TGI=100%:特征在目标群体和全体用户中的表现没有差异
- TGI>100%:特征在目标群体中表现更为强势,数字越大越强
- TGI<100%:特征在目标群体中表现较为弱势,数字越小越弱
二、为什么要用 TGI?
举一个简单的例子,假如现在要分析年龄特征对用户流失的影响,发现流失用户中年龄结构如下:
年龄段 | 流失用户 |
---|---|
0-18 岁 | 2% |
18-25 岁 | 30% |
25 岁以上 | 68% |
可以看到流失用户中 25 岁以上的用户占比很高,达到了 68%,那我们可以下结论说 25 岁以上的用户更容易流失了吗?答案是否定的,我们还需要观察全体用户中年龄段的分布情况,有可能全体用户中本身 25 岁以上用户的占比就比较高。
年龄段 | 流失用户 | 整体用户 | TGI |
---|---|---|---|
0-18 岁 | 2% | 1% | 200% |
18-25 岁 | 30% | 20% | 150% |
25 岁以上 | 68% | 79% | 86% |
通过观察整体用户年龄结构可以发现,整体用户中 25 岁以上用户的占比达到了 79%,其实还要高于流失用户,分别计算不同年龄段的 TGI,结果如下表格所示。18-25 岁年龄段的 TGI 为 150%,说明 18-25 岁这个特征在流失用户中表现更为强势,即 18-25 岁的用户可能更容易流失;而我们之前观察到的高占比的25岁以上的用户 TGI 为 86%,反而相对更不容易流失,通过这个 case,相信大家基本明白 TGI 的作用了。
除此之外,大家可能还注意到了 0-18 岁的用户 TGI 高达 200%,这能说明 0-18 岁的用户就更容易流失吗,答案是未必的。0-18 岁的用户在流失用户中占比2%,整体用户中1%,从绝对值上看,只相差了一个百分点,在占比较小的情况下,很有可能会因为数据上的波动导致 TGI 失真,这样就没什么价值了。所以在做 TGI 分析时我们往往需要排除占比较小(比如小于10%)的群体。
参考