当前位置: 首页 > news >正文

留存率的定义与SQL实现

1.什么是留存率

留存率是指在特定时间段内,仍然继续使用某项产品或服务的用户占用户总数的百分比。

通常,留存率会以日,周,或月为单位进行统计和分析。

2.SQL留存率常见问题

1.计算新用户登录的日期的次日留存率以及3日留存率

CREATE TABLE ods_user_login_log (user_id VARCHAR(255) NOT NULL,login_dt VARCHAR(255) NOT NULL
);
INSERT INTO ods_user_login_log VALUES 
('001','20240701'),
('001','20240701'),
('002','20240701'),
('003','20240701'),
('001','20240702'),
('002','20240702'),
('002','20240702'),
('001','20240703'),
('002','20240704'),
('004','20240704')
;

有一张用户登录日志表 ods_usr_login_log,包含 user_id(用户ID)和 login_dt(登录日期)。每个用户在同一天可能登录多次。

问题:计算有新用户登录的日期的次日留存率和3日留存率。

N日留存用户数:指某日活跃的用户在第N日再次活跃的用户数量。

本道题思路如下:

  1. 找出每个用户首次登录的日期

    使用子查询 t1,通过 MIN(login_dt) 函数获取每个用户的首次登录日期,并将其转换为日期格式 date
  2. 将所有登录记录转换为日期格式

    子查询 t2 将 login_dt 字段转换为日期格式。
  3. 计算次日留存率和3日留存率

    • 在最终的 SELECT 语句中,使用 DATEDIFF(t2.dt, t1.dt) 来计算用户登录日期与其首次登录日期的天数差。
    • 对于次日留存率,当天数差为1时,使用 COUNT(DISTINCT t2.user_id) 统计次日再次登录的用户数量,并将其除以首次登录的用户数量 COUNT(DISTINCT t1.user_id),得到次日留存率。
    • 对于3日留存率,类似地,当天数差为3时,计算第3日再次登录的用户数,并进行相应的计算。
  4. LEFT JOIN 进行多表联查

为什么使用LEFT JOIN?
LEFT JOIN 的作用是保留左表中的所有记录(即使在右表中没有匹配项)。在这个SQL语句中,左表是子查询 t1,它包含每个用户的首次登录日期。右表是 t2,它包含用户的所有登录记录。通过 LEFT JOIN,我们可以确保所有首次登录的用户都会出现在最终的结果中,即使这些用户在后续的指定日期(如次日或第3日)没有再次登录。这样可以保证在计算留存率时,所有首次登录的用户都被纳入分母,即使他们在后续日期没有登录,确保留存率计算准确无误。

一分钟搞明白Join、Left Join、Right Join的区别_join left join right join-CSDN博客

-- 计算用户首次登录的日期
with t1 as (select  user_id,cast(min(login_dt) as date) as dtfrom ods_user_login_loggroup by user_id, cast(login_dt as date)
),
-- 将数据转为date格式
t2 as (select user_id, cast(login_dt as date) as dtfrom ods_user_login_loggroup by user_id, cast(login_dt as date) 
)select t1.dt-- 确保用户在同一天登录的数据只被计算一次
,count(distinct case when datediff(t2.dt, t1.dt) = 1 then t2.user_id else null end) / count(distinct t1.user_id) as retain_1d_rate
,count(distinct case when datediff(t2.dt, t1.dt) = 3 then t2.user_id else null end) / count(distinct t1.user_id) as retain_3d_rate
from t1
left join t2
on t1.user_id = t2.user_id
group by t1.dt
;

2.2021年11月每天新用户的次日留存率_牛客题霸_牛客网

在本道题中,我们同样是计算新用户的次日留存率。

但数据列却完全不同,第一道题中,我们的数据列就只有登录时间。

在本题中,我们既有in_time进入时间,又有离开时间out_time。

那么就会存在一个情况:当在一条记录中,如果in_time-进入时间和out_time-离开时间跨天了。

如:(101, 9002, '2021-11-04 11:00:55', '2021-11-05 11:00:59', 0);

这时我们也算该用户在两天里都活跃过

那么,我们该如果计算,才能实现该逻辑呢?

具体来说,就是将in_time和out_time合并为同一个数据列,记录每个用户在每天的活跃情况。

select uid, date(in_time) as active_dt from tb_user_logunion all
select uid, date(out_time) as active_dt from tb_user_log

具体来说,我们就是把out_time也算作是活跃日。

在这里我们使用UNION ALL,是因为:

  • 它可以保留所有的用户行为记录,包括重复的日期。这对于准确计算次日留存率很重要。
  • 我们需要考虑每个用户可能在同一天多次访问的情况。使用 UNION ALL 确保了我们捕获到所有这些访问记录。(然后distinct去重)

剩下的操作就跟第一道题一样,计算用户首次登录的日期,然后通过计算datediff(end_time, start_time)来确定日期间隔。

with t1 as (select uid,min(in_time) as dtfrom tb_user_loggroup by uid
),
t2 as (select uid, date(in_time) as active_dt from tb_user_logunion allselect uid, date(out_time) as active_dt from tb_user_log
)select date_format(t1.dt,'%Y-%m-%d') as dt,round(count(distinct case when datediff(t2.active_dt,t1.dt) = 1 then t2.uid else null end) /count(distinct t1.uid),2) as uv_left_ratefrom t1left join t2on t1.uid = t2.uidwhere date_format(t1.dt,'%Y-%m') = '2021-11'-- t1.dt BETWEEN '2021-11-01' AND '2021-11-30'group by date_format(t1.dt,'%Y-%m-%d')

优化小建议:

使用 DATE_FORMAT(t1.dt, '%Y-%m') = '2021-11' 进行筛选,这样的条件会在查询时对所有结果再次进行格式化,可能会影响性能。 (格式化 + 筛选)

使用 t1.dt BETWEEN '2021-11-01' AND '2021-11-30' 进行时间范围过滤,这样的条件可以利用之前已经格式化好的数据,性能更好。 (只有筛选)

20230724024159.png?origin_url=chrome-extension%3A%2F%2Fpbhpcbdjngblklnibanbkgkogjmbjeoe%2Fsrc%2Fpublic%2Fimages%2F128px.png&pos_id=htfBsUYu)


http://www.mrgr.cn/news/44144.html

相关文章:

  • 物理学基础精解【56】
  • 新机配置Win11
  • Vue入门-指令学习-v-else和v-else-if
  • jsencrypt实现js加密的另外一种方式(使用node-jsencrypt库)
  • 【AI知识点】归一化(Normalization)
  • 前端的全栈混合之路Meteor篇:开发环境的搭建 -全局安装或使用docker镜像
  • Qt开发技巧(十五)字符串去除空格,跨网段搜索不生效,设置图片显示失败问题,表格视图的批量删除,主动判断字串编码,开启向前查询的属性,画家类载入html来绘制
  • Leecode热题100-560.和为k的子数组
  • 【玩转 JS 函数式编程_008】3.1.2 JavaScript 函数式编程筑基之:箭头函数——一种更流行的写法
  • MATLAB智能优化算法-学习笔记(4)——灰狼优化算法求解旅行商问题【过程+代码】
  • 基于SSM的学生信息管理系统【附源码】
  • Cyber Weekly #27
  • YOLOv8 基于NCNN的安卓部署
  • 上海交通大学《2022年+2023年816自动控制原理真题》 (完整版)
  • [git] github管理项目之环境依赖管理
  • 社会工程学:社工无处不在
  • useradd命令:添加Linux新用户
  • 车载诊断协议DoIP系列 —— DoIP APP 应用层(AL)
  • 【异或和之和 / H】
  • d3底层绘制拓扑图