数据分析真题日刷 |小红书2019年校园招聘数据分析岗位在线笔试第二批( 二 )


8. 以下属于聚类算法的是
A. ARIMA
B. 朴素贝叶斯
C. 支持向量机
D. K-MEANS
正确答案:D
「题目解析」
A.时间序列
B.C. 分类模型
D 聚类
9. 样本中各观察值均加5后
A. 方差加25
B. 标准差加5
C. 均值加5
D. 中值加5
正确答案:C D
「题目解析」
样本中各观察值均加5后 , 标准差和方差 不变 , 均值和中值加5 。
因为标准差反映数据的离散程度 , 所有观察值相同的变化 , 对波动没有影响 。举个例子 , 样本中3个观察值都为1 , 则方差为0 。样本中每个观察值均加5 , 变成3个5 , 方差还是0 。
10. 一批零件共10个 , 其中有3个不合格品 , 从中一个一个不放回取出 , 则第三次才取得不合格品的概率是?(填小数)
正确答案:0.175
「题目解析」
(7/10) * (6/9) * (3/8) = 0.175
11. 某业务线的营业收入为:200 , 220 , 250 , 300 , 320万元 , 则平均增长量为?万元
正确答案:30
「题目解析」
平均增长量 = 累计增长量 / (时间数列项数-1)=(320-200)/(5-1)=30

数据分析真题日刷 |小红书2019年校园招聘数据分析岗位在线笔试第二批

文章插图
误区:是除以4 不是5!!!
12. 如下两张表 , 和 age_t:
Nick
Tom
John
Peter
Frank
age_t
IDAge
18
null
35
22
结合表信息 , 写出sql的最终结果
SELECT count(t1.ID) as cntFROM name_t t1 LEFT JOIN age_t t2ON t1.ID = t2.IDWHERE t2.Age > 22
正确答案:1
?关于sql表连接的知识点
「题目解析」
只有John符合条件 , 故为1 。
13. 请写sql语句:
想要了解班级内同学的考试情况 , 现有一张成绩表表名为A , 每行都包含以下内容(已知表中没有重复内容 , 但所有的考试结果都录入在了同一张表中 , 一个同学会有多条考试结果):
 ,  , score
现在需要知道:
1. 每门课程得到成绩的同学人数
2. 每门课程的平均成绩
3. 如果对于每门课程来说 , 60分以下为不及格 , 高于60为及格 , 统计每门课程及格和不及格的人数
官方答案
1.2.selectcourse_name,count(distinct student_id) as student_num,avg(score) as avg_scorefrom Agroup by 13.selectcourse_name,case when score < 60 then '不及格'else '及格' end as level,count(student_id) as student_numfrom Agroup by 1,2
我自己生成了数据如下 , 
-- 参考答案第3问selectcourse_name,case when score < 60 then '不及格'else '及格' end as level,count(student_id) as student_numfrom Agroup by 1,2
输出如下 , 
我的代码
-- 我的答案 , 第三问SELECT course_name, SUM(CASE WHEN score >= 60 THEN 1 ELSE 0 END ) AS '及格',SUM(CASE WHEN score <60 THEN 1 ELSE 0 END) AS '不及格'FROM AGROUP BY course_name;
输出
14. 经一番研究后 , 我们开发出了一个新的商品详情页中’相关商品’模块的算法 , 并且打算通过AB Test(50%用户保留原先的算法逻辑为控制组 , 50%用户使用新的算法逻辑为实验组)来进行评估 。假如你是此次实验的数据分析师 , 请问你会怎么评估控制组和实验组的表现?请按重要性列出最重要的三个指标并给出你的分析过程 。