【天池大赛】快来一起挖掘幸福感 -- 简介

赛题背景
赛题尝试了幸福感预测这一经典课题,希望在现有社会科学研究外有其他维度的算法尝试,结合多学科各自优势,挖掘潜在的影响因素,发现更多可解释、可理解的相关关系 。
赛题说明
赛题使用公开数据的问卷调查结果,选取其中多组变量,包括个体变量(性别、年龄、地域、职业、健康、婚姻与政治面貌等等)、家庭变量(父母、配偶、子女、家庭资本等等)、社会态度(公平、信用、公共服务等等),来预测其对幸福感的评价 。
数据说明
考虑到变量个数较多,部分变量间关系复杂,数据分为完整版和精简版两类 。可从精简版入手熟悉赛题后,使用完整版挖掘更多信息 。文件为变量完整版数据,abbr文件为变量精简版数据 。

【天池大赛】快来一起挖掘幸福感 -- 简介

文章插图
index文件中包含每个变量对应的问卷题目,以及变量取值的含义 。
文件是数据源的原版问卷,作为补充以方便理解问题背景 。
数据来源
赛题使用的数据来自中国人民大学中国调查与数据中心主持之《中国综合社会调查(CGSS)》项目 。赛题感谢此机构及其人员提供数据协助 。中国综合社会调查为多阶分层抽样的截面面访调查 。
外部数据
【天池大赛】快来一起挖掘幸福感 -- 简介

文章插图
【【天池大赛】快来一起挖掘幸福感 -- 简介】赛题以数据挖掘和分析为出发点,不限制外部数据的使用,比如宏观经济指标、政府再分配政策等公开数据,欢迎选手交流分享 。
评测指标
提交结果为csv文件,其中包含id和的预测值两列 。
分数计算公式:
其中n代表测试集样本数,yi代表第i个样本的预测值,y*代表真实值 。