Skip to content

大数据精准营销中搜狗用户画像挖掘 赛题描述

Yumeng Li edited this page Mar 23, 2017 · 3 revisions

竞赛背景

"物以类聚,人以群分"这句古语不仅揭示了物与人的自组织趋向,更隐含了“聚类”和“人群”之间的内在联系。在现代数字广告投放系统中,以物拟人,以物窥人,才是比任何大数据都要更大的前提。如何把广告投放给需要的人,是大数据在精准营销中最核心的问题,如何越来越精确的挖掘人群属性,也一直是技术上的天花板。对于企业主来说,了解自身产品的受众有助于进行产品定位,并设计营销解决方案。本题目以精准广告中一个具体问题为例,希望发掘到数据挖掘的优秀人才。

竞赛简介

在现代广告投放系统中,多层级成体系的用户画像构建算法是实现精准广告投放的基础技术之一。其中,基于人口属性的广告定向技术是普遍适用于品牌展示广告和精准竞价广告的关键性技术。人口属性包括自然人的性别、年龄、学历等基本属性。

在搜索竞价广告系统中,用户通过在搜索引擎输入具体的查询词来获取相关信息。因此,用户的历史查询词与用户的基本属性及潜在需求有密切的关系。

举例如下:

  1. 年龄在19岁至23岁区间的自然人会有较多的搜索行为与大学生活、社交等主题有关

  2. 男性相比女性会在军事、汽车等主题有更多的搜索行为

  3. 高学历人群会更加倾向于获取社会、经济等主题的信息

本题目提供用户历史一个月的查询词与用户的人口属性标签(包括性别、年龄、学历)做为训练数据,要求参赛人员通过机器学习、数据挖掘技术构建分类算法来对新增用户的人口属性进行判定。

数据描述

1. 数据集:

数据文件 备注
Train.csv 带标注的训练集
Test.csv 测试集

2. 数据介绍:

本数据来源于搜狗搜索数据,ID经过加密,训练集中人口属性数据存在部分未知的情况(该情况为竞赛题目特定设置,需要参赛人员的解决方案能够考虑数据缺失对算法性能的影响)。数据所有字段如下表所示:

字段 说明
ID 加密后的ID
Age 0:未知年龄; 1:0-18岁; 2:19-23岁; 3:24-30岁; 4:31-40岁; 5:41-50岁; 6: 51-999岁
Gender 0:未知1:男性2:女性
Education 0:未知学历; 1:博士; 2:硕士; 3:大学生; 4:高中; 5:初中; 6:小学
Query List 搜索词列表

数据示例:

对于train.csv中的数据记录:

ID Age Gender Education Query List
00627779E16E7C09B975B2CE13C088CB 4 2 0 钢琴曲欣赏100首 一个月的宝宝眼睫毛那么是黄色 宝宝右眼有眼屎 小儿抽搐怎么办 剖腹产后刀口上有线头 属羊和属鸡的配吗

任务描述

本题目提供用户历史一个月的查询词与用户的人口属性标签(包括性别、年龄、学历)做为训练数据,要求参赛人员通过机器学习、数据挖掘技术构建分类算法来对新增用户的人口属性进行判定。即对test.csv文件中的每条记录进行年龄、性别、学历的判断。

评分算法

本赛题采用分类准确率进行评价。

对参赛者提供的结果文件,全部与标准结果匹配计算准确率。其中,性别、年龄、学历分别计算准确率,最终以平均准确率作为评判依据。

具体如下:

  1. 准确率计算:

其中, 表示算法对第i个样本预测类别,表示第i个样本的真实类别。函数为Indicator Function,当预测结果与真实结果完全相同时输出为1,否则为零。

  1. 平均准确率计算:

  1. 模型的判定结果不允许出现0,即只有明确的标签才为有效结果。

  2. 预设指标:平均准确率50%以上为有效成绩。