如何评价阿里天池数据下载大数据比赛

2015天池大数据竞赛――黄金联赛开始了
2015年天池大数据竞赛将全面升级为黄金联赛,包含三个不同场景的数据挖掘比赛。联赛采用独立赛制和联赛赛制相结合的形式,落地移动电商、互联网金融、大数据营销等真实业务场景,让数据引爆新生代力量。
全日制高校(研究院所)学生、老师及高校科研人员
& & 黄金联赛由三个不同场景的比赛组成,采用独立赛制和联赛赛制相结合的形式。
&独立赛激励(团队奖)
& &冠军:1支队伍,奖励叁拾万,颁发获奖证书
& &亚军:1支队伍,奖励伍万,颁发获奖证书
& &季军:1支队伍,奖励贰万,颁发获奖证书
(Top10主要参赛选手可直接入围阿里校招终面)
& &极客奖:总决赛排名Top50选手获得极客奖证书,收获:1)入围阿里巴巴校园招聘绿色通道(即招聘流程省略简历筛选及笔试筛选阶段,直接进入面试阶段)&,在校期间均有效;2)获得风投机构深度关注,有机会成为明星项目创业合伙人
黄金联赛激励(个人奖)
& &黄金奖,1人,奖励拾万,颁发获奖证书
& &白银奖,1人,奖励伍万,颁发获奖证书
& &青铜奖,1人,奖励贰万,颁发获奖证书
注:1.&如遇积分相同,奖项和奖励均增加,最终解释权归组委会;&2.&上述奖项获得者可直接入围&阿里星&计划;
阿里巴巴集团&| powered by&&阿里云
更多活动官方信息,请点击:
大赛报名:
大赛微博:
官方旺旺群:
发布:于振洋&|&
审核:李东&|&
关联阅读>>
最新发布&|&您所在位置: &
&nbsp&&nbsp&nbsp&&nbsp
2015阿里巴巴天池大数据竞赛.doc3页
本文档一共被下载:
次 ,您可全文免费在线阅读后下载本文档。
文档加载中...广告还剩秒
需要金币:100 &&
2015阿里巴巴天池大数据竞赛.doc
你可能关注的文档:
··········
··········
2015阿里巴巴天池大数据竞赛
大赛详情:
2015天池大数据竞赛,欲与中国之少年一同激活数据能量,让数据引爆新生代力量!
详情猛戳:/promotion/goldenleague.html
第一场报名时间:3月20日―4月25日0点
2015天池大数据竞赛――黄金联赛
2015年天池大数据竞赛将全面升级为黄金联赛,包含三个不同场景的数据挖掘比赛。联赛采用独立赛制和联赛赛制相结合的形式,落地移动电商、互联网金融、大数据营销等真实业务场景,让数据引爆新生代力量。
全日制高校(研究院所)学生、老师及高校科研人员
黄金联赛由三个不同场景的比赛组成,采用独立赛制和联赛赛制相结合的形式。
- 独立赛制
黄金联赛中的每场比赛拥有独立的赛制规则和奖项激励(均设30w的最高激励),参赛选手可任选其中一场或多场比赛参加,详见各比赛页面中的赛制介绍;
- 联赛赛制
1 黄金联赛积分:在独立赛制的基础上,每场比赛设置个人奖励积分,于单场比赛结束后统一发放;
2 个人积分计算公式
说明:a ?积分取整数;b
team size指所在队伍成员人数,rank指第二赛季最终排行榜排名;c)paticipating teams指第一赛季截止时有效报名队伍数;
3 黄金联赛组队:每场比赛需单独报名,并可以重新组队;
4 黄金联赛奖项(个人奖):黄金联赛个人总积分等于个人三场比赛积分之和。总积分排名前三的个人获得黄金联赛最高荣誉。
- 独立赛激励(团队奖)
冠军:1支队伍,奖励叁拾万,颁发获奖证书
亚军:1支队伍,奖励伍万,颁发获奖证书
季军:1支队伍,奖励贰万,颁发获奖证书
(Top10主要参赛选手可直接入围阿里校招终面)
极客奖:总决赛排名Top50选
正在加载中,请稍后...2015阿里天池大数据比赛算法设计 - 推酷
2015阿里天池大数据比赛算法设计
Alibaba 2015 mobile recommending algorithm competition.
通过对用户在移动终端上一个月的行为数据进行分析,为后一天的用户购买行为作出预测,进行推荐。
├── LICENSE
└── README.md
├── create_table.sql
#创建基本表
├── add_table.sql
#后续增加的表
├── add_index.sql
#为表建立索引
├── add_table_31day.sql
#建立存储31天数据的表,结构同上
└── add_index_31day.sql
#为表建立索引
├── datatoDB.sql
#大赛csv格式原始数据导入基本表
└── FeaturetoDB.sql
#feature.txt导入对应表
├── __init__.py
├── TrainModel.py
├── ObtainPredict.py
└── GetFeature31day.py
├── feature.txt
#符合某个标准的记录(user_id,item_id,look,store,cart,buy)
├── data_features.txt
#feature.txt中记录的n维特征
├── data_features.npy
#转为矩阵格式(numpy库),下同
├── data_labels.txt
#feature.txt中记录的label(1/0表示购买/未购买)
├── data_labels.npy
├── feature_pos.txt
#feature.txt中所有正例
├── feature_p.npy
├── feature_neg.txt
#feature.txt中所有负例
├── feature_p.npy
├── TrainSet.npy
├── TestSet.npy
└── 31day_data_features.txt #31天所有数据的n维特征
├── predict_all_pairs.txt #得到所有预测的userid itemid对
└── filter_pairs.txt
#用train_item过滤的userid itemid对
题目给了31天的数据,我们选择第30天作为分割点。用前30天的数据提取n维特征(每个[user_id,item_id]对可以提取一行特征),用第31天的真实数据去标记每行特征。
举个例子:某个[user_id,item_id]对[982489]在前30天出现,如果在第31天它也出现了且behavior_type为购买,则标记这一行的label为1,否则为0。
这样形成了很多行的特征数据,我们把数据进行
,得到一个二分类的模型,这样模型就训练好了。
接下来就是预测,预测的东西就是上面的label,也即模型的输出。label为1表示我们认为用户会购买。那么模型的输入是什么呢?模型的输入就是31天所有数据的特征。
1th~30th————& 31th的label
1th~31th————& 32th的label
因为31th的label数据是已知的,所以可以利用它对训练出来的模型进行评估。而32th的label就是输出结果了。
模型建立主要采取对特征数据进行Logistic Regression。
现有一组用户在一个月内的移动端数据,我们需要预测他们在后一天购买某件商品的可能性。通过二值分类,我们仅仅能够预测用户是否购买,不同于此的是,现在我们还关心购买的可能性,即:
f(x) = P(+1|x)
取值范围是区间[0,1]。
在二值分类中,我们通过w*x得到一个score后,通过符号运算sign来预测y是+1或-1。而对于当前问题,如果能够将这个score映射到[0,1]区间,问题似乎就迎刃而解了。而问题的关键就是选择映射函数,逻辑斯蒂回归选择的映射函数是S型的sigmoid函数。
f(s) = 1 / (1 + exp(-s))
s取值范围是整个实数域,f(x)单调递增。而逻辑斯蒂回归用
h(x) = 1 / (1 + exp(-wx))
来逼近上面的目标函数。其中,x为要预测的样本,w为训练出的模型向量(w和x的维度相同)。h是算得的样本概率。
这只是一个流程和预测的框架,特征工程很多地方还需要改善。
├── master
#版本一,采取11维特征
└── branch1
#版本二,采取19维特征
已发表评论数()
请填写推刊名
描述不能大于100个字符!
权限设置: 公开
仅自己可见
正文不准确
标题不准确
排版有问题
主题不准确
没有分页内容
图片无法显示
视频无法显示
与原文不一致灰熊温驯安全,活泼爱玩,参与婚礼非常积极。
趁家中无人将钱取出,然而已经全部发霉腐烂。
声明:本文由入驻搜狐公众平台的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。
  本报讯近日,阿里巴巴第二届天池大数据竞赛前两场联赛的答辩会在杭州举行。从全球36个国家和地区、14054支队伍中诞生的20多名大数据高手,进行了最后对决。最终,南京理工大学钱肃驰、彭甫F、李翔组成的“weapon”,哈尔滨工业大学蔡鹏、浙江大学刘勋、南京大学刘伙玉组成的“三只熊”分别夺得两场比赛冠军,获得30万元奖金。
  据悉,天池大数据竞赛是全球最大规模的数据科学领域的赛事,也是首个使用真实场景数据(脱敏后非隐私数据)作为赛题的算法大赛。本届天池大数据竞赛参赛人数已经超过2万人,覆盖680所大陆以及港澳台高校、267所海外学校和科研机构。(彭科峰)
  [责任编辑:yfs001]
欢迎举报抄袭、转载、暴力色情及含有欺诈和虚假信息的不良文章。
请先登录再操作
请先登录再操作
微信扫一扫分享至朋友圈
搜狐公众平台官方账号
生活时尚&搭配博主 /生活时尚自媒体 /时尚类书籍作者
搜狐网教育频道官方账号
全球最大华文占星网站-专业研究星座命理及测算服务机构
56303文章数
主演:黄晓明/陈乔恩/乔任梁/谢君豪/吕佳容/戚迹
主演:陈晓/陈妍希/张馨予/杨明娜/毛晓彤/孙耀琦
主演:陈键锋/李依晓/张迪/郑亦桐/张明明/何彦霓
主演:尚格?云顿/乔?弗拉尼甘/Bianca Bree
主演:艾斯?库珀/ 查宁?塔图姆/ 乔纳?希尔
baby14岁写真曝光
李冰冰向成龙撒娇争宠
李湘遭闺蜜曝光旧爱
美女模特教老板走秀
曝搬砖男神奇葩择偶观
柳岩被迫成赚钱工具
大屁小P虐心恋
匆匆那年大结局
乔杉遭粉丝骚扰
男闺蜜的尴尬初夜
客服热线:86-10-
客服邮箱:天池大数据周冠军分享|附移动推荐算法赛答辩会Top5选手PPT
查看: 1513|
评论: 0|来自:
摘要: 上周是淘宝穿衣搭配算法大赛开始评测后的第一周,周冠军是来自浙江大学的&FUC AUTH&队。他们在夺得本周冠军之后,还将自己的获胜经验分享给了大家,究竟有什么秘诀呢?阿里巴巴天池大数据竞赛在浙大师兄们的口碑 ...
上周是淘宝穿衣搭配算法大赛开始评测后的第一周,周冠军是来自浙江大学的"FUC AUTH"队。他们在夺得本周冠军之后,还将自己的获胜经验分享给了大家,究竟有什么秘诀呢?阿里巴巴天池竞赛在浙大师兄们的口碑中一直很不错,它真正意义上地为我们提供了海量数据源和大数据处理平台,尤其是大数据处理平台是在高校实验室中很难提供。对于以后走向大数据方向的研究人员而言也很具备科研价值,大数据比赛确实也锻炼大数据挖掘算法和程序优化,让我们受益匪浅。由于我们团队也差不多都是新手,能取得这样的成绩,确实激励我们,让我们更有信心面对将来的挑战。在高兴的同时我们也深刻地意识到到目前比赛刚开始,许多大牛还未真刀真枪开始干,我们现在取得的成绩也不可骄傲。而在比赛期间,我们确实遇到过很多困难:1程序运行时间过长程序运行时间过长,尤其是本文挖掘部分,由于我们采用的比较词向量TF/IDF的相似度的方法,然而词向量维度太高,计算量大。如果采用常规方法计算需要整整1天多,为了解决计算速度问题,我们采用能预先计算的结果预先缓存到内存字典中,线下用python实现类似基于内存迭代的多进程Map/Reduce方案,开出16进程进行计算,将时间缩短到1.5小时左右。2评价想法的可行性想法很多,如何评价想法的可行性,我们将套餐数据分开为训练数据和测试数据,并生成测试数据的标准答案,在线下搭建一个线下评价系统。经过第一天的提交结果反馈,我们发现我们的线下评价系统是合理且有效的,线上领先线下0.2%。评价系统能评价出我们的想法的好坏。比赛就是不断验证想法,提出去好的想法并分析其中的原因,并加以改变。3关于调参问题关于调参问题,之前一直是手工调参,发现效率太低,人工干预麻烦。我们就采用暴力调参法,先粗条后细调,或者直接采用爬山法以及模拟退火法,甚至我们也开发出一套随机蒙特卡洛方法。发现蒙特卡洛的方法效率最低,参数维度较少优先选择暴力法,参数维度较多选用爬山法或者模拟退火法。4团队协作最后关于团队协作问题,由于大家习惯的编程语言不同,有C/C++、matlab、python等,为了更好的协作需要有人能翻译其他人的编程语言实现统一版本的语言,比如python,版本统一能很多好处,集体参数调优。相对而言我觉得python非常适合作为编程工具,抛开其运行效率问题不说,是一种很好的交互式语言,相对于C/C++而言,可以分步执行,随时查看结果,与matlab类似。但是matlab有没有类似python的强大数据结构,字典和列表,还有python机器学习支持很强大,编程非常方便,代码简洁。5给大家的建议结合上述的困难,我主要给其他选手的建议:1. 不断优化代码,能预先计算的可重复使用的数据尽量预先计算好,多用类似hash字典的数据结构缓存变量数据,运行效率提升很大一部分都是在于数据的查询2. 想法可以很多,都需要建立有效的线下评价系统对其进行验证3. 模型之前的重要程度可以简单设置参数体现,并通过程序调参选择出最佳参数,每次迭代过程要往评价好的方向走4.尽量不要重造机器学习算法,一般来说各大语言算法都有写好的计算学习版本,比如python的sklearn,里面就封装好本次要使用的TF/IDF模型。文/天池大数据科研平台
上一篇:下一篇:
站长推荐 /2
大数据QQ群汇总
官方总群:
招募各板块版主,欢迎
Powered by

我要回帖

更多关于 阿里天池大数据 的文章

 

随机推荐