置顶 综合  智慧中国杯Q&A,主要参赛问题解答,持续更新中……  竞赛问答

Thinker 发表于 Dec 8, 2016 9:57:01 AM

 1124  6  0

“智慧中国杯”已经上线一段时间了,最近小运营收集了大家这段时间反馈的一些比较具有针对性的问题,并进行了统一的回答,看看是否有你遇到的问题吧!如果你还有其他的问题,可以在该帖子后面留言哦。



金融赛问题

 

1.贷款风险评估一个表有多个相同id怎么处理?

答:是指相同的用户id吗?一个用户有多条记录,当然就会有多个相同id。

 

2.为什么用户属性中教育程度和婚姻状态一模一样?

答:这个数据已有更新,不知是否这位同学用的是旧数据呢?

链接:https://pan.baidu.com/s/1jHRFoAq  密码:pcsh

数据名为个人征信_1108.7z

 

3.信用卡中的本期账单月和本期账金额有啥区别?

答:bal是余额的概念,就是这一期你一共要还多少钱,这里包括了上期该还但是没还完的。amt是当期的金额,只是这一期需要还的钱。lmt_amt是用户的信用卡额度。bal=amt+上个月欠的钱+调整金额(银行可能会有调整)。绝大部分情况下:bal>amt。

 

4.时间戳能不能告诉一下大概的具体范围?如果要从收益指标来算的话,需要一些跟时间维度相关的数据,能提供吗?

答:因涉及敏感信息匿名化,主办方明确告知,无法公布细节。

 

5.数据中的时间戳做了脱敏处理,是线性的还是非线性的,对最终结果有影响吗?那绝对值影响吗?

答:函数是非线性的。数据的相对大小保持不变。

 

6.贷款风险预测里面的时间变换后是不是还可以当时间戳用啊?还是只是将时间进行了平移?

答:不是时间戳了。用的是非线性的函数变换。

 

7.银行流水和信用卡账单的资金有没有交集?overdue.txt里要么是逾期10天的,要么是大于30天的?

答:(1)请自行判断,主办方给的都是脱敏后的原始数据,在数据记录上没有做任何修改。(2)是的。

 

8.请问360违约预测赛题中的时间戳(如下)的起始时间不是以1970年1月1日为起始,以秒为单位?,5894316387对应的时间是哪年哪月?

用户id,时间戳,交易类型,交易金额,工资收入标记 6951,5894316387,0,13.756664,0

答:时间戳是经过非线性函数变换的,不在表示原来的unix时间戳;但是时间的相对顺序保持不变。

 

9.在建模结束后,由于要撰写挖掘报告,在很多数据脱敏状态下,无法用语言去解释模型,去告诉管理者哪些指标的哪些值有着强烈的影响。所以恳请举办方能让我了解一下每个数据不同取值代表的意义,0、1、2、3、4再各个属性中代表着什么,以及收入转化公式!

答:因涉及敏感信息匿名化,主办方明确告知,无法公布细节。

 

10.顾客是否发生逾期行为的记录overdue.txt没给出来?

答:在训练集的数据中是给出来的呀。测试集肯定是没有的了,因为是要预测的。

 

11 .信用卡中的本期账单金额有负数 (现实中是不可能的?)是因为数据转换的原因还是传说中的脏数据?

答:是有可能的。某个月我提前还款较多,消费金额是6000+,本期费用就是负的-600+;然后在接下来的一个月,消费金额1100+,应缴金额-3000+。只是不同银行不同,不知道这里的应缴金额或者本期费用是不是对应到别的银行的“本期账单金额”。

 

12.贷款数据中所有金额都是处理过的 请问一下处理的函数是不是保持了原数据相对的大小关系?函数是不是线性函数?时间这个转换函数已经回答过了不是线性的金额是不是也是一样?

答:非线性函数,保证数据相对大小。

 

13.比赛里面我们预测的概率是单样本的吗?感觉代码不能用?

答:问题是否是“是否需要预测每一个用户的逾期概率”?对于测试集中的每一位用户,都需要预测他会产生逾期行为的概率。在提交预测结果后,后台会根据真实的数据分别画出“逾期用户的预测概率累积分布”以及“非逾期用户的预测概率的累积分布”,然后计算两条累积分布曲线之间的最大差异值。

 

14.赛题数据中的数据含义是什么 比如男女是用0和1,0和1怎么对应男女,用户浏览数据中,浏览内容的数字对应什么网页内容?

答:关于字段数值对应含义以及浏览内容对应的网页内容,主办方明确告知无法公布。

 

 

教育赛问题


1.本次竞赛需利用学生在2013/09——2014/09的数据 预测学生在2014年的助学金获得情况 利用学生201409-201509的数据 预测15的奖学金获得情况 虽然所有数据在时间上混合在了一起即训练集和测试集中的所有数据都有13-15的数据 但是学生的行为数据和助学金数据是对应的 哪位能用通俗易懂的语言翻译一下?

答:每一个学生id的数据都只有“一个”学年,或是2013/09-2014/09(包括行为数据和对应的助学金评奖数据,此学年的助学金大约会在2014年10月份评出),或是2014/09-2015/09(同样包括行为数据和对应的助学金数据,事件则大约是2015年10月)。

但是在划分训练集和测试集的时候,并没有按时间进行分割(若按事件分割,可以将2013/09-2014/09年的数据全用作训练集,而2014/09-2015/09的数据用作测试集);但现在没有按时间分割,而是将所有学生混在一起,随机抽取一些学生的信息(包括行为信息和助学金信息)作为训练集。

简言之,每个学生智慧有一年的行为数据及获奖情况,根据这个学生是有哪一年的行为数据,判断他的奖学金是哪一年的。

 

2.大学生助学金精准资助预测 ,图书借阅数据没有归还记录吗?

答:这批数据中是没有的。


3.部分文件中数据有重复?

数据的确是从学校提取出来的原始数据,主办方没有做过任何的筛选整理。所以有重复的数据条目,得请大家自行判断。针对洗衣房一卡通消费有负数的情况:这是学校的退款。洗衣机在最开始使用时,会预扣1小时的费用,如实际使用时间小于1小时,会根据剩余时间进行退款。


 

交通赛问题

 

1.交通赛的数据解压的时候,总是会提示这个错误,但是文件还是解压出来了有人知道这是怎么回事么?

答:可能下载出现了问题。有一个不需要解压的,可以试试

链接:https://pan.baidu.com/s/1boJhbSb 密码:tiox

 

2.测试集里部分id的数据整个过程经纬度始终不变,这怎么预测?

答:现在的路径里面,已不存在这个问题了。

 

3.对数据完整性有疑问?

答:数据已经主办方能拿到的所有数据了。由于种种原因,会有信息的缺失(7日、13日、17日),但这是数据采集时的问题了。

 

 

 

组队及规则问题

 

1.报名截止的时间?

答:这个问题官网有哈。初赛截至时间为2约20日,2月17日报名通道将关闭。


2.复赛中队伍可以增减人员吗?

答:复赛期间,队伍是可以增减人员的,决赛期间不可增减人员。


3.组队申请可以撤回吗?发送了组队申请之后,能退出吗?是不是就不能再创建队伍了?

答:组队申请无法撤回,如果对方24小时没有接受申请,你的此次邀请就会失效,你可以再次申请组队或者自己创建队伍。

 

4.为什么已经成功邀请了队友,但在我的队伍页面,还是只有我一个人的头像,看不到队友呢?点击别人的的组队邀请,要报错显示“404, 邀请已处理,无需重复执行”然而并没有加入到队伍里面?

答:邀请队友需要对方确认才会生效哦,请提醒对方接受邀请。

 

5.参加比赛之后,不能创建队伍或邀请组队,一直提示“请确认参赛”。点击参加比赛后,有个按钮 “确认参赛” ,点击以后显示说“你已经加入比赛”,但是选择创建队伍的时候还是一直说要先确认参赛。

答:正确参赛流程是,点击竞赛时间轴右边“参加比赛”按钮,然后点击下方阅读比赛规则旁边的“确认参赛”按钮,然后就可以组队或者申请组队了。如果创建队伍时提示“你需要参加比赛”,请刷新当前页面,如果无效请重新登录或者更换chrome浏览器。

 

6.怎么换队长?

答:暂时不支持队长直接更换,可以通过解散重组的方式重新进行组队。

 

7.组队队伍在加入人员的过程中出了问题?

答:创建队伍之后,点击队员列表中的“+”号可以发起组队邀请,需填写邀请人的信息(邮箱,电话,DC用户名),对方登陆之后即可跳转到接受邀请页面,如对方未注册,邀请注册之后登陆即跳转到接受邀请页面,如果不慎离开此页面,需要重新点击邀请链接或者重新发送邀请,对方才能到达接受邀请页面。

 

8.各行业的数据一般在哪个网站能找到 ?

答:可以参考之前DC推的一篇文章:有哪些一般人不知道的数据获取方式

 

9.同时满足“提交了符合要求的创新应用简介”和“在对应资格赛排名前200名”这两个条件的参赛团队可晋级复赛 创新应用简介是啥?

答:复赛需要提交创新应用方案,就是你针对市场需求提出的具体解决方案、产品应用、商业模式等等,创新应用简介就是你准备构思的创新方案的一个简单介绍。



关于提交的问题

 

1.结果提交不了?提交结果时停在59%(或其他数值)?

答:这个时候一般网络有问题,重新提交就可以


2.如果提交多次是不是以最后一次为准?

答:多次提交成绩显示为最好的那次

 

3.一直显示null  KING OF THE WORLD:把结果提交上去显示null

答:提示为null需要具体文件才能回答,具体请教技术人员。

 

  

关于登陆的问题


1.手机、邮箱收不到验证码,以QQ邮箱收不到验证码居多?

答:很可能就是手机号码错误,国际的手机号一般要选对区域号,qq邮件或者其他邮件收不到DataCastle发送的验证码,大多是在垃圾邮件中,请注意查看垃圾邮件。

 

2.使用了别人的账号实名认证了我的身份证号,我该怎么样解绑身份证,才能让自己的账号能使用呢?

答:目前新开发了身份证申诉功能,在个人中心的实名认证的地方,在认证过程中可如果遇到身份证已被使用,可以申诉找回,认证过后可以申诉解绑和申诉更换。

 

3.注册后,由于邮箱写错了,无法激活,应该怎么改成正确邮箱来激活的我的帐号?

答:由于邮箱使用的验证码,如果邮箱填写错误,重新填写即可,不存在重新激活问题,如果确实有问题请联系小运营。

 

4.总是时不时DNS未响应?

答:试着更换DNS,运营商DNS有时候会有问题,使用公共的DNS比如说谷歌8.8.8.8和阿里云的114.114.114.114。

 

5.能不能改自己的用户名/昵称呢?

答:在个人设置里面的账号设置可以修改用户名

 

6.用qq号快速登陆,现在只能使用qq号进入。密码输入不好用,也不能更改密码,总说我原来密码不对?

答:目前这个在第一次第三方登录的时候已经有一个请输入初始密码的地方了,如果已经不是第一次第三方登录并没有设置密码的,就只能在登录的地方点击忘记密码,通过手机和邮箱来找回密码,如果没有手机和邮箱认证,先手机或者邮箱认证,然后去点击忘记密码。

 

7.服务器把我的访问请求给拒绝了(疑似限制了我们的ip)?

答:我们服务器为了防止恶意攻击,会检测封禁一些不正常的请求的ip,你的ip可能是误封了,找小运营,我们仔细排查ip的问题。可能不是当事人问题,比如很多实验室一个楼都是ip,那么就可能A做了坏事情,B也被波及到了。

 



如果还有同学数据打不开,可以用下面这个非压缩版本的。

金融赛无压缩

链接:http://pan.baidu.com/s/1bo4o9X1        密码:5grg

教育赛无压缩

链接:http://pan.baidu.com/s/1jHOYWGQ    密码:zoqk

交通赛无压缩

链接:https://pan.baidu.com/s/1boJhbSb      密码:tiox 


如果你还有其他的问题,可以加入竞赛交流qq群:423584264,你也可以在后面留言哦,之后还要收集大家的问题进行反馈,感谢大家针对性的问题和建议。此篇帖子将会持续更新,如大家有问题可以在后面反馈,我们将会对相关问题作出解答。




6 回复

andrea020

DC币 0

Dec 8, 2016 4:15:21 PM

你好,是关于金融赛问题:

1)信用卡账单记录表 (bill_detail) :

a. 在这张表里如何确定是同一张信用卡,同样的user_di 和银行id,可以认为是同一张信用卡吗?

b. 这张表和银行流水表提供的数据的时间跨度有多长?1年? --了解这个是要看user在多少个cycle没有准时还款

c. 表里的一个字段:调整金额,指的是什么?

2)放款时间表(loan_time):

a. 里面的user是只有训练集的?还是也包括了测试集的用户?

b. 另外,测试集和训练集是完全没有重复的两群用户,是吗?

c. 字段-放款时间 是一个时间戳,还是一个相对的时间段,比如是2016年11月30日,还是1个月 ?

3)逾期表(overdue):这个逾期行为是相对放款时间表里那次放款而言吗?

1

Thinker

DC币 1

Dec 9, 2016 6:01:30 PM
@andrea020您好!

1.a   同样的user_di 和银行id并不代表是同一张银行卡哈,但是一个人同一个银行的卡是贡献额度的;

1.b   这个是可以根据数据计算的;

1.c  这个问题你可以去查查哈,其实金融知识网上都可以查到。

2.a  我们训练集和测试集都是分开给的,建议再仔细看看题和数据;

2.b  有没有重叠自己完全可以看数据得出结论哈;

2.c  放款时间是一个时间点,这个很明显。

3.   不是的


2

续汉冕

DC币 0

Dec 15, 2016 10:59:16 AM

你好,是关于参赛说明的请教:

参赛说明里面说“应根据算法赛数据和其他开放数据的数据样例进行创意构思”同时又说“资格赛和创新应用简介所在行业需保持一致”,否则无法参加复赛。

1. 平台提供的其他开放数据数据样例又属于交通、教育、金融哪个行业呢?这个里面似乎没有说清楚。

2. 比如我参加交通行业的算法资格赛,提供数据中哪些是属于交通行业的开放数据?是否可以在创新应用简介里写关于微博签到数据的创新应用简介?

3

king1234

DC币 0

Jan 16, 2017 11:38:36 AM

好奇怪,同一个时间戳怎么会有多种记录呢,一个特定时间用户浏览行为只可能是一个记录呀,多个记录要怎么理解,是不是转换的有问题?


4

hhhalrl

DC币 0

Jan 17, 2017 1:42:50 PM

有关教育赛的问题:

赛题背景中介绍:

基于学生每天产生的一卡通实时数据,利用大数据挖掘与分析技术、数学建模理论帮助管理者掌握学生在校期间的真实消费情况、学生经济水平、

发现“隐性贫困”与疑似“虚假认定”学生,从而实现精准资助,让每一笔资助经费得到最大价值的发挥与利用,帮助每一个贫困大学生顺利完成学业。

想请问一下,给的训练集数据中是否已经包含有“隐性贫困”与“虚假认定”这类学生的情况,还是已经排除掉这类学生???


5
用户
反馈