竞赛圈   > 【每周一更】DC小运营的周报

DC竞赛

  • 关注者 1
  • 关注了

DC竞赛

官方

点击图片可跳转至原文帖

一. DC周报

1. 优易数据杯决赛于9月10日结束,北京大学团队PKUatmers获得大赛冠军;


2. 微博热度预测竞赛火热进行中,刷榜源源不断,你的成绩更新了吗?

二. 行业信息

1. 与你最相关的大数据应用场景 

        对于大数据的应用场景,包括各行各业对大数据处理和分析的应用,最核心的还是用户需求。

接下来,本文通过梳理各个行业在大数据应用领域面临的挑战、如何寻找突破口来展示其潜在存在的大数据应用场景。

2. 最全的Spark基础知识解答 

UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架

dfsSpark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点;

但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,

因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。

3.  如何使用Spark/Scala读取Hbase的数据 

必须使用高亮参数启动Spark-shell,否则当你遍历RDD时会出现如下的Exception

java.io.NotSerializableException: org.apache.hadoop.hbase.io.ImmutableBytesWritable

spark-shell --conf spark.serializer=org.apache.spark.serializer.KryoSerializer

以下代码,经过MaprDB实测通过

4. MongoDB + Spark: 完整的大数据解决方案 

       MongoDB上海的活动已经结束快1个月了,我们再来回顾一下TJ在大会上进行的精彩分享吧~ MongoDB + Spark: 完整的大数据计算解决方案。


5. HBase运维实践-聊聊RIT的那点事 

     相信长时间运维HBase集群的童鞋肯定都会对RIT(Region-In-Transition,很多参考资料误解为Region-In-Transaction,需要注意)有一种咬牙切齿的痛恨感,一旦Region处于长时间的RIT就会有些不知所措,至少以前的我就是这样过来的。正所谓“恐惧来源于未知”,不知所措意味着我们对RIT知之甚少,然而“凡事都有因果,万事皆有源头”,处于RIT状态的Region只是肉眼看到的一个结果,为什么会处于RIT状态才是问题探索的根本,也是解决问题的关键。本文就基于hbase 0.98.9版本对RIT的工作机制以及实现原理进行普及性的介绍,同时在此基础上通过真实案例讲解如何正确合理地处理处于RIT状态的Region。一方面希望大家能够更好的了解RIT机制,另一方面希望通过本文的学习之后可以不再’惧怕’RIT,正确认识处于RIT状态的Region

三. 每周一问

怎么更好地做微博预测

微博预测竞赛正在火热进行中,部分小伙伴已经提交结果,

并且排行榜也在不断刷新。我们整理了大家反馈比较多的一些疑问,

并以Q&A地形式给出了解答,大家在微信公号或者论坛可以看到。

如果还有疑问,可以在群里@小运营哦,我们会及时解答。

进入Q&A


以上就是DC小运营为大家准备的周报哦,喜欢的小伙伴点个吧。



5条评论

分享

5条评论
意见反馈
关注微信公众号 关注微信公众号

扫一扫分享给周围朋友