hadoop周刊 第 176 期
启明星辰平台和大数据总体组编译
2016年6月29日
hadoop峰会本周在圣何塞召开,所以很期待在下期周刊看到新项目的发布和精彩演讲(请向我们提供任何相关的幻灯片)。至于本期周刊,有大量关于kafka streams、从amazon kinesis向google bigquery传递流式数据、google数据集搜索系统的文章。
技术新闻
shine介绍了他们如何使用amazon lambda和amazon kinesis,以及为apache web服务器提供的kinesis代理(用于采日志),以及从ec2移动数据到google bigquery的内容。本文提供了lambda函数(javascript编写)代码片段,规模和开销方面的信息,描述了如何通过gzip压缩数据从而优化传输开销。
cloudera博客撰文介绍了如何通过apache spark、apache impala(孵化中)、hue对梦之队数据进行分析。本文主要聚焦在分析上,附带了些spark代码以及hue的功能演示。
http://blog.cloudera.com/blog/2016/06/how-to-analyze-fantasy-sports-with-apache-spark-and-sql-part-2-data-exploration/
kdnuggets撰文介绍了13个和apache spark相关的主要api/项目/名词。包括rdd、dataframe、dataset、结构化流式计算、graphx、tungsten。每个条目都有一段章节介绍,足够很好的了解spark主要特性了。
http://www.kdnuggets.com/2016/06/spark-key-terms-explained.html
本文来自confluent博客,介绍了那些虽看起来简单却又不简单的kafka streams应用。例如用kafka streams编写结合用户点击流数据和用户位置数据的程序。后者存储在ktable中,ktable提供了类似带有数据库表主键的抽象(主键的最新值通过api暴露)。最后的程序倒是简单——只有几行代码。
http://www.confluent.io/blog/distributed-real-time-joins-and-aggregations-on-user-activity-events-using-kafka-streams
cloudera博客撰文介绍了meinstadt.de构建在apache flume、apache spark streaming、apache impala(孵化中)上的http请求异常检测系统。实现代码放在了github上。
http://blog.cloudera.com/blog/2016/06/how-to-detect-and-report-web-traffic-anomalies-in-near-real-time/
aws大数据博客有教程介绍了如何使用apache spark和apache zeppelin从amazon emr集群处理amazon kinesis流数据。本文包含了一些通过zeppelin notebook运行sql产生的数据可视化范例。
http://blogs.aws.amazon.com/bigdata/post/tx3k805cz8wfbrp/analyze-realtime-data-from-amazon-kinesis-streams-using-zeppelin-and-spark-strea
apache kudu(孵化中)接近1.0版发布了,将全面支持高可用性。本文介绍了这最后一块拼图“主复制”是如何实现的。晒了下jira上各种问题的跟进的情况,以及完成与剩余的测试。
http://kudu.apache.org/2016/06/24/multi-master-1-0-0.html
google的所有数据平台拥有超过260亿的数据集,每天要添加和删除16亿的数据集路径。为了跟踪、查询、比较数据集,他们研发了google dataset search(goods)。goods跟踪由api暴露的元数据,这些元数据被用于检索、监控等。
其他新闻
siliconangle采访了hortonworks ceo rob bearden。主题包括业界趋势、hortonworks财务、hortonworks的非hadoop技术以及物联网。
http://siliconangle.com/blog/2016/06/24/hadoop-and-beyond-a-conversation-with-hortonworks-ceo-rob-bearden/
产品发布
apache sentry本周发布了1.7.0版,修复了bug,增加了新特性和其他方面的提升。本次发布把hive授权框架升级到了第二版。
http://mail-archives.us.apache.org/mod_mbox/www-announce/201606.mbox/
基于apache cassandra 3.0构建的datastax enterprise 5.0,增加了对图数据、分层存储、cassandra多实例的支持。本次发布也增加了诸如加密和基于角色访问控制的附加安全特性支持。
driven,大数据应用性能监控系统发布了2.2版。本次发布的亮点是对apache spark的监控提供了支持。
bluedata发布了他们为amazon web services提供的epic企业大数据既服务产品。本产品通过简单的点击就能自动装载到基于docker的hadoop集群。
apache accumulo发布了1.7.2版。本次发布修复了write-ahead日志处理方式,优化了rfiles,以及性能上的小提升。
https://accumulo.apache.org/release_notes/1.7.2.html
apache zookeeper的顶级sdk,apache curator发布了2.11.0和3.2.0版。
https://cwiki.apache.org/confluence/display/curator/releases#releases-june23,2016,releases2.11.0and3.2.0available
apache hive发布了2.1.0版。修复了大量bug和功能增强,包括对hive的live longer和prosper 改进和以及jdbc支持。
活动
中国
7月2日 上海bigdata streaming第三次见面会
hadoop周刊 第 175 期
启明星辰平台和大数据总体组编译
2016年6月19日
hadoop峰会已过去一周了,我们已看到有多个产品(项目)敲定了发布时间。所以在技术新闻部分,有关于hadoop kerberos认证的内容另外还有salsify应用avro的文章。在产品发布部分,包括yandex新近开源的列式数据库在内的多个项目均有新版本发布。
技术新闻
opencore博客撰文示范了多种hadoop kerberos认证协议调试工具。尤其示范了如何使用usergropuinformation的“main()”方法导出一些有用的调试信息。
http://www.opencore.com/blog/2016/5/user-name-handling-in-hadoop/
yarn系列文章的第四部分,cloduera博客介绍了如何配置公平调度队列。尤其对资源约束设置、队列安置策略和抢占进行了详解。
salsify基于apache kafka构建了一个异步微服务架构,并采用apache avro进行数据序列化。该应用使用ruby开发,他们创建了多个新工具使得avro能和ruby语言很好的配合。本文介绍了这些工具和它们的价值:avro-builder用于定义记录、基于postgres的模式注册表,avromatic则从avro schema生成模型。
http://blog.salsify.com/engineering/adventures-in-avro
apache drill可以动态推断模式,还支持多模式(但相互兼容)数据。这种组合使得一些有趣的用例得以实现,例如跨多个不同模式的json文件查询。mapr博客探究了这些特性并进行了示范。
https://www.mapr.com/blog/sql-query-mixed-schema-data-using-apache-drill
本教程展示了如何将druid与apache kafka结合构建流式分析和可视化(借助pivot,druid的web ui)应用。
http://www.confluent.io/blog/building-a-streaming-analytics-stack-with-apache-kafka-and-druid
apache beam(孵化中)博客撰文介绍了他们在连接apache flink批处理集群方面的成果。beam是一个开源sdk,最初来自于google,用于暴露后端未知数据管道api。
http://beam.incubator.apache.org/blog/2016/06/13/flink-batch-runner-milestone.html
cask hydrator是一个通过ui界面采用拖拽方式构建数据管道的工具。本教程也演示了如何使用hydrator把数据从mysql导入到hdfs。
http://blog.cask.co/2016/06/bringing-relational-data-into-data-lakes/
databricks撰文介绍了即将发布的apache spark 2.0中新的sql子查询功能。有趣的是,本文以手册形式呈现,最直截了当的展现了代码和范例数据。
https://databricks.com/blog/2016/06/17/sql-subqueries-in-apache-spark-2-0.html
apache kudu(孵化中)博客撰写了在单集群节点使用raft的文章,借此动态扩展到多主节点集群。
http://getkudu.io/2016/06/17/raft-consensus-single-node.html
其他新闻
本文指出apache spark社区如果不用心经营,可能会重走因碎片化导致apache hadoop生态系统混乱的老路。举例来说,最新版本的cdh和hdp支持不同版本的spark。
https://techcrunch.com/2016/06/12/spark-fragmentation-undermines-community/
new stack撰写了一篇关于concord的文章,concord是一个构建在apache mesos上新的流式处理框架(公开测试状态)。concord使用c 开发,支持动态拓扑(无需停机实现管道的增加和减少)。
http://thenewstack.io/concord-leverages-mesos-high-performance-stream-processing/
随着databricks社区版的正式发布,databricks发布了使用databricks编写apache spark应用程序系列教程的第一篇。
https://databricks.com/blog/2016/06/15/an-introduction-to-writing-apache-spark-applications-on-databricks.html
hadoop圣何塞峰会于几周前召开,期间举行了题为“大数据行业中的女性”专场午宴。hortonworks博客特意采访了午宴主持人hortonworks cmo:ingrid burton。
产品发布
apache systemml(孵化中)最近发布了0.10.0版。systemml是一个机器学习框架,由多个项目在背后支撑,包括apache spark和apache hadoop。本次发布包括新的spark matrix block类型、支持深度学习、性能上的提升、新的knn算法等等。
http://systemml.apache.org/0.10.0-incubating/release_notes.html
apache mahout,另一个机器学习框架发布了0.12.2版。本次发布向着集成apache zeppelin可视化和支持notebook的目标迈进了一步。
http://mail-archives.us.apache.org/mod_mbox/www-announce/201606.mbox/
qubole宣布他们的hbase-as-a-service已经在aws上提供。它为长时运行集群提供了许多漂亮的特性。支持hannibal和其它监控工具,集成了apache zeppelin,并能通过节点引导程序与opentsdb和apache phoenix配置。
https://www.qubole.com/blog/product/quboles-hbase-as-a-service-is-generally-available-on-aws/
altiscale发布了altiscale insight cloud实时版。本系统由apache hbase和spark streaming支撑。
https://www.altiscale.com/blog/announcing-the-altiscale-insight-cloud-real-time-edition/
`hs2client`是一个为apache hive和apache impala(孵化中)提供的新c 库。除了支持c ,这个库还绑定了python,可以在pandas中把数据读到dataframe。
mapr在其发行版中支持了apache spark 2.0开发者预览版。
https://www.mapr.com/blog/spark-20-now-developer-preview-mode-mapr-platform
apache beam发布了其0.1.0孵化版,是本项目加入apache孵化器以来首次发布。
http://beam.incubator.apache.org/beam/release/2016/06/15/first-release.html
yandex开源了clickhouse,一个列式分析数据库。本系统为横向和纵向扩展而生。支持复杂数据类型(例如数组)和近似查询。该团队还发布了与其它数据库相比的基准测试结果。
https://clickhouse.yandex/
活动
中国
hadoop周刊 第 174 期
启明星辰平台和大数据总体组编译
2016年6月12日
spark峰会本周在旧金山召开,正如所料,本期周刊有大量关于apache spark的新闻、公告和版本发布。除spark外,本期还有kafka、cask、ambari方面的文章。在产品发布部分,有一年来apache pig首次版本更新,还一个为分布式系统设计的简洁新工具runway,最后是新版apache kudu(孵化中)。
技术新闻
debezium是一个相对较新的项目,用于数据库和apache kafka topic行级改变数据捕获。当面支持mysql、zookeeper、kafka,这是一篇在docker、kubernetes容器上配置zookeeper, kafka, mysql的教程。
有些人对apache kafka项目宣布采用另一种流式处理引擎感到惊讶,这就是kafka streams。kafka streams与其它系统存在显著的关键差异。本文很好的示范了这些不同点——abstraction、部署模型、支持基于状态的计算。
https://softwaremill.com/kafka-streams-how-does-it-fit-stream-landscape/
每个使用mapreduce、spark或类似系统的人都会陷入难以调试、数据特征bug这些问题中。bigdebug是ucla(加州大学洛杉矶分校)的研究项目/论文,旨在让开发人员通过工具发现单机问题:传入参数导致的崩溃,跟踪、断点、观察点、延迟报警等。该工具支持apache spark 1.2.1上。
https://blog.acolyer.org/2016/06/07/bigdebug-debugging-primitives-for-interactive-big-data-processing-in-spark/
cask撰文介绍了在开源cask data application platform (cdap)中运行spark的文章。运行在cdap的spark程序通过访问apache tephra(孵化中)实现细粒度事务支持。这样,就能很容易利用快照隔离实现从一个表复制到另一个表的一致性。cdap中的spark也能访问cask tracker,cask tracker提供数据血缘信息(什么时候创建、使用等)。根据应用的不同,cdap工具还能发挥更大价值。
http://blog.cask.co/2016/06/cdap-spark-prototype-to-production/
ibm hadoop dev博客撰写了从curl调用ambari rest api的教程。还示范了在vanilla和启用了kerberos的集群上建立会话,并为接下来的请求复用会话。
https://developer.ibm.com/hadoop/2016/06/07/ambari-rest-calls-for-kerberos-enabled-clusters/
google云平台博客撰文介绍了如何调试运行在google dataflow上的apache beam(孵化中)任务。为了调试性能瓶颈,dataflow有一些有用的统计数据和ui来帮助使用者深入每一个步骤。
https://cloud.google.com/blog/big-data/2016/06/understanding-timing-in-cloud-dataflow-pipelines
其他新闻
transaction processing performance council(tpc)发布了tpcx-bb基准测试,该基准测试为大数据系统设计。除了衡量sql外,还可以对机器学习集群和分类问题进行测试。
http://www.datanami.com/2016/06/01/big-data-benchmark-gauges-hadoop-platforms/
伦敦strata hadoop世界大会两周前已召开。演讲者的专题报告和幻灯片已发布到会议网站上。
splice machine,hadoop上的rdbms构建者,宣布开源他们的软件。当前,他们正在寻找贡献者/导师/豪杰来提升开源后的效果。splice machine有不少有趣的特性,例如acid事务,二级索引,引用完整性。
http://www.splicemachine.com/were_going_open_source/
altiscale博客编辑了许多关于客户服务、情感分析、气候变化、智慧城市、bias等方面的大数据应用案例文章。还收集了一些大数据怀疑论者的文章。
https://www.altiscale.com/blog/big-data-news-health-and-public-safety-sentiment-analysis-fixing-education-2/
spark峰会本周在旧金山召开。会议组织者databricks概述了两天内的热点内容,链接了许多的演讲和专题报告。
https://databricks.com/blog/2016/06/08/another-record-setting-spark-summit.html
大数据即服务(bdaas)公司qubole,撰文介绍了他们的客户如何接受使用spark。接受速度之快——一半多的客户现在开始用spark。qubole也支持presto,他们也看到了类似的增长。
https://www.qubole.com/blog/big-data/spark-usage/
twitter向apache孵化器提交了他们的复制日志服务distributedlog。
big data day la于6月9日在西洛杉矶学院召开。这次活动是免费的(如果预先注册的话),演讲者来自于confluent、databricks、yahoo、netflix等。
http://www.bigdatadayla.com/
产品发布
apache spark发布了spark 2.0预览版。发布声明中说道api和功能都尚未最终敲定。
https://spark.apache.org/news/spark-2.0.0-preview.html
justone构建并开源了kafka-to-postgresql连接器。本文介绍了该连接器的性能,详细描述了如何把消息转换为行,还描述了如何设定配置等。
http://www.confluent.io/blog/kafka-connect-sink-for-postgresql-from-justone-database
salesforce开源了runway,这是一个建模、仿真以及可视化分布式系统。在runway.system上有一个在线演示环境,演示了“too many bananas”模型,电梯系统和raft一致性系统。
https://medium.com/salesforce-open-source/runway-intro-dc0d9578e248
bloomberg最近开源了presto accumulo,面向apache accumulo的presto连接器。在声明中,链接了11页的论文,比较了基于的presto查询和基于accumulo java api查询的基准测试结果。
http://www.bloomberg.com/company/announcements/open-source-at-bloomberg-reducing-application-development-time-via-presto-accumulo/
微软azure发布了基于apache spark 1.6.1 稳定版的azure hdinsight。本次发布支持了面向spark的project livy rest任务凯发k8网页登录的服务支持,集成了azure数据湖存储(基于角色的访问控制),集成了intellij,支持了jupyter笔记本等。
https://azure.microsoft.com/en-us/blog/apache-spark-for-azure-hdinsight-now-generally-available/
linkedin开源了photon ml,他们的大规模回归分析库。photon构建在spark之上并在linkedin的yarn上运行(过去基于mapreduce,似乎因为要提升性能才迁移)。
hortonworks发布了spark-hbase连接器的技术预览版。预览版原生支持avro,支持运行安全集群,原生支持spark datasource api,并优化了分区修剪,列修剪,谓词下推。
http://hortonworks.com/blog/spark-hbase-dataframe-based-hbase-connector/
databricks发布了apache spark平台的第一阶段安全特性。本阶段对集群acl、saml 2.0进行了支持,端对端的审计日志。
https://databricks.com/blog/2016/06/08/achieving-end-to-end-security-for-apache-spark-with-databricks.html
apache orc 1.1.0版发布了。本次发布完成了从基于apache hive的代码到基于java的代码迁移,修正了c 时间戳处理程序,增加了hadoop mapreduce连接器。
http://orc.apache.org/news/2016/06/10/orc-1.1.0/
apache kudu发布了0.9.0版。增加了upsert命令,新的spark数据源不会依赖mapreduce api,提升了tablet server写性能。
http://getkudu.io/2016/06/10/apache-kudu-0-9-0-released.html
google云服务平台团队发布了支持spark 2.0预览版的google cloud dataproc。
https://cloud.google.com/blog/big-data/2016/06/google-cloud-dataproc-the-fast-easy-and-safe-way-to-try-spark-20-preview
dory(bruce的继承者)kafka producer的守护进程,现在支持从unix domain sockets或本地tcp接收数据了。
http://mail-archives.apache.org/mod_mbox/kafka-users/201606.mbox/<1465683894.608424023@apps.rackspace.com>
apache pig 0.16.0版,一年来首次发布。坚定了对tez的支持。
http://pig.apache.org/releases.html#8 june, 2016: release 0.16.0 available
活动
中国
spark meetup (上海) – 周六, 6月18日
hadoop周刊 第 173 期
启明星辰平台和大数据总体组编译
2016年6月5日
本周,spark、nifi、netflix meson、storm方面只有少量内容。spark峰会本周在旧金山召开,所以呢,下周肯定有不少内容。
技术新闻
databricks博客介绍了apache spark 2.0的新特性——跨语言支持存储和加载机器学习模型。模型通过简单的api被存储和加载,模型的元数据与参数保存为json风格,模型的数据保存为parquet风格。
https://databricks.com/blog/2016/05/31/apache-spark-2-0-preview-machine-learning-model-persistence.html
https://databricks.com/blog/2016/05/31/apache-spark-2-0-preview-machine-learning-model-persistence.html
meson是netflix用于执行机器学习工作流的框架。它是apache hive、spark、mesos这些大数据技术之间的粘合剂。工作流使用dsl进行编写,meson还提供了更加先进的流水线可视化ui。netflix目前没开源meson,但他们有这方面的计划。
ibm hadoop dev博客简要介绍和示范了hdfs归档存储能力。
https://developer.ibm.com/hadoop/2016/06/01/use-hdfs-archival-storage/
apache storm 1.0有了令人惊讶的新特性。本文关注了几个调试能力方面的增强:动态日志级别、统一日志搜索、事件抽样、集成jstack/heap dumps/java飞行记录器分析worker。
http://hortonworks.com/blog/whats-new-apache-storm-1-0-part-1-enhanced-debugging/
cloudera博客撰文介绍了如何使用apache spark来探索性分析存储在csv文件中的nba历史统计数据。分析过程混合使用了scala和sql。
http://blog.cloudera.com/blog/2016/06/how-to-analyze-fantasy-sports-using-apache-spark-and-sql/
apache nifi作为一种通用工具受到了很多的关注。它为“基于流程的处理”而生,可能对很多人并不意味着什么,但nifi支持标准的etl,流式处理等。许多nifi例子都示范了如何从twitter firehose把数据移动到hdfs中,但本文聚焦在nifi另外的特性上——示范了一些简单的从http拉数据的过程。
http://hortonworks.com/blog/apache-nifi-not-scratch/
amazon redshift构建于postgresql引擎上,所以你可以利用postgresql的扩展功能让redshift集群连接postgressql实例。这样一来,诸如跨数据库连接、将redshift的结果转换为json、在postgres中创建redshift数据视图、
数据库之间复制数据等有趣的应用都能实现。
http://blogs.aws.amazon.com/bigdata/post/tx1gq6wlewvj1ox/join-amazon-redshift-and-amazon-rds-postgresql-with-dblink
其他发布
feathercast发布了超过100个apachecon北美峰会的相关录音。
http://feathercast.apache.org/tag/apacheconna2016/
infoworld介绍了heron,twitter才开源的apache storm兼容项目。本文介绍了两个项目在架构上的不同。主要指出了heron起步于几个月前(storm已发布),就是说storm在特性上比heron更有优势。
http://www.infoworld.com/article/3078134/analytics/had-it-with-apache-storm-heron-swoops-to-the-rescue.html
databricks在edx上开了一门新课程,“apache spark入门”。课程从6月15日开始,一直持续两周。
launch-first-of-five-free-big-data-courses-on-apache-spark.html
产品发布
amazon emr发布了4.7.0版。本次发布支持了apache tez和apache phoenix,并内置了新版本的apache hbase、apache mahout、presto。另外,aws大数据博客还指导了phoenix如何上手。
apache hive本周发布了2.0.1版。从二月发布2.0.0以来,首次小版本发布。本次修复了60个bug。
http://mail-archives.us.apache.org/mod_mbox/www-announce/201605.mbox/
活动
中国
无
hadoop周刊 第 172 期
启明星辰平台和大数据总体组编译
2016年5月22日
本周主要关注流式计算—— twitter和cloudera介绍了他们新的流式计算框架,有文章介绍了apache flink的流式sql,datatorrent介绍了apache apex容错机制,还有concord这样新的流式计算框架,另外还有apache kafka的0.10版。其他新闻方面,apache孵化器有新动向——apache tinkerpop和apache zeppelin孵化成为顶级项目,tephra进入孵化器。除了上述内容,apache spark、apache hbase、apache drill、apache ambari等也有新文章。
技术新闻
datatorrent博客撰文介绍了apache apex在读写数据文件时的容错机制。apex是专门处理流式数据的,流式计算有一些微妙但重要的细节需要考虑。例如使用hdfs输出时,hdfs的租约机制会引发问题。
databricks博客介绍了spark 2.0中tungsten代码生成引擎带来的性能提升。博文举例说明了由于虚拟函数的管理,更好地利用cpu寄存器和循环展开,所以代码生成引擎能更快的生成代码。除了databricks的博文外,morning paper还谈到以上技术其实是受到vldb论文的启发。
streamscope是微软流式处理系统,是morning paper本周撰写的另一个流式计算文章。介绍了该系统的特征——吞吐量/集群大小、编程模型(sql)、时间模型、语义学/保证,以及微软产品中的应用。
https://blog.acolyer.org/2016/05/24/streamscope-continuous-reliable-distributed-processing-of-big-data-streams/
apache博客撰文介绍了hubspot团队对apache hbase的g1gc调优方面的经验。本文回顾hubspot如何尝试和保障稳定性、如何保障99%的性能、如何缩短花在垃圾回收上的时间。该团队使用很多技巧,很好地决绝了错综复杂的gc算法。本文最后,还一步步示范了hbase的g1gc调优。
linkedin撰文阐述了调试kafka偏移量管理问题的诸多困难。本文聚焦了两个所谓"offset rewind"事件的症状,如何在监控过程中检测到这类事件,以及导致这两个事件的根本原因(及凯发天生赢家一触即发官网的解决方案)。
https://engineering.linkedin.com/blog/2016/05/kafkaesque-days-at-linkedin--part-1
databricks博客发布了使用apache spark进行基因变异分析系列文章的第三部分也是最后一篇。本文从准备(把文件转换到parquet并加载进spark rrd)到如何加载基因型数据再到运行kmeans聚类算法基于基因型特征预测地理种群。
https://databricks.com/blog/2016/05/24/predicting-geographic-population-using-genome-variants-and-k-means.html
许多批处理大数据生态系统已从自定义api回到sql上,所以如果流式处理框架也发生了同样的变化,一定很有趣。本文,apache flink团队介绍他们计划支持流式sql。flink已经有了table api,他们利用apache calcite提供了对sql的支持。对于windowing,他们计划用calcite的流式sql扩展。最初对sql的支持将在1.1.0版中体现,在1.2.0版加强。
http://flink.apache.org/news/2016/05/24/stream-sql.html
本文介绍了apache drill的xml插件。尽管还没有和drill集成在一起,但它相当容易被编译成jar和配置对xml的支持。
https://www.mapr.com/blog/how-use-xml-plugin-apache-drill
hortonworks博客简略介绍了ambari监控度量系统的架构,最近加入了grafana作为其前端仪表盘。该系统使用apache phoenix和apache hbase作为存储支撑,所以是可以横向扩展的。
http://hortonworks.com/blog/hood-ambari-metrics-grafana/
这篇教程介绍了怎样在amazon emr上使用spark sql与hue、apache zeppelin配合运行sql查询存储在s3中跨制表符分割的数据。本文最后展示了如何从spark向dynamodb存储数据。
http://blogs.aws.amazon.com/bigdata/post/tx2d93gzrhu3tes/using-spark-sql-for-etl
heroku团队分享了他们使用最新版apache kafka的体验——才引入的timestamp字段(8字节)会导致一些反直觉的性能变化。
https://engineering.heroku.com/blogs/2016-05-27-apache-kafka-010-evaluating-performance-in-distributed-systems/
其他新闻
o'reilly数据播客秀就spark 2.0中结构化流式计算方面的问题采访了来自databricks的michael armbrust。网站上的一篇文章选择引用了其中的话题—— spark sql、结构化流式计算的目标、端到端管道的保证、对在线处理运用spark机器学习算法。
https://www.oreilly.com/ideas/structured-streaming-comes-to-apache-spark-2-0
本周两个大数据项目从apache孵化器孵化完成——apache tinkerpop和apache zeppelin。tinkerpop是图计算框架,zeppelin是面向数据分析基于web的notebook。
tephra,hbase的事务引擎进入了apache孵化器。tephra最初由cask的团队创建,目前仅和apache phoenix进行了集成。
http://blog.cask.co/2016/05/tephra-a-transaction-engine-for-hbase-moves-to-apache-incubation/
techrepublic撰文介绍了concord.io,一个由c 开发的流式处理框架。旨在填补高性能流式计算市场的空缺。
http://www.techrepublic.com/article/could-concord-topple-apache-spark-from-its-big-data-throne/
产品发布
apache avro本周发布了1.8.1版。修复了超过20个bug和一些其它进步。
http://mail-archives.us.apache.org/mod_mbox/www-announce/201605.mbox/
confluent发布了基于librdkafka开发的kafka python客户端。
https://pypi.python.org/pypi/confluent-kafka/0.9.1.1
伴随着新的kafka 流式计算方式,apache kafka 0.10版发布了。新版本支持了机架感知和消息中的timestamp,提升了sasl和kafka connect等。
http://mail-archives.us.apache.org/mod_mbox/www-announce/201605.mbox/
confluent发布了基于apache kafka 0.10的confluent platform 3.0版。除了kafka的核心特性,confluent platform还有一个商业组件为kafka connect提供配置工具和端到端流监控。
apache kylin,大数据olap引擎,发布了1.5.2版。作为一次补丁级的发布,1.5.2有不少新特性/提升/bug修复,包括支持cdh 5.7和mapr。
http://mail-archives.us.apache.org/mod_mbox/www-announce/201605.mbox/
twitter开源了他们的流式处理系统heron。heron是twitter用于替换apache storm的产品,发力点在性能、调试以及开发人员生产率。
https://blog.twitter.com/2016/open-sourcing-twitter-heron
envelope是来自于cloudera labs的新项目,它提供了基于配置文件的流式etl处理过程。构建在spark streaming之上,envelope最近正在研发面向kafka和kudu的连接器。
http://blog.cloudera.com/blog/2016/05/new-in-cloudera-labs-envelope-for-apache-spark-streaming/
活动
中国
spark meetup 4 (杭州) – 周日, 6月5日
http://www.meetup.com/hangzhou-apache-spark-meetup/events/231071384/
hadoop周刊 第 171 期
启明星辰平台和大数据总体组编译
2016年5月22日
本周,包括linkedin新开源项目在内的几个项目都有版本发布。在技术新闻和其他新闻方面,多篇文章回顾了apache: big data north america会议,另外有一组跨越多个不同数据系统分析纽约出租车数据的系列文章。
技术新闻
databricks博客分析了apache spark中两种逼近算法。之一,“approxcountdistict”是用来评估不同值的数量;之二,“approxquantile”用于生成逼近百分比。本文介绍了算法和可视化精度不同的残差。
https://databricks.com/blog/2016/05/19/approximate-algorithms-in-apache-spark-hyperloglog-and-quantiles.html
本教程描述了如何使用apache hadoop hdfs、apache solr、hue存储、索引、查询dicom格式的医学影像。文章贯穿了加载和获取数据的整个步骤。
http://blog.cloudera.com/blog/2016/05/how-to-process-and-index-medical-images-with-apache-hadoop-and-apache-solr/
mapr streams是一个api兼容apache kafka的系统。本文在宏观上比较了mapr streams和kafka的异同。同时阐明了kafka streams怎样和mapr streams扯上关系的。
https://www.mapr.com/blog/apache-kafka-and-mapr-streams-terms-techniques-and-new-designs
本文在我看来是最清晰介绍paxos的文章之一,paxos为分布式系统构建了一致性协议。本文用绘图计算机和分布式拍卖示范了这个协议。
http://ifeanyi.co/posts/understanding-consensus/
基于apache: big data north america会议上的一篇演讲。datanami窥探了即将发布的apache hadoop 3的新特性。包括,shell脚本重写、任务集本地优化、内存大小自动伸缩能力、支持hdfs erasure codings。本文着重在erasure codings上,文章密切关注了erasure codings在存储效率方面的提升(3x磁盘消耗降低到1.5x)。
这篇演讲来自于pydata柏林会议,描述了apache arrow和feather文件格式,探究了数据在跨语言/框架互操作性的工作机制。
发布了两个来自于不同会议与apache kafka有关的演讲视频。第一个讨论了kafka的安全特性,第二个探索了kafka如何跨系统共享数据。
这篇博客集成了数篇利用amazon redshift、google bigquery、postgres、presto数据系统加载/查询纽约出租车数据的文章。除了原始基准测试,还详细介绍了如何处理故障、优化、比较替代方案(aws的s3与hdfs比)。
http://tech.marksblogg.com/all-billion-nyc-taxi-rides-redshift.html
o'reilly撰文介绍了通过kafka、flink、elasticsearch、kibana怎样实现kappa架构。文章概述了lambda和kappa架构,介绍了主要的架构组件,以及怎样设置使用贝叶斯模型发现新奇事物。
其他新闻
本文列举了最近在apache: big data north america会议上提到的几个大数据生态系统项目。有不少是我们没纳入视线的内容。
http://www.datanami.com/2016/05/11/open-source-tour-de-force-apache-big-data-2016/
pivotal博客有一篇关于大数据和敏捷开发有趣的文章。大数据系统往往停留在非敏捷的世界,例如在装载数据前需求要收集到位,模型要定义好。本文认为,没有在云环境中经过长期验证的话,要对这种方式进行约束(有限的能力和性能、竖井式数据等)。
https://blog.pivotal.io/big-data-pivotal/features/when-it-comes-to-big-data-cloud-and-agility-go-hand-in-hand
databricks发布了他们记录的网络会议视频“apache spark mllib: from quick start to scikit-learn”。除了视频内容,他们还在会议中解答了八个常见问题。
https://databricks.com/blog/2016/05/18/spark-mllib-from-quick-start-to-scikit-learn.html
hortonworks博客回顾了apache storm的历史。2011年开源,2013年进入apache孵化器,2014年成为顶级项目,今年初发布了1.0版。本文论述了每个里程碑的主要技术进步。
http://hortonworks.com/blog/brief-history-apache-storm/
hbasecon本周在旧金山召开。这次会议,apple、yahoo、facebook都有演讲材料。
mapr发图庆祝了过去一年中apache drill取得的成绩。一年中发布了7个版本,完成了多个里程碑。
https://www.mapr.com/blog/happy-anniversary-apache-drill-what-difference-year-makes
datanami发布了在apache: big data north america会议上,asf总监jim jagielski和odpi项目总监john mertic的问答录,如大家所料,主要话题还是asf和odpi的关系。
http://www.datanami.com/2016/05/20/apache-foundation-keeps-eyes-wide-open-odpi/
产品发布
linkedin开源了ambry,他们的objectstore分布式系统。ambry代码已提交到github,这篇博文介绍了ambry的服务承诺,设计目标,体系架构和接口。
https://engineering.linkedin.com/blog/2016/05/introducing-and-open-sourcing-ambry---linkedins-new-distributed-
由apache hawq(孵化中)驱动的pivotal hdb 本周发布了2.0版,hdb为hadoop提供了分析数据库。
https://blog.pivotal.io/big-data-pivotal/products/fail-fast-and-ask-more-questions-of-your-data-with-hdb-2-0
apache mahout本周发布了0.12.1版,mahout是一个机器学习和数据挖掘系统。本次发布旨在推进flink与mahout的集成。
http://mail-archives.us.apache.org/mod_mbox/www-announce/201605.mbox/
apache tajo发布了0.11.3版。tajo是hadoop的数据仓库。本次发布修正了5个bug。
http://tajo.apache.org/releases/0.11.3/announcement.html
mongodb为apache spark发布了新的mongodb connector。除了对应spark的hadoop inputformat shim外,该connector还有其他特性。最后,还解释了mongodb一些关键特性。
syncsort发布了dmx-h v9,支持kafka以及新的智能执行框架。
http://insidebigdata.com/2016/05/20/syncsorts-latest-innovations-simplify-integration-of-streaming-data-in-spark-kafka-and-hadoop-for-real-time-analytics/
活动
中国
无
hadoop周刊 第 169 期
启明星辰平台和大数据整体组编译
2016年5月8日
本周内容短小精练。主题覆盖apache beam、mapr季度业绩、最近的kafka峰会,以及来自cloudera新开源的分布式单元测试框架。
技术新闻
elastic分析了宕机事件的根源。错误配置zookeeper内存设置会引起过度的gc,这将从根本上导致zookeeper集群丢失。文章介绍了一些缓解策略,用来防止未来类似问题的发生。
https://www.elastic.co/blog/elastic-cloud-outage-april-2016
cask博客简明扼要的归纳了最近big data applications meetup的花絮。首先出场的是pachyderm,它基于docker容器提供“数据git”语义。第二个出场的是tubemogul大数据平台,tubemogul构建于hadoop、hive、spark、presto之上。
http://blog.cask.co/2016/05/pachyderm-and-tubemogul-share-their-big-data-application-platforms-and-experience/
google、dataartisans同时撰文介绍了apache beam(前生是google dataflow sdk)。google的文章解释了为何开源和开发beam的动机,dataartisans的文章介绍他们对beam模型的支持以及怎样考虑flink和beam api之间的关系。
ibm hadoop dev博客有个关于安装python、scala和为jupyter notebook嵌入r内核的操作说明。同时,也说明了怎样连接spark和通过ssl暴露notebook。
https://developer.ibm.com/hadoop/blog/2016/05/04/install-jupyter-notebook-spark/
本文介绍了mongo hadoop的连接函数是如何窜起spark和mongodb的。
https://x.ai/using-the-mongo-hadoop-connector-as-a-translation-layer-to-spark/
qubole博客撰文比较了用于大数据分析的流行编程语言—python、r和scala。
http://www.qubole.com/blog/big-data/programming-language/
其他新闻
mapr宣布本季度他们授权下单创纪录的增长了99%,以及146%的美元净增长率。
https://www.mapr.com/company/press-releases/mapr-achieves-another-record-quarter-99-software-subscription-license-growth
本文描述了最近google cloud dataflow和apache spark在google compute engine上的基准测试表现。dataflow胜过spark2-5.7倍(一直以来,最好是在自己的环境下评估工作负载,而不是一味的信任基准测试)。本文还解释了一种“冷战”,通过它使每个使用大数据工具的人获益。
http://www.datanami.com/2016/05/02/dataflow-tops-spark-benchmark-test/
confluent博客回顾了最近召开的kafka峰会,包括编程挑战预选赛,主题演讲,分组会议等等。
http://www.confluent.io/blog/log-compaction-kafka-summit-edition-may-2016
福布斯介绍了美国运通在过去5年间采用大数据技术的历程。本文中,美国运通分享了一些技巧和学到的经验教训,例如采用新技术的困难(得到组织高层的认同是多么的重要),以及雇佣和留住工程师的挑战等等。
http://www.forbes.com/sites/ciocentral/2016/04/27/inside-american-express-big-data-journey/
产品发布
cask发布了cask data application platform (cdap)3.4版本。新版本增加了cask tracker,新的数据集成/审计/搜索系统,升级了cask hydrator的ui,增强了对spark的支持等等。
http://blog.cask.co/2016/05/announcing-cdap-release-3-4-introducing-tracker-next-gen-hydrator-enhanced-spark-support-and-much-more/
cloudera开源了“dist_tes”,并行执行单元测试的新工具。通过该工具,对hadoop和kudu项目进行单元测试,可以在数分钟而不是数小时内完成。该工具绑定了c 和java,并在网站上演示了这些特性。
http://blog.cloudera.com/blog/2016/05/quality-assurance-at-cloudera-distributed-unit-testing/
google宣布google bigquery和drive可集成在一起,把输出保存到google sheets。
http://techcrunch.com/2016/05/06/google-connects-bigquery-to-google-drive-and-sheets/
活动
中国
无
hadoop周刊 第 168 期
启明星辰平台和大数据整体组编译
2016年5月1日
kafka峰会本周在旧金山召开,不容置疑本周期刊将有大量的kafka内容。除此以外,还有大量关于impala性能、kudu、druid方面的文章。在其他新闻部分,apache apex成为了apache的顶级项目,qubole开源了其streamx项目。
技术新闻
本文快速浏览了如何在可能或不可能创建新数据分区的情况下操作spark rdd。尤其`mapvalues`和`filter`会保存分区而`map`却不会。
https://medium.com/@corentinanjuna/apache-spark-rdd-partitioning-preservation-2187a93bc33e
本文介绍了如何使用conda构建独立的python环境(例如pandas插件),以便做为spark job的一部分装载到集群节点。经过这样的处理,就能在没有python原生包被安装在主操作系统上的情况下运行pyspark job。这种方案同样适用于sparkr。
datadog博客有三篇监控kafka的系列文章。第一篇详细概括了broker、producer、consumers、zookeeper的关键度量指标。第二篇介绍了怎样在jconsole和其他工具上通过jmx查看指标,第三篇介绍了datadog集成方面的知识。
https://www.datadoghq.com/blog/monitoring-kafka-performance-metrics/
salesforce撰文介绍了kafka在他们组织内的成长史。最初,他们借助kafka驱动了操作指标分析功能,渐渐地成为一个驱动众多系统的大平台。salesforce运用kafka在多个数据中心运行,并使用mirrormaker在集群间复制和聚合数据。
https://medium.com/salesforce-engineering/expanding-visibility-with-apache-kafka-e305b12c4aba#.5k7j921o3
metamarkets博客有一篇关于优化大规模分布式系统的有趣博文。druid,他们的分布式数据仓库,最近增加了一种"先进先出"的查询模式,并在重型负载大集群间进行了测试。根据他们的假设,推测任何可能发生和收集到有趣的的指标。
https://metamarkets.com/2016/impact-on-query-speed-from-forced-processing-ordering-in-druid/
google cloud big data博客撰文介绍了bigquery的内部存储格式,容器,以及其它使得存储数据更有效率的优化措施。
https://cloud.google.com/blog/big-data/2016/04/inside-capacitor-bigquerys-next-generation-columnar-storage-format
apache kudu(孵化中)博客概述了最近使用ycsb工具对系统性能分析和调优的结果。
http://getkudu.io/2016/04/26/ycsb.html
impala 2.5无论是tpc基准测试还是其它方面均有显著的性能提升。提升项包括运行时过滤器,llvm代码生成器对`sort`和`decimal`的支持,更快的metadata-only查询,等等。
http://blog.cloudera.com/blog/2016/04/apache-impala-incubating-in-cdh-5-7-4x-faster-for-bi-workloads-on-apache-hadoop/
本文介绍了,为支持高可用性,如何对hive metastore配置mariadb的。
https://developer.ibm.com/hadoop/blog/2016/04/26/bigsql-ha-configure-ha-hive-metastore-db-using-mariadb10-1/
altiscale博客撰文介绍了寻找nodegroup相关bug的过程(跟进三月的文章)。如果你因没找到hadoop(或其他分布式系统)的bug根结而气馁,不要叹气。本文告诉你这的确困难,甚至需要程序员在销售hadoop服务的企业干活才能搞定。
netflix现在运行了超过4000个kafka broker,横跨36个集群。在云中运行kafka需要一些权衡,团队平衡了开销和数据丢失(日数据丢失小于0.01%)。本文分享了团队在aws中运行kafka的经验,主要是一些典型问题,部署策略(小集群、隔离的zookeeper集群),集群级容错,支持aws availability zones,kafka ui可视化等等。
amazon大数据博客撰文介绍了如何从amazon emr加密数据存放在s3中。这种集成方式同时支持客户端和服务器端加密(借助于amazon kms)。
http://blogs.aws.amazon.com/bigdata/post/txbqtaf 3x7vlep/process-encrypted-data-in-amazon-emr-with-amazon-s3-and-aws-kms
tubemogul介绍了他们大数据平台的历史,该平台每月支撑万亿次数据分析请求。该团队很早就运用amazon emr,导入了storm实时处理技术,最终把大数据服务落在了qubole上。
https://www.tubemogul.com/engineering/the-big-data-lifecycle-at-tubemogul/
caffe,深度学习框架,与spark进行了集成—caffeonspark。mapr公司撰文介绍了如何在mapr yarn上运行,文章还包括了采用的性能优化手段。
https://www.mapr.com/blog/distributed-deep-learning-caffe-using-mapr-cluster
其他新闻
apache apex,大数据流式处理和批处理系统,现在成为了apache软件基金会的顶级项目。apex去年8月进入孵化器。
https://blogs.apache.org/foundation/entry/the_apache_ software_foundation_announces90
heroku kafka,是一个分支于heroku的kafka管理服务。最近接近发布beta版。
https://blog.heroku.com/archives/2016/4/26/announcing-heroku-kafka-early-access
mapr博客上的一篇文章强调为什么性别多样性是重要的,还提到了大数据论坛中的女性,本文旨在鼓励女性投身于这一领域。“大数据论坛中的女性”研讨会本周由mapr组织在圣何塞召开。
https://www.mapr.com/blog/case-women-big-data
产品发布
streamx是一个来自qubole的开源项目,它能从kafka拷贝数据到amazon s3这样的目标存储中。qubole把streamx作为一种管理服务提供。
http://www.qubole.com/blog/big-data/streamx/
snappydata是一个为olap和oltp查询流式数据的新平台(和公司)。snappydata由apache spark和gemfire的内存存储技术驱动。
apache geode(孵化中)发布了1.0.0-incubating.m2版本,它是一个分布式数据平台,瞄准高性能和低延迟。新版本提供了广域网下的点对点连接等新特性。
http://mail-archives.apache.org/mod_mbox/incubator-geode-dev/201604.mbox/
apache knox发布了0.9.0版,它是hadoop的rest api网关。新版本为ranger和ambari提供了ui界面支持,以及一些其它的提升和bug修复。
http://mail-archives.us.apache.org/mod_mbox/www-announce/201604.mbox/
活动
中国
无
欢迎来到hadoop周刊周一特别版。本周有大量来自spark、kafka、beam、kudu的技术新闻。如果你正在寻找一些更前沿的技术,apache metron(孵化中)发布了它们第一个版本。metron,是一个构建在hadoop上正在不断发展的通用安全系统。
技术新闻
本文介绍了如何在aws上构建流式处理系统。包括了诸如amazon kinesis 、aws lambda、kineses s3 connector之类简单的搭配方案,也介绍了aws实现实时分析场景这样相对复杂点的方案。
本文介绍了怎样使用spark testing base。spark testing base是一个用scala编写,通过java调用的spark测试框架。本文的样例代码展示了如何隔离测试逻辑重构spark代码,同时还通过java处理了一些臃肿的scala api。
altiscale博客概述了在spark环境下,构建thin和uber jar包的优劣。示范了在maven和sbt分别构建两种包的情况。
linkedin介绍了他们的kafka生态系统,生态系统包含一个特殊的kafka producer,一个为非java客户端提供的rest api,一个avro模式注册表,以及gobblin(装载数据到hadoop的工具)等等。
该spark streaming教程介绍了怎样通过twitter4j api拉推文,基于标签过滤,对推文进行情感分析。
apache kudu(孵化中)是apache impala(孵化中)的绝佳伴侣,因为它能高效地解决广泛的分析和有针对性的查询。本文描述了两者集成的技术细节,例如kudu的设计如何保证高效地查询能力,如何通过impala和kudu执行写/更新/删除操作等等。
mapr撰文介绍了使用spark-sklearn扩展一个已存在的scikit-learn模型。文章介绍了如何透过airbnb数据集内部建模,还介绍了如何傍着spark-sklearn进行交叉验证。
aws大数据博客写了个如何在amazon emr中使用hbase和hive的教程。本教程介绍了hbase,描述了如何在s3中恢复hbase表,示范了hive和hbase如何集成等等。
本文描述了为学生在大数据课程上提供实战经验的挑战。作者经历若干次的迭代和选择似乎有了一个好方案— altiscale的hadoop-as-a-service。
cloudera博客的一篇客做文章,作者比较了parquet和avro在跨两个数据集的不同处理方式(一个数据集窄(3列)、一个数据集宽(103列))。在用spark和spark sql测试查询/操作后,作者发现parquet和avro在查询序列化数据方面有时表现很类似,尽管在大多数情况下查询parquet数据的时候更快点(序列化数据更小)。
本文介绍了如何在cdh这样的分布式环境中使用sparkr,尽管sparkr官方还没有支持这种方式。借助yarn在worker本地安装r语言包,job稍加改造就能执行了。
很多开源框架都能执行mapreduce以及借助更高级的编程模型完成类似的工作。纵观过去,它们依赖独立运行的框架(例如mapreduce, storm),但是最近的某些变化使得这一切充满了变数。apache beam(孵化中)更进一步地跨越了批处理、流式处理两种执行模式,内置更加复杂的计算模型。
apache博客发布了hbase在hdd、ssd以及ramdisk上的写入性能测试比对的7篇系列文章。通过这一分析,作者发现并提议在hbase和hdfs上实现一些未覆盖的功能。
其他新闻
tom white,“hadoop权威指南”的作者撰文介绍他是如何步入apache hadoop殿堂的。他的早期贡献是绕着hadoop与amazon web services集成展开,而今aws已成为hadoop项目成功的重要部分。
fluo,为apache accumulo准备的分布式处理引擎,向apache孵化器提交了孵化申请。
apache phoenix宣布将在hbasecon后举行会议,apache phoenix是一个sql-on-hbase系统。该会议只有半天,主题是介绍phoenix内部情况和用例。
产品发布
apache metron,构建于hadoop上的安全框架,发布了0.1版。hortonworks支撑其作为技术预览版,并撰写本文介绍了如何上手,如何贡献,如何使用metron ui等等。
apache nifi本周发布了0.6.1版。这是修复了10多个bug后的修复版。
apache flink本周发布了1.0.2版。本次发布包括了bug修复,rocksdb环境下的性能提升以及一些文档方面的进步。
amazon发布了新版amazon emr,开始支持hbase 1.2。
活动
中国
无
2016年4月17日
启明星辰——平台和大数据整体组编译
hortonworks在本周hadoop欧洲峰会上有若干爆料,贯穿了本期整个内容。伴随着骄人的新特性,apache storm发布了1.0.0版。在技术新闻方面,有不少基于kafka构建大规模服务和分布式系统测试的文章。如果你错过了hadoop峰会,那么不用担心,演讲视频已经放到了网上。
技术新闻
smyte撰文介绍了他们基于事件数据流实时检测垃圾邮件和诈骗信息的基础设施。最初的事件处理系统构建在kafka、redis、secor以及s3上,为了满足规模不断扩张和廉价的要求,他们把系统迁移到基于磁盘的方案上,使用redis协议与rocksdb交互,使用kafka进行复制。
本文把rsyslog、kafka、aws 与elk栈(elasticsearch、logstash、kibana)结合,处理诸如反压、规模以及维护方面的问题。本文覆盖了rsyslog集成kafka以及schema方面的技巧,也介绍了如何运行kafka、zookeeper以及aws中大规模自动分组。
hortonworks撰文介绍了apache atlas以及apache range将要引入的数据管理特性。这些特性是:分类访问控制、数据有效期策略、位置特性策略、禁止数据集组合、跨组件家族(例如从kafka到storm再到hive的数据跟踪)。
apache hawq (孵化中)是一个基于greenplum在hdfs上提供数据查询的sql引擎。本文讨论了其典型设计以及新版本的诸多改进。包括它与spark和mapreduce的区别,还有些hadoop挑战经典mpp设计的内容,以及hawq的新设计怎样结合mpp和批处理技术进而使其两者兼顾。
cloudera博客撰文介绍了对hadoop分布式系统进行故障注入、组网的测试工具agentest。它能注入网络故障(例如丢包),资源满载(例如cpu、io、磁盘空间)等等。当测试网络分区时,可以评估环形组网、桥接组网等等。
hortonworks博客展望了将包含新版本spark和zeppelin的hdp 2.4.2。spark2.0预览版和zeppelin新特性都将包含在内。
cask撰文介绍了在hbase region compaction这样罕见事件发生的前后,他们是怎样通过长时间测试以评估分布式系统正确性的。
本文介绍了如何结合sparkr与亚马逊emr进行地理空间分析的。通过sparkr的hive集成组件,可以立刻基于s3上的数据映射hive外部表。从这开始,数据就能直接加载到内存中使用r语言分析,很容易实现高质量的数据可视化。
mapr编写了使用pig和hive分析职业棒球大联盟球队水平的教程。pig用于数据初加工,hive提供基于sql的数据查询环境。借助hive odbc驱动和hive服务器,使得微软excel也能用于获取和分析数据。
signalfx通过27节点的kafka集群每天处理700多亿条消息。只有基于他们积累的大规模kafka使用经验才能有如此高的量,因此他们共享了不少调试kafka的技巧,定位告警(例如日志刷新延迟增加),以及kafka横向扩展。
dataartisan's博客为了度量flink在数据流效率、低延迟、正确性上的能力,专门写了这篇文章。为了证明效率,在高吞吐量的环境下运行了最新的yahoo!流式基准测试程序。在正确性方面,文章突出了flink事件判别和处理事件(星球大战电影年表做类比)方面的优势。最后,文章描述了flink未来版本基于内存的查询任务。
本教程介绍了怎样把tcp socket中的文本数据流转换为spark流式数据源。
本文介绍了在构建hadoop的时候怎样防止aws证书意外提交到补丁或git资源库。除hadoop本身外,本文还建议使用“git-secrets”工具防止意外提交访问/安全密钥。如果你用的是hadoop s3,还推荐了新补丁供评估。
big data & brews采访了mapr的ted dunning和jacques nadeau。apache arrow也在本次采访范围内。
其他新闻
dataengconf最近在旧金山召开。本文总结了uber、stripe、microsoft、instacart、jawbone的发言内容。也介绍了会议主题“数据科学在现实世界中是一个产品和工程学科”。
hortonworks在上周都柏林举行的hadoop欧洲峰会上大放异彩。zdnet报导了这些亮点,其中包括与pivotal(已转售给hdp)的扩展合作,与syncosrt的转售协议,以及atlas、ranger、zeppelin、metron的技术预览。报导还介绍了hortonworks、cloudera、mapr产品的不同之处。
flink 2016峰会将在九月于德国柏林举行。讨论议题征集将于六月末结束。
youtube上发布了hadoop都柏林峰会演讲视频。正如预期的那样,这些演讲内容涵盖hadoop生态系统的各个部分。
产品发布
metascope是一个配合schedoscope在hadoop集群中进行元数据管理的新工具。通过web界面,利用数据沿袭它能洞察大量的数据。也提供检索、内嵌文档、rest api等等功能。
apache hbase 1.2.1于本周发布,在1.2.0的基础上解决了27个问题。发布声明中重点介绍了四个高优先级的问题。
apache mahout机器学习库发布了0.12.0版。该版本的“samsara”数学环境开始支持apache flink了,并且是平台无关的。发布声明中分享了与flink集成、已知问题、项目演进计划相关的内容。
apache storm 1.0.0本周发布了。亮点包括性能提升(普遍提升3倍以上)、新的分布式缓存api、nimbus的高可用性、自动反压、动态worker性能分析等等。
apache kudu(孵化中)本周发布了0.8.0版。本次发布添加了apache flume sink、部分功能提升、修复了一批bug。
cloudbreak本周发布了1.2版,它为云环境提供hadoop集群docker。新特性包括支持openstack以及为自定义服务器提供配置脚本。
cloudera发布了cloudera enterprise 5.4.10,内置了flume、hadoop、hbase、hive、impala等组件。
presto accumulo是个新项目,为accumulo读写数据提供了presto连接器。
活动
中国
无
第 165 期 2016年4月10日
启明星辰——平台和大数据整体组编译
本周,包括linkedin 和airbnb新开源项目在内的数个产品进行了重大版本发布。本期技术部分与流式处理有关——spark、flink、kafka等等;新闻部分是关于spark summit 和hbasecon的会议议程。
zalando发表了他们是如何选择apache flink作为流式处理框架的文章。该文章阐述了对评价标准进行验证后得出的结论,阐明了选择apache flink的主因—在高吞吐量的情况下依然能保持低延迟,真正的流式处理,开发人员支持。
cloudera博客刊登了来自wargaming.net的文章,通过本文可了解到他们如何通过kafka、hbase、drools、spark构建实时处理基础设施的。另外,在数据流程方面,他们介绍了如何对hbase的检索和序列化、hbase和spark之间的数据本地化以及spark计算方面的优化措施。
infoq发布了大规模流式处理—smack(spark、mesos、akka、cassandra以及 kafka)栈的介绍视频。讨论了为什么smack栈在处理同样问题的时候比lambda架构更简单。
confluent“日志压缩”系列博文又有更新,介绍了kafka项目三月份发生的事情。有不少令人关注的开发内容,包括机架感知、kerberos支持、基于时间索引方面的进展。以及不少你(我也是)没有时间持续关注的最新研发成果。
apache flink 1.0引入了新的复杂事件处理(cep)库。啰嗦几句,cep提供了一种检测事件模式的方法。本文借助传感器从数据中心服务器上收集数据,运用一种可能的异常检测用例,诠释了flink的cep模式api 。
genome analysis toolkit (gatk)最近宣布,下一个版本(当前是alpha)将支持apache spark。本文简要介绍了工具箱并展示了怎样通过spark来检测重复dna片段的。
infoworld综述了spark2.0关于结构化流式处理方面的计划。微批处理将依然延续,还有些新特性,例如无限数据帧(infinite dataframes)、一流的重复查询支持。
aws大数据博客发布了一篇通过存储在aws key management service (kms)中的加密密钥加载数据到s3和redshift的文章。除了描述所需步骤,本文还介绍了如何在aws s3中通过kms密钥加密数据。
confluent博客介绍了如何使用kafka connect 和 kafka streams 编写非凡的“hello world”程序。更确切地说,范例程序从irc拉维基百科数据,并解析消息、进行多方面的统计计算。本文还用了若干程序展示了整个实现过程。
本文从postgres 向 cassandra转换简单的模式(schemas),并描述了主要的差异—复制、数据类型(cassandra不支持json)、主键、最终以一致性。
esg博客报导了最近strata hadoop world大会的情况。并有些重点关注,例如spark的良好势头、机器学习、云服务。
informationweek也报导了strata大会,关注了mapr和pivotal的关灯片、人工智能等。
spark summit 2016议程敲定,将于6月6-8日在旧金山举行。会议将有两天展开五个方向的讨论。
福布斯采访了cloudera ceo tom reilly,他讨论了公司的机遇、竞争性市场、上市计划等。
datanami撰文将正在崛起的apache kafka作为流式处理的支柱。文章还采访了confluent联合创始人兼cto neha narkhede,坊间她表示最近将推出kafka connect 和 kafka streams。
hbasecon将于5月24日在旧金山召开,最近议程才正式宣布。在三个方向上,将有20个以上的议题要讨论。
apache hbase 0.98.18 和1.1.4最近都发布了。1.1.4上有包括九个或正确性在内的若干修复。hbase 0.98.18羞答答的仅解决了50个问题(bug、改善两个新特性)。
apache lens发布了2.5.0-beta,作为统一分析接口,它已经支持hadoop生态系统的执行引擎数据存储了。本次发布解决了87票,主要是bug修复和实现新功能。
airbnb 开源了 caravel,数据探索系统(数据可视化平台)。caravel支持多种在商业产品上才能看到的特性,能够连接到任意只要支持sql方言的系统。尤其它支持面向druid的实时分析。
mapr 宣布支持apache drill 1.6作为他们的分布式系统。比较有亮点的发布有mapr-db新存储插件、新sql窗口函数支持以及端对端安全。在网页介绍部分,有些使用mapr-db api加载数据并通过drill查询的例子。
apache flink发布了修复bug后的1.0.x。这次发布解决了23个问题,推荐所有1.0.0的用户升级。
cloudera enterprise 5.7发布附带了spark、hbase、impala、kafka等组件版本的升级。本次发布的亮点包括从cloudera labs 新鲜推荐的hive-on-spark、hbase-spark、impala性能重要提升,支持ssd 上hbase wal。
apache tajo,构建在hadoop上的数据仓库系统,发布了0.11.2版。新版本支持了kerberos,修复了orc表对hive的支持等。
linkedin 开源了 dr. elephant,里面的工具能诊断hadoop和spark任务的性能问题。基于metrics从yarn资源管理器收集已完成任务数据,dr. elephant评估后生成诊断报表,内容包括数据错位、gc开销等。linkedin宣称借助它能解决80%的问题。
中国
无