产品简介

概述

百度MapReduce(BMR)是全托管的Hadoop/Spark集群,您可以按需部署并弹性扩展集群,只需专注于大数据处理、分析、报告,拥有多年大规模分布式计算技术积累的百度运维团队全权负责集群运维。

百度MapReduce支持完整的Hadoop生态:

  • Hadoop:提供可靠存储HDFS以及MapReduce编程范式以便大规模并行处理数据。
  • Spark:提供基于分布式内存的大规模并行处理框架,从而大大提高大数据分析性能。Spark提供了SQL查询接口、流数据处理以及机器学习。
  • HBase:大规模分布式NoSQL数据库,提供随机存取大量的非结构化和半结构化的海量数据。

与自己搭建Hadoop集群相比,百度MapReduce有以下优势:

  • 方便:几分钟便可创建集群,无需为节点分配、部署、优化投入时间。
  • 弹性:创建任意大小的集群并动态调整集群规模,高峰期加大集群规模以提高计算能力,低峰期可对应缩减集群规模降低花费。
  • 开放:完全兼容开源Hadoop/Spark社区,零成本业务迁移。
  • 实惠:支持按需付费以及包年包月,计价简单而透明。
  • 安全:专属私有网络,独占系统环境,确保数据安全。

百度MapReduce组件

  • MapReduce:用于大规模数据集的分布式并行计算的编程模型,极大地方便了开发者在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。
  • Spark:开源的集群计算框架。Spark通过拓展内存计算可在海量数据的迭代式计算和交互式计算中提供远快于Hadoop的运算速度。同时,Spark支持SQL请求、流数据处理、机器学习和图表处理,提高开发者效率。
  • HBase:开源的、非关系型、分布式的列式数据库,为Hadoop提供NoSQL功能。
  • Hive:允许使用类似于SQL语法进行数据查询,适合数据仓库的分析任务。
  • Pig:是一种过程语言,可加载数据、表达转换数据以及存储最终结果,使得日志等半结构化数据变得有意义。
  • Hue:为了方便管理Hadoop集群以及执行Hive或者Pig脚本而提供的一系列网页应用。
  • Sqoop:用于Hadoop与传统的数据库间的数据导入和导出。
  • Kafka:开源的、高吞吐量的分布式消息队列系统,支持Hadoop并行数据加载。
  • Zeppelin:Web版的notebook,用于数据分析和可视化,可无缝对接Hive、SparkSQL等。

应用场景

网站日志处理

网站日志包含着网站最重要的信息,通过日志分析网站,可帮助您获取用户行为以优化网站的商业价值。日益增长的日志信息需大规模处理平台的支撑,百度MapReduce全托Hadoop服务为高效处理海量网站日志提供了可靠依托,而且开发者在友好的界面中分析海量日志,大大降低了使用门槛。如需快速熟悉具体实现,请至使用Hive分析网站日志

数据仓库建设

数据仓库,是为企业所有级别的决策制定过程提供所有类型数据支持的战略集合。BMR帮助您快速搭建面向主题的、完整的、稳定的、时变的自有数据仓库,为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。