请选择 进入手机版 | 继续访问电脑版
当前位置: 首页» 产品介绍» 经典案例»北京移动企业数据中心——精准统计分析

北京移动企业数据中心——精准统计分析

2017-10-11 14:51| 查看: 213


项目背景

北京移动经营分析系统建设运营11年来,紧跟企业发展步伐,以完备的数据、准确的统计分析、周到细致的支撑,充分发挥了“科学决策之器”、“针对性营销和客户挽留之器”、“精细化


管理之器”的重要作用。经分系统虽然满足了过去北京公司发展所需要的各类信息服务要求,但传统的模式造成的问题也日益凸显,传统经分的定位跟不上企业战略转型的诉求。随着市场竞争的进一步加剧,北京公司对内面临传统业务营收不断下滑,对外面临来自新兴OTT业务发展带来的巨大冲击挑战,在双重压力下,市场对公司的价值分析能力和决策支撑能力提出更高要求。本次北京移动通过建设新数据中心,对企业数据进行集中采集、加工整合、规范模型,建立统一数据视图,实现数据的可管、可控、可用,为业务提升与创新奠定基础,以达到对内增效、对外创收的目标;利用目前最领先的大数据处理平台技术,通过基础设施云化、数据服务标准化封装等技术手段,采用MPP分布式数据库和Hadoop等分布式数据处理架构体系进行优化设计,实现投资降本增效、应用百花齐放和体系优化提升的目标。

需求分析

本项目在北京移动数据中心,通过整合B域、O域和M域,实现企业有价值数据的集中存储,并对外围应用提供必要的数据计算、数据存储服务。

     业务层面需求:主要为数据中心提供多域的数据模型,为B域、O域和M域等各域的数据实现数据资源池的统一管理,统一调用。本次项目计划增加“多维成本分析”,“流量经营”,和“位置信息服务平台”等三项新增应用,并迁移现有的经分应用,包括“自助分析平台”,“集团一经接口”,“市场运营监控中心”以及其他成熟稳定的数据模型。作为北京移动企业数据中心的接口,其数据容量每日达到17TB/日,其中MPP数据仓库支撑的数据总量达到600TB,每日入库数据达到3TB/日(接口数据与数据仓库入库数据比例关系为61);

     平台层面需求:主要为企业级数据中心提供数据存储和数据处理能力,提供统一的集成平台环境,将硬件和平台软件做有效的集成,搭建混搭架构的系统框架,实现海量数据的分布式处理;通过新技术,降低系统总体拥有成本。系统总规模:22IBM Power Linux 服务器组成的Hadoop集群;60 X86 PC Server组成的GBase 8a MPP Cluster统一数据仓库集群;6X86 PC Server组成的GBase 8a MPP Cluster数据集市集群;

     功能层面:主要为企业级数据中心提供数据整合、数据清洗、转换、加载、数据共享、数据分析与查询、数据挖掘、数据管理能力;提供新的IT功能架构,提供多样化数据的ETL、统一的数据计算与存储、数据共享、多种应用的应用开发、数据平台管控。其中作为整个企业数据中心的主数据仓库,担负处理数据的深度加工和BOM域之间的数据融合,即承担了整个数据供应链中最复杂的数据加工处理过程。

解决方案

    系统技术架构分为采集与解析、计算存储、共享与服务、平台管理和数据服务等。采用基于分布式技术的云计算平台,可以满足资源的统一管理和利用,实现计算能力线性扩展、数据融合和汇总。系统整体采用多种分布式处理平台的混搭架构:对于海量的非结构/半结构化数据的批处理场景采取HadoopMap/ReduceHive;对于结构化的海量数据处理(包括批处理和准实时的交互处理)采用MPP数据库完成(本方案在应用展示层采用传统关系型数据库配合MPP数据库完成部分与应用的交互处理);而采用流式数据处理框架实现流处理及复杂数据处理,支撑实时营销场景。

大数据平台系统整体的处理机制:

      用户的位置信息处理:MC口数据经过BDPE 平台将从接口机采集过来的数据以消息的形式发送给Kafka消息队列;Kafka消息队列获取实时ETL的消息后整合发送给流处理引擎;流处理经过算法处理,计算出用户实时位置信息。经过位置模型计算后的用户位置信息被发送到GBase 8a MPP Cluster数据库进行用户属性关联统计,为统计分析类应用提供数据支持,并在GBase 8a MPP ClusterDWI中进行通用汇总后,传送到GBase 8a MPP Cluster数据集市中,进行位置应用的报表层数据计算,最终由BDPE发送到DB2数据库中进行应用展示层的存储和展现;

        信令信息的处理:GN口信令数据以及非结构化数据,通过BDPE采集平台将数据不落地传送到HDFS;通过互联网内容增强(ICA)从HDFS获取数据后,首先匹配内部规则库,匹配上的记录即时回填,写回HDFS,匹配不上的通过爬虫在互联网上爬取后回填, 最终互联网内容增强后写回HDFS。之后BDPEETL平台将HDFS上的文件以外部文件的形式装载入Hive,在Hive内按照数据模型规范根据流量的应用需求逐层汇总。流量运营应用采用数据挖掘算法读取DWDGn数据模型,形成各种数据模型;数据挖掘算法形成的模型结果数据存放在GBase 8a MPP Cluster仓库的DW层。由于三域融合模型定位于GBase 8a MPP Cluster数据库中,因此Gn数据中经过简单汇总的数据ETLGBase 8a MPP Cluster数据库,并在GBase 8a MPP Cluster数据库中将B域数据中的客户属性信息与Gn数据汇总信息进行融合;

       B域,M域的结构化数据的处理:B域数据,M域数据以及O域汇总数据ETLGBase 8a MPP Cluster数据库中,根据模型设计规范设计三域融合模型,在GBase 8a MPP Cluster数据库中汇总成为ST层数据,部分存放在应用可参照的应用层用户数据库中,部分则将应用需要的数据导入集市中(自助分析,多维成本,位置信息服务从GBase 8a MPP Cluster统一数据层仓库中获取数据,建立独立的GBase 8a MPP Cluster数据集市,集市库的GBase 8a MPP Cluster集群从硬件上与统一GBase 8a MPP Cluster数据仓库隔离开)。

价值体现

    高性能:通过使用列式存储、智能索引等技术,提升查询性能;

    支持混搭:通过MPP数据库与Hadoop的混搭架构,实现了对超大规模数据的管理和高效处理,正是因为在HadoopMPP之间采用数据分而治之和逐层处理的策略,才使得企业数据中心平台实现了对海量数据的有效承载和管理;

    降低成本:PC Server+Linux+本地磁盘的模式节省了硬件投资成本,日志管理的自动化节省了人力成本,实现低成本构建高性能日志管理系统的目标。

返回顶部