大数据的特点,发展史,生态圈等,以及为什么要用大数据?

大数据的特点,发展史,生态圈等,以及为什么要用大数据?

知识要点:

什么是大数据

大数据的特点

大数据发展史

为什么使用大数据

大数据生态圈介绍

Hadoop及其发行版

大数据职位介绍

什么是大数据

大数据(Big Data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

图灵奖得主詹姆士·格雷在2007年提出将科学研究分为四类范式,依次为:

实验归纳;模型推演;仿真模拟;数据密集型科学发现;

其中的“数据密集型”,定义了所谓的“科学大数据”。大数据的特点

Volume 数据量

大数据的特征首要在于其“规模庞大”。随着信息技术的飞速进步,数据呈现出爆炸性增长的趋势。各类社交网络(如微博、推特、脸书)、移动网络以及各类智能设备和服务工具,均成为了数据的海量来源。以淘宝网为例,其近4亿的会员每日产生的商品交易数据高达约20TB;而脸书则拥有约10亿的用户,他们每天产生的日志数据量更是超过了300TB。面对如此庞大的数据集,我们迫切需要智能算法、高效的数据处理平台以及先进的数据处理技术,来对这些数据进行统计、分析、预测及实时处理,从而挖掘出其中的价值。

Velocity 速度

大数据的产生速度极为迅猛,主要通过互联网进行快速传输。在当今社会,几乎每个人都离不开互联网,这意味着我们每天都在为大数据贡献大量的信息。然而,这些数据需要及时处理,因为存储大量价值较低的历史数据对平台来说成本高昂。许多平台可能只保留过去数天或一个月内的数据,更早的数据则会被及时清理,以控制成本。

在这种背景下,大数据对处理速度提出了极高的要求。服务器中的大量资源都被用于数据的处理和计算,许多平台都需要实现实时分析。数据持续不断地产生,因此,处理速度成为了竞争的关键。谁能更快地处理数据,谁就能在市场上占据优势。

Variety 多样性

大数据的广泛来源决定了其形式的多样性。各式各样的数据都有可能产生价值。目前,推荐系统是大数据应用最为广泛的领域之一,如淘宝、网易云音乐、今日头条等平台,都通过对用户的日志数据进行深入分析,来精准推荐用户可能感兴趣的内容。这些日志数据通常是结构较为明显的结构化数据。

然而,除了结构化数据外,还有许多数据其结构化特征并不明显,如图片、音频、视频等多媒体数据。这类数据中的因果关系往往较为模糊,因此需要人工进行标注和处理,以便更好地挖掘和利用其中的价值。通过综合运用各种类型的数据,我们可以更全面地理解用户需求,提供更加个性化的服务和推荐。

Value 价值

若数据缺乏价值,便无需进行分析。大数据的核心在于处理那些蕴含巨大商业价值或社会价值的数据集。以阿里巴巴为例,该公司不惜重金提升推荐系统的准确性,原因在于推荐系统准确率的每一点提升,都能显著带动平台交易量的增长,从而创造出极为可观的商业价值。

同样,在全国范围内部署的“天眼”系统,也充分展现了大数据技术在提升社会价值方面的巨大潜力。通过加大对大数据技术在天眼系统中应用的投入,我们能够在降低犯罪率、打击犯罪、保护民众安全以及信用取证等多个方面取得显著的成效。这正是大数据所蕴含的社会价值的生动体现。

大数据发展史

大数据的发展史可以追溯到1980年,当时未来学家阿尔文·托夫勒首次提及“大数据”这一概念。他预言,“如若说IBM的主机拉开了信息化革命的大幕,那么‘大数据’才是第三次浪潮的华彩乐章。”

在随后的几十年里,大数据经历了从理论到实践的逐步演进。2002年至2004年间,随着第一轮互联网泡沫的破灭,两位技术大牛Mike Cafarella和Doug Cutting开发了一个开源搜索引擎Nutch,为大数据技术的发展奠定了基础。

2003年,Google发表了著名的《GFS》论文,介绍了其分布式文件系统。紧接着,在2004年,Google又发表了《MapReduce》论文,提出了一种新的编程模型,用于处理和生成大规模数据集。

受到Google这些开创性工作的启发,Mike Cafarella和Doug Cutting开始基于Nutch进行重构,并开发了一个可工作的MapReduce应用。他们将所有主要的Nutch算法移植到使用MapReduce和NDFS(Nutch Distributed File System)来运行,这为Hadoop的诞生奠定了基础。

2006年,Doug Cutting加入Yahoo,并带领一个专门的团队和资源将Hadoop发展成一个可在网络上运行的系统。随着系统的逐渐成熟,集群规模也从最初的几十台机器发展到能支持上千个节点的机器。同年2月,Apache Hadoop项目正式启动,以支持MapReduce和HDFS的独立发展。

此后,大数据技术在全球范围内得到了广泛应用和发展。2007年,百度开始使用Hadoop做离线处理,中国移动也开始在“大云”研究中使用Hadoop技术。2008年,淘宝开始投入研究基于Hadoop的系统——云梯,并将其用于处理相关数据。同年1月,Hadoop成为Apache顶级项目。

在接下来的几年里,Hadoop不断打破数据排序基准测试记录,并涌现出了众多与Hadoop相关的子项目和顶级项目,如Avro、HBase、Hive、Pig和ZooKeeper等。这些项目的出现和发展,进一步推动了大数据技术的成熟和应用。

如今,大数据技术已经成为推动数字化转型和创新的重要力量,为全球范围内的企业、政府和组织提供了强大的数据分析和处理能力。

为什么使用大数据

一切,都起源自数据爆炸时代的来临

一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。

产品营销商业先机智能化大数据生态圈介绍

image

Apache Hadoop:是Apache开源组织的一个分布式计算开源框架,提供了一个分布式文件系统子项目(HDFS)和支持MapReduce分布式计算的软件架构。

Apache Hive:是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

Apache Pig:是一个基于Hadoop的大规模数据分析工具,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。

Apache HBase:是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

Apache Sqoop:是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

Apache Zookeeper:是一个为分布式应用所设计的分布的、开源的协调服务,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,简化分布式应用协调及其管理的难度,提供高性能的分布式服务。

Apache Mahout:是基于Hadoop的机器学习和数据挖掘的一个分布式框架。Mahout用MapReduce实现了部分数据挖掘算法,解决了并行挖掘的问题。

Apache Cassandra:是一套开源分布式NoSQL数据库系统。它最初由Facebook开发,用于储存简单格式数据,集Google BigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身。

Apache Avro:是一个数据序列化系统,设计用于支持数据密集型,大批量数据交换的应用。Avro是新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制

Apache Ambari:是一种基于Web的工具,支持Hadoop集群的供应、管理和监控。

Apache Chukwa:是一个开源的用于监控大型分布式系统的数据收集系统,它可以将各种各样类型的数据收集成适合 Hadoop 处理的文件保存在 HDFS 中供 Hadoop 进行各种 MapReduce 操作。

Apache Hama:是一个基于HDFS的BSP(Bulk Synchronous Parallel)并行计算框架, Hama可用于包括图、矩阵和网络算法在内的大规模、大数据计算。

Apache Flume:是一个分布的、可靠的、高可用的海量日志聚合的系统,可用于日志数据收集,日志数据处理,日志数据传输。

Apache Giraph:是一个可伸缩的分布式迭代图处理系统, 基于Hadoop平台,灵感来自 BSP (bulk synchronous parallel) 和 Google 的 Pregel。

Apache Oozie:是一个工作流引擎服务器, 用于管理和协调运行在Hadoop平台上(HDFS、Pig和MapReduce)的任务。

Apache Crunch:是基于Google的FlumeJava库编写的Java库,用于创建MapReduce程序。与Hive,Pig类似,Crunch提供了用于实现如连接数据、执行聚合和排序记录等常见任务的模式库

Apache Whirr:是一套运行于云服务的类库(包括Hadoop),可提供高度的互补性。Whirr学支持Amazon EC2和Rackspace的服务。

Apache Bigtop:是一个对Hadoop及其周边生态进行打包,分发和测试的工具。

Apache HCatalog:是基于Hadoop的数据表和存储管理,实现中央的元数据和模式管理,跨越Hadoop和RDBMS,利用Pig和Hive提供关系视图。

Cloudera Hue:是一个基于WEB的监控和管理系统,实现对HDFS,MapReduce/YARN, HBase, Hive, Pig的web化操作和管理。

Cloudera Impala:高性能的SQL引擎(提供类似RDBMS的体验),提供了访问存储在Hadoop分布式文件系统中的数据的最快方法。

image

image

image

Hadoop及其发行版

①Apache原生hadoop

Apache社区版本的hadoop是完全开源免费的,非商业发行版。社区活跃性以及文档、资料详实等方面。

但在选择其他如HBase,Hive等组件时就需要考虑兼容性的问题。

②商业发行版Cloudera(CDH)

Cloudera 于2008年成立,是最早将Hadoop商业化的公司,主要为合作伙伴提供 Hadoop 的商用解决方案。在早期Hadoop的创始人Doug Cutting也任职于 Cloudera 公司。Cloudera的产品为:

CDH:Hadoop发行版,完全开源,比Apache Hadoop在兼容性,安全性稳定性上有增强。

Cloudera Manager:集群的软件分发及管理监控平台,可以在几个小时内部署好一个Hadoop集群,并对集群的节点及服务进行实时监控。

Cloudera Support:Hadoop技术支持。Hortonwork(HDP)

Hortonworks是雅虎与硅谷风投公司Benchmark Capital合资组建的公司。其主要产品:

Hortonworks Data Platform (HDP):100%开源的产品,HDP除了常见的组件外还包含了,一款开源的安装和管理系统(Ambari)和一个元数据管理系统(HCatalog)。

** 注:Cloudera和Hortonworks于2018年合并。**MapR

于2009年成立。用新架构重写HDFS,同时在API级别和目前的Hadoop 发行版保持兼容。EMC Greenplum HDIBM InfoSphere BigInsights

大数据职位介绍

大数据开发工程师:负责大数据平台的开发和维护,熟练使用组件,熟练使用平台监控,进行开发与产品开发等。大数据架构工程师:对大数据平台各构件进行设计、搭建、改进、升级。大数据分析工程师:对大数据进行分析和处理,能熟练使用适当的统计分析方法,对数据进行理解和汇总。大数据运维工程师:故障管理、容量管理、配置管理、问题排查等。大数据算法工程师:数据建模、机器学习、算法实现。大数据数据科学家:利用统计学和机器学习模型方面的专业技术进行商业问题预测的专家。

相关风雨

电脑BIOS如何升级?升级BIOS方法【超详细】
bet3365官方手机

电脑BIOS如何升级?升级BIOS方法【超详细】

🌊 06-29 💨 阅读 8752
梦幻西游手游高级藏宝图获取及挖掘攻略
365bet下注网站

梦幻西游手游高级藏宝图获取及挖掘攻略

🌊 06-29 💨 阅读 1652
梅艳芳是怎么去世的 死于什么病
365彩票官网app下载安装

梅艳芳是怎么去世的 死于什么病

🌊 07-04 💨 阅读 7186