大数据入门,什么是分布式系统?
- 2020 年 3 月 10 日
- 筆記

简介
分布式系统(Distributed System)是由集中式系统演化来的,先来看下传统的集中式系统:
就是把所有的程序、功能都集中到一台主机上,从而往外提供服务的单体应用。集中式系统的优点是便于维护、操作简单。
但这样的系统也有缺陷,不出问题还好,一出问题,就容易造成单点故障,所有功能就都不能正常工作了。另外,集中式系统的性能瓶颈就是单机性能的上限,横向扩展比较困难。为了解决集中式系统存在的缺陷问题,分布式系统诞生并逐渐演化。
定义
关于分布式系统的定义有很多,这里引用《分布式系统原理和范型》中的定义:
分布式系统是若干独立计算机的集合,这些计算机对于用户来说就像是单个相关系统。
说的直白点,分布式系统就是一组通过网络进行通信、为了完成共同任务而协调工作的计算机节点(Node)组成的系统。系统中的各个节点对于用户是透明的,用户感知不到背后的逻辑,就像访问单个计算机一样。

目标
分布式系统的目标就是要解决集中式系统的各种缺陷,实现整个系统的高性能、高可用、可扩展。
大数据里常见的分布式系统
HDFS是分布式文件系统的其中一种(目前用得最广泛的一种),在使用HDFS的时候是非常简单的:虽然HDFS是将文件存储到不同的机器上,但是我去使用的时候是把这些文件当做,是存储在一台机器的方式去使用(背后却是多台机器在执行)。