MinIO简介
MinIO 简介
MinIO 是一个兼容 s3 标准的对象存储。
MinIO 是在 GNU Affero 通用公共许可证 v3.0 下发布的高性能对象存储
它与 Amazon S3 云存储服务 API 兼容
使用 MinIO 为机器学习、分析和应用程序数据工作负载构建高性能基础架构
官方:
- GitHub 仓库:https://github.com/minio/minio
- 文档地址:https://min.io/docs/minio/kubernetes/upstream/
- 中文文档地址:http://docs.minio.org.cn/docs/
特点
- 数据保护
分布式 Minio 采用纠删码来防范多个节点宕机和位衰减 bit rot
分布式 Minio 至少需要 4 个硬盘,使用分布式 Minio 自动引入了纠删码功能
- 高可用
单机 Minio 服务存在单点故障,相反,如果是一个有 N 块硬盘的分布式 Minio,只要有 N/2 硬盘在线,你的数据就是安全的
不过你需要至少有 N/2+1 个硬盘来创建新的对象
例如,一个 16 节点的 Minio 集群,每个节点 16 块硬盘,就算 8 台服务器宕机,这个集群仍然是可读的,不过你需要 9 台服务器才能写数据
只要遵守分布式 Minio 的限制,你可以组合不同的节点和每个节点几块硬盘。比如,你可以使用 2 个节点,每个节点 4 块硬盘,也可以使用 4 个节点,每个节点两块硬盘,诸如此类。
- 一致性
Minio 在分布式和单机模式下,所有读写操作都严格遵守 read-after-write 一致性模型
优点
- 部署简单
一个二进制文件(minio)即是一切,还可以支持各种平台
- 支持海量存储
可以按 zone 扩展,支持单个对象最大 5TB
- 低冗余且磁盘损坏高容忍
标准且最高的数据冗余系数为 2 (即存储一个 1M 的数据对象,实际占用磁盘空间为 2M)
但在任意 n/2 块 disk 损坏的情况下依然可以读出数据 (n 为一个纠删码集合中的 disk 数量)
并且这种损坏恢复是基于单个对象的,而不是基于整个存储卷的
- 读写性能优异
MinIO 基础概念
S3
Simple Storage Service,简单存储服务,这个概念是 Amazon 在 2006 年推出的,对象存储就是从那个时候诞生的
S3 提供了一个简单 Web 服务接口,可用于随时在 Web 上的任何位置存储和检索任何数量的数据
Object
存储到 Minio 的基本对象,如文件、字节流,Anything…
Bucket
用来存储 Object 的逻辑空间
每个 Bucket 之间的数据是相互隔离的
Drive
部署 Minio 时设置的磁盘,Minio 中所有的对象数据都会存储在 Drive 里
Set
一组 Drive 的集合,分布式部署根据集群规模自动划分一个或多个 Set ,每个 Set 中的 Drive 分布在不同位置
- 一个对象存储在一个 Set 上
- 一个集群划分为多个 Set
- 一个 Set 包含的 Drive 数量是固定的,默认由系统根据集群规模自动计算得出
- 一个 Set 中的 Drive 尽可能分布在不同的节点上
Set / Drive 的关系(Set / Drive 这两个概念是 MinIO 里面最重要的两个概念)
- 一个对象最终是存储在 Drive 上面的
- Set 是另外一个概念,Set 是一组 Drive 的集合,图中,所有蓝色、橙色背景的 Drive(硬盘)的就组成了一个 Set
纠删码(Erasure Code)
纠删码(Erasure Code)简称 EC,是一种数据保护方法,它将数据分割成片段,把冗余数据块扩展、编码,并将其存储在不同的位置,比如磁盘、存储节点或者其它地理位置。
纠删码是一种恢复丢失和损坏数据的数学算法,目前,纠删码技术在分布式存储系统中的应用主要有三类:
- 阵列纠删码(Array Code: RAID5、RAID6 等)
- RS(Reed-Solomon) 里德-所罗门类纠删码
- LDPC(LowDensity Parity Check Code) 低密度奇偶校验纠删码
Erasure Code 是一种编码技术,它可以将 n 份原始数据,增加 m 份校验数据,并能通过 n+m 份中的任意 n 份原始数据,还原为原始数据;即如果有任意小于等于 m 份的校验数据失效,仍然能通过剩下的数据还原出来
MinIO 采用 Reed-Solomon code 将对象拆分成 N/2 数据和 N/2 奇偶校验块
在同一集群内,MinIO 自己会自动生成若干纠删组(Set),用于分布存放桶数据
一个纠删组中的一定数量的磁盘发生的故障(故障磁盘的数量小于等于校验盘的数量),通过纠删码校验算法可以恢复出正确的数据
MinIO 部署模式
单主机,单硬盘模式
该模式下,Minio 只在一台服务器上搭建服务,且数据都存在单块磁盘上,该模式存在单点风险,主要用作开发、测试等使用
单主机,多硬盘模式
该模式下,Minio 在一台服务器上搭建服务,但数据分散在多块(大于 4 块)磁盘上,提供了数据上的安全保障
多主机、多硬盘模式(分布式)
该模式是 Minio 服务最常用的架构,通过共享一个 access_key 和 secret_key,在多台服务器上搭建服务,且数据分散在多块(大于 4 块,无上限)磁盘上,提供了较为强大的数据冗余机制(Reed-Solomon 纠删码)