准备开始对实验室的集群重装,今天先拉出一台机器做前期调试

实验室机器是8台 Dell R720,每台机器挂有11块1T的SAS盘。

现有机器运行着CentOS6.5,由于曾经恶劣的开发使用策略and历史遗留问题,导致后期开发使用存在着相当大的隐患,各种整理系统已经无法弥补。。。

等待各种项目结束,终于快有机会整顿了。。。

需求

实验室基本不会有多少运维的人,大家都只搞开发,还好机器能抗住这么折腾

硬盘

  • 硬盘热插拔:硬盘总有蛋疼的时候被人热插拔,原先的系统就会跪,卷标出错。。。每次都需要到Dell的BIOS里去调。。。蛋疼至极!

  • 硬盘新增:增加硬盘也停麻烦(对于不熟Linux的人来说),一直都木有一个文档什么给留下

  • 硬盘移除:服务器运行当然会存在硬盘跪的情况,对于原先的系统来说,操作没有手册。。。还是得写GUIDE留下。。。

系统

  • 原先是CentOS6.x 被我一点点升级上来了,经讨论各个开发(主要是Spake组他们说CentOS7不支持某些包,Java这边我知道是木有问题的)决定保持CentOS6,使用6.5版本

  • 之前管理集群都是一台台机器敲命令,鉴于使用者敲的命令比较单一,我提供了pssh的解决方案,并写了一些pssh的简单命令,整顿后仍打算保留该功能,增加salt管理方法

  • 图形界面什么我最不喜欢了,怎耐各个开发者强烈要求保留图形界面功能。。。

  • 系统原先我打算是3台Ubuntu和5台CentOS,Ubuntu做开发,CentOS作为项目的稳定运行环境,稳定运行环境可以使用开发机的计算资源,开发机则独立,不知道能否征得其他人的同意。。。

环境

  • 考虑使用Docker之类的容器来隔离应用

  • 为各个开发者提供独立的开发测试环境,不允许各开发者对系统做修改,之前发生过某人将Hadoop环境做修改导致博士无法正常开发。。。麻烦!

  • 由于Hadoop木有更多的权限管理机制,考虑使用多Hadoop环境来隔离开发环境和稳定运行环境

  • 期望能完成服务器运维的web化管理系统