关于Reliability的一点思考
Reliability是目前大多是与硬件相关的问题里面都需要考虑的一个问题,例如云计算。云计算出来的时候大家发现里面最重要的就是如何利用好资源,所有大家都把研究的重点集中到如何对资源进行优化利用,从而最大化资源利用率。到后面发现数据中心能耗是个问题,就又转到节能、绿色网络的研究。其实就我各人看来,其实和资源的优化使用还是差不多,不同的是这个需要对各种资源的使用进行能耗相关的建模。根据这个模型来研究如何进行资源的放置。等这些都研究得差不多了,大家就发现,诶,reliability也是个问题哦,数量这么庞大的服务器群,怎么说难免也会有个一些服务器要出故障吧。嗯,好像是这么回事,好的,大家就开始研究了。
从我目前看到的文章来看,大家研究的思路大体上是差不多的。首先对数据进行分析,通过对大量数据中心运行数据,包括统计,log等分析,获得各种故障发生的数据,包括间隔时间,频率,修复时间等。不过这些数据不是每个人都能拿到的,因为这些数据只有那些真正在运行一个数据中心的人才能拿到,而且这个分析费时费人。搜集的数据太长,耗时过多,要是太短,数据就不一定又说服力。因此目前就一些大公司,如google,microsoft等在做,很多高校的学者则太愿意花时间在上面。
通过对数据中心运行数据进行分析,利用统计匹配的策略,就能大概获得各种与故障相关的分布特性,如指数分布的参数等。这里就有两种思路,一种是在获得这些参数以后接下来就是利用markov模型对其进行建模,并最后求出在一定时间T内,n+k个服务器的失效时间分布,其中n表示工作服务器的数量,k表示备份服务器的数量。这里有一个条件要考虑,那就是不同服务器的故障发生是独立的,这样才能服务markov模型的前提条件。Anne的模型就是这种策略。另一个种则是在获得指数分布的参数后就直接利用这个参数进行分析,如分析在一定时间长度下能够正常运行的概率等。
对于前一种分析方式,如Anne的模型,利用前期通过数据分析以及统计匹配获得的统计参数,就可以与建立markov模型的到达率和离开率。接着就计算每个状态的平稳分布。一般情况下每个状态表示系统中故障节点的数量,这样与利用统计方法获得的参数相一致。然后去求在一定之间长度T下,对于n+k这种组合模式的故障失效时间分布。这里假设当故障节点数量超过k个时即考虑系统以及发生故障。要解这个问题我们可以先求出每个在T时间范围内,系统在每个状态停留时间的分布,这样状态大于k的所有状态的时间之和就是问题的解。
而对于后一种分析方式则比较简单,由于前期的统计分析中获得了故障分布的参数,这样就可以利用指数分布与泊松分布分布之间的关系,就可以建立一个与故障到达率为参数的指数分布,它的时间表明了相邻两个故障之间时间长度的分布,这个分布也是一个服务无故障运行的概率分布。利用这个就可以获得在一个确定系统下每个服务的正确运行时间分布,并在这基础之上进行其他的分析。
从我目前看到的文章来看,大家研究的思路大体上是差不多的。首先对数据进行分析,通过对大量数据中心运行数据,包括统计,log等分析,获得各种故障发生的数据,包括间隔时间,频率,修复时间等。不过这些数据不是每个人都能拿到的,因为这些数据只有那些真正在运行一个数据中心的人才能拿到,而且这个分析费时费人。搜集的数据太长,耗时过多,要是太短,数据就不一定又说服力。因此目前就一些大公司,如google,microsoft等在做,很多高校的学者则太愿意花时间在上面。
通过对数据中心运行数据进行分析,利用统计匹配的策略,就能大概获得各种与故障相关的分布特性,如指数分布的参数等。这里就有两种思路,一种是在获得这些参数以后接下来就是利用markov模型对其进行建模,并最后求出在一定时间T内,n+k个服务器的失效时间分布,其中n表示工作服务器的数量,k表示备份服务器的数量。这里有一个条件要考虑,那就是不同服务器的故障发生是独立的,这样才能服务markov模型的前提条件。Anne的模型就是这种策略。另一个种则是在获得指数分布的参数后就直接利用这个参数进行分析,如分析在一定时间长度下能够正常运行的概率等。
对于前一种分析方式,如Anne的模型,利用前期通过数据分析以及统计匹配获得的统计参数,就可以与建立markov模型的到达率和离开率。接着就计算每个状态的平稳分布。一般情况下每个状态表示系统中故障节点的数量,这样与利用统计方法获得的参数相一致。然后去求在一定之间长度T下,对于n+k这种组合模式的故障失效时间分布。这里假设当故障节点数量超过k个时即考虑系统以及发生故障。要解这个问题我们可以先求出每个在T时间范围内,系统在每个状态停留时间的分布,这样状态大于k的所有状态的时间之和就是问题的解。
而对于后一种分析方式则比较简单,由于前期的统计分析中获得了故障分布的参数,这样就可以利用指数分布与泊松分布分布之间的关系,就可以建立一个与故障到达率为参数的指数分布,它的时间表明了相邻两个故障之间时间长度的分布,这个分布也是一个服务无故障运行的概率分布。利用这个就可以获得在一个确定系统下每个服务的正确运行时间分布,并在这基础之上进行其他的分析。
评论
发表评论