国外留学 学习生活记录(3)

10/15/2012 - 10/17/2012

这周一(10/15),乔老师请我吃了一顿中午饭,在学校commence的日本餐厅吃的。虽说是日本餐厅,其实是中国人开的了。吃了一碗炒饭,还不错,8刀吧。如果天天在外面吃果然还是一笔不小的开销啊。一天就将近16刀,一个月下来快500刀了。不过偶尔在外面吃吃其实也挺不错的。不过我看这里的餐厅啊这些其实也挺小的,而且也不多。除了日本餐厅以外,还有一个印度人开的,中东的,以及一个中国的扬州,不过据说中国那间店不是很好吃。乔老师常去的是日本的那家,吃他家的乌东面。老实说,这顿中午饭是我在这一个月内吃得最好吃的一顿,平时自己弄的那些饭菜,刚做好的时候吃很好吃,可以老是放在冰箱里面,久了味道也就不太好了。用微波炉加热总是感觉味道怪怪的。等在这慢慢熟悉以后再到处去走走吧。

这几天主要是看一些关于与云服务可靠性相关的文章。我发现其实大家做的东西都差不太多,主要都是从随机过程里面的时间分布这一点入手。有些是假设底层物理硬件的故障概率是已知的,然后利用多项式的方法来表示一个服务出错的概率。另一些则是假设故障到达的强度是已知的,并且认为是满足泊松分布的,因此就可以得出一个服务在执行时间内无中断的概率分布,因为相邻故障到达的时间间隔是满足指数分布的。因此无中断运行的时间分布就是与故障到达率相关的指数分布。剩下的就是以分布为基础进行后续的分析,如加入服务的开始时间等。因为服务的开始时间也是前面服务的结束时间,因此也是一个随机过变量。而另外一种方案则是利用马尔可夫模型,以系统中故障服务器的数量为状态,观察系统状态的转移概率。利用数值计算以及采样路径的方法求的一定时间内,服务中断的时间分布,如Anne的模型。Anne的模型主要是利用全概率公式结合枚举的方式进行求解,她将总的时间分为系统在不同状态的时间之和,这样就将“指定时间”这一参数加了进去。然后对不同状态所处的时间进行穷尽,再利用全概率公式就可以得出在这一指定时间内的故障时间分布。(关于Anne模型的详细说明我会另外写篇文章进行记录。)

周三我们项目组开组会,CCR的老师 Charng-Du Lu 说了他目前在做的事情,就是在Anne前期数据分析工作的基础以上进行完善,从而可以的得出较为系统的结果。如Anne在假设哪些故障可以考虑认为是相关故障,应只看作一个故障时,是通过设定一个时间,只要是在这个时间内发生的故障都认为是相关故障,因此就只算一个。而CCR的老师认为,这个时间是需要进一步深入分析的,需要就这个时间进行数据分析,比较不同时间长度下得到的数据的数量、以及特性进行比较,这样才能得到一个最佳的时间点。

Charng-Du Lu还提到了一种同时描述性能和可靠性的概——performability。会后又给我们发了一篇文章和相关的一本书,其中书中有一章是说怎么在grid上运用preformability的。不过这个概念并不是什么新的东西,这个概念在1980的提出的,主要是说一个系统的可靠性不仅表明这个系统正常运行的概率意外,还应表明这个系统在一定性能下运行的概率。一般的文献在描述可靠性时多半是求这个系统正常运行的概率,系统状态一般是1或0,分别表示系统正常运行或故障。而在performability下,不仅需要表明系统正常运行状态外,还需要表示这个系统在一定性能下的运行概率,如在一定平均吞吐率下运行的概率。不过这个概念已经是30多年前的东西了,虽然现在很多文章在问题建模时并没有特别关注系统的运行性能,但在模型建立的前期就已经把一个系统能否在指定性能下运行这一条件进行了预处理,从而将这一要求反应在数学模型中。总的来说,这个问题其实已经没多少值得进一步研究的内容,不过思想可以借鉴。

评论

此博客中的热门博文

在Ubuntu 16.04上基于OpenBLAS 编译LAPACK

kindle 4(黑)去广告+换屏保

COIN-OR 源码编译安装要点记录