从没想到监控可以这么做!阿里云RDS智能诊断系(6)


如图是ins1,ins2的SQL请求在proxy节点和db节点上的链路活动图。 ins1实例的一次请求时间rt1= t0+ t1 + t2 + t3 + t4 + t5 + t6, 其中t0是SQL请求从client端到proxy端传输的时间, t1是接收client端发的请求到向db端发送所需的时间,t2是proxy1到db1的网络链路时间,t3是db1的本地处理时间,t4是db1到proxy1的网络链路时间,t5是接受到db1端发的SQL应答到向client端发送的时间,t6是应答从proxy端到client端的传输时间。而(ins1, *, proxy1)的tcprt处理时间proxyInTime1=t1+t2+t3+t4+t5, (ins1, proxy1, *)的tcprt处理时间proxyOutTime1=t3,通过计算diff1 = proxyInTime1-proxyOutTime1 = t1+t2+t3+t5, 可以算出SQL请求在proxy节点中停留和proxy与db之间网络传输的总时间prT。

[好文分享:www.11jj.com]


由于网络延迟正常情况下在内部网络中比较稳定的,如果diff1值变大了,多出的部分,往往是proxy节点贡献的,因此我们可以大致通过diff1估计实例ins1在proxy1停留的的大致时间。对于经过proxy的每个实例,如果prT>=ProxyRelayTimeLimit,则认为prT过大。我们算出proxy1上的各个实例的prT值,得到prT值过长的实例数量占proxy1上活跃实例数的比例r。我们可以根据r的突升和范围来判断proxy及下游网络链路是否对用户形成影响。 为了判断r的突升,首先,利用上面判断db主机异常的方法,回归出这个数据集的柯西概率分布D。

[原文来自:www.11jj.com]


因为比例r的取值是0~1,而柯西概率分布D的自变量x范围是负无穷到正无穷。我们需要对原来的比率r做转化让他的范围扩充到正负无穷。通过映射函数,我们求出这一时刻下该指标的柯西概率分布的CDF(x’),由于r越小表明proxy越健康,所以只有当r>M是才会进一步判断proxy是否异常,如果CDF(x’)非常大比如:大于99.8%, 说明比率r突然明显上升,需要引起注意。为了减少误判,我们还要判断出r值的突升和突降需要落到警戒范围。因此需要一个必要条件:r值的绝对值至少为20%。


不过如果r本身就很大的话比如:由于proxy升级到了一个有bug的版本上,所有的实例从新版本上线后就一直慢,由于数据集的中位数变成了100%,上面的方法就无法判断了。我们还要再加个异常的充分条件,那就是:如果r>MaxRatio(比如:80%),就判断为异常。使用回归分布的方法适合当r发生巨变时来判断异常,主要是为了找到proxy的急性病;而后加的判断异常的充分条件适用于当r从一开始就不正常,或者r缓慢变成不正常的情况,是为了找到proxy的慢性病。


网络异常检测


为了容忍交换机单点故障,每个节点(代理节点和数据库节点)会上联到一对TOR交换机上。TOR中的高丢包率会导致大量TCP数据包重新传输,并导致查询延迟变高、失败连接增加,从而导致用户数据库性能下降。因此,在短时间内,识别网络故障并定位异常网络设备,通过修复或者更换的方式去解决网络异常是至关重要的。 通过TcpRT采集的TCP连接上乱序数据包,重传数据包,RTT抖动和RST数据包的数量,可用于网络故障排查。


从没想到监控可以这么做!阿里云RDS智能诊断系(6)

如上图所示,在分布式体系结构中,每个节点相互通信,比如,Proxy节点到数据库节点的请求重定向。我们绘制一个二分图来表示节点之间的关系,顶点是Proxy节点和正在通信的数据库节点,如果两个节点存在相互通信,那么这两个节点存在一条链接边。用虚线标记的链接表示在两个节点之间观察到大量网络异常事件(无序,重传等),否则我们使用实线代替。


根据主机到TOR交换机对的连接信息,通过把主机节点替换成相应的TOR交换机对,我们将上图b转换成上图c。直观上,相连虚线数越多的顶点异常可能性越高。因此,我们定义公式count^1.5/total来衡量TOR交换机对发生异常的概率,其中count表示虚线数,total表示线(虚+实)数。count^1.5/total值越大,该TOR交换机对越有可能是异常。


小结


到目前为止,TcpRT以每秒采集2千万条原始trace数据、每天后台处理百亿吞吐数据、秒级检测异常的卓越性能在阿里云持续稳定运行三年。今年TcpRT的监控能力将包装成云产品开放给RDS客户,给客户提供更好的数据库与应用诊断能力。在技术上,我们也在基于TcpRT开发更多的算法,发掘更多的异常行为。


论文作者:鸣嵩,剑川,冰豹,仲举,浅清,望澜,明书

从没想到监控可以这么做!阿里云RDS智能诊断系(6)

你可能还喜欢

点击下方图片即可阅读

从没想到监控可以这么做!阿里云RDS智能诊断系(6)

小邪在阿里的十年技术人生

从没想到监控可以这么做!阿里云RDS智能诊断系(6)

前端 Leader 如何做好团队规划?

从没想到监控可以这么做!阿里云RDS智能诊断系(6)

基于TensorFlow,人声识别如何在端上实现?

从没想到监控可以这么做!阿里云RDS智能诊断系(6)

关注「阿里技术」

把握前沿技术脉搏

自媒体 微信号:11jj 扫描二维码关注公众号
爱八卦,爱爆料。

小编推荐

  1. 1

    数字易经0到9代表什么卦(数字易经测算)

    大家好,小伟今天来为大家解答数字易经0到9代表什么卦以下问题,数字易经测算很多人还不知道,现在让我们一起来看看吧!1、数字1代表坎水、数

  2. 2

    苹果手机呼叫转移怎么设置(苹果手机呼叫转移怎么设置无法接通)

    大家好,小乐今天来为大家解答苹果手机呼叫转移怎么设置以下问题,苹果手机呼叫转移怎么设置无法接通很多人还不知道,现在让我们一起来看看

  3. 3

    中国红十字会标志简笔画(中国红十字会标志简笔画)

    大家好,小豪今天来为大家解答中国红十字会标志简笔画以下问题,中国红十字会标志简笔画很多人还不知道,现在让我们一起来看看吧!1、保护性

  4. 4

    八年级下册语文书人教版电子书(八年级下册语文书人教版电子书2022)

    大家好,小美今天来为大家解答八年级下册语文书人教版电子书以下问题,八年级下册语文书人教版电子书2022很多人还不知道,现在让我们一起来看

  5. 5

    古伊尔(魔兽古伊尔)

    大家好,小丽今天来为大家解答古伊尔以下问题,魔兽古伊尔很多人还不知道,现在让我们一起来看看吧!1、古伊尔是魔兽世界里面部落的一个酋长

  6. 6

    唯一极值点问题

    在高档数学的进修中,我们经常会碰着独一驻点的问题,在非常宽松的前提下,这个独一的驻点也就是极值点。今天我们稍微改变一下前提,商量如

  7. 7

    三公九卿制是什么(三公九卿制是什么朝代的制度)

    大家好,小乐今天来为大家解答三公九卿制是什么以下问题,三公九卿制是什么朝代的制度很多人还不知道,现在让我们一起来看看吧!1、三公九卿

  8. 8

    订房网哪个平台好(订房什么网最便宜)

    大家好,小娟今天来为大家解答订房网哪个平台好以下问题,订房什么网最便宜很多人还不知道,现在让我们一起来看看吧!1、携程、美团、艺龙、

Copyright 2024.依依自媒体,让大家了解更多图文资讯!