
透视宝业务拓扑分析
以业务系统的构建和问题分析为导向,能自动将原有离散的应用、前端、后台任务、数据库及基础设施,整合呈现为符合业务逻辑、清晰严谨的业务系统架构。通过业务系统拓扑图的性能分析,帮助您分析系统各个组件的性能问题。

申请体验地址: http://cloudwise.mikecrm.com/M9FuX9
全局掌控业务运行状态
透视宝业务拓扑分析,帮助您从整个业务流程的角度,来考虑系统架构、资源维护、性能监控与优化等。从全局掌握企业中所有业务的运行状态、业务间的调用关系及资源调用情况等。

自动发现业务逻辑
透视宝业务拓扑分析创造性的实现业务逻辑关系的自动发现。既能智能的发现业务与业务、业务与资源依赖、业务与组件调用的关系,以及各业务互调的性能问题。为业务建立全过程快照,可详细查看各组件的当前性能状态,快速发现影响性能的业务和最慢的组件,挖掘性能消耗的热点。

故障快速定位
通过查看所有业务和资源的全局拓扑结构,快速定位运行过慢和出错的应用,并通过资源调用了解资源使用情况。

业务状态层层深入分析
点击业务可以查看当前时间段内的详细情况,包括:概览、应用、事务( TOP10 )、数据库、调用者和主机等情况。并且在每一栏信息展示中,都可以点击进入相应的性能情况的详情页面,便捷的对业务状态进行深度分析。 点击拓扑中的数据库或者第三方 API ,可以查看在该业务系统中数据库的性能情况和第三方 API 被调用的情况。

想快速看清你的业务? 快来体验吧: http://cloudwise.mikecrm.com/M9FuX9
]]>

网络游戏是对用户体验要求最严苛的 IT 行业之一,任何 IT 问题造成的业务不稳定,都可能导致玩家的流失,进而影响游戏商的营收。因此,自动化运维对于游戏平台的重要不言而喻,各种 DevOps 产品和自动化运维技术方案不断涌现,包含发布变更、容量伸缩、故障自愈等多种场景的游戏运维技术日趋成熟,这些改变都让运维工作流程越来越简化。
然而流程的简化并不意味着运维变得容易,恰恰相反随着云计算、移动互联网的广泛应用,游戏业务对运维的要求水涨船高!相比起对 IT 基础设施运维操作的需求,业务侧更需要运维提供高质量的业务保障服务,包括对业务架构及部署的持续优化,精细化的游戏健康度管理,以及快速的故障处理服务等。
以下就是由马辰龙先生为我们分享他在日常工作中总结的《游戏平台运维自动化扩展之故障自愈》:
大家好,我们用一个例子作为今天分享的开始,越来越复杂的网络问题常常会造成各种误报,导致各种误报信息的轰炸,出现报警我们一般先看报警内容,这种情况大家都遇到过吧?久而久之就造成了对告警信息的麻木。比如凌晨 2 点某机房切割网络抖动,一下过来几百条告警短信,相信大家不可能一条条的看。
首先我们要解决的是误报的问题。现在的监控软件无非就是 Zabbix 、 Nagios 或者 SmokePing 这类,还会有一些单点监控软件。如果想消除误报只有多 IDC 去部署监控服务器,搭建多节点去监控网络问题,但这就需要使用大量的服务器资源,有没有什么好的解决方案呢?而且即使我们搭建了大量的监控服务器,又怎么去集中处理告警消息呢? 经过对市面上流行的监控类产品进行广泛调研,发现云智慧的监控宝可以通过分布式监测节点,多区域同时监控服务器、网站的健康状况,同时还提供一些国外节点(我们的业务涉及海外)监测海外用户的业务访问体验,而且阈值和监控方式也可以根据业务的实际需求去自定义。
当然作为一个崇尚运维自动化的运维人员,我看中的不仅是这些,更重要的是能够 callback 告警消息。如果是因为服务器网络或者其他原因导致宕机,在收到告警消息之后,让后端系统能够根据消息去自动处理是不是会更好呢。给大家看一副图来理解下:

根据回调信息,事先将其定义成一些规则,当我们匹配到了告警信息中的特定信息可以自主切换。 监控宝的 URL 回调可以在这里设置:

运维监控的发展:
过去: Nagios 、 Cacti 、 Zabbix 监控单一,对告警后知后觉;
现在: API 监控数据聚合、告警信息收敛,自动化感知;
未来:挖掘故障信息,制定故障自愈规则,提前感知。

运维的建设有四个阶段,简称为四化建设:第一个阶段就是标准化。标准化的意思是把主机名、内网以及配置文件统一起来,如果不统一,后面的东西就无法继续。没有一个标准化的环境,脚本是无法写下去的。第二个阶段是自动化。中小型企业阶段都是自动化到平台化的过渡,平台化就是把自动化的东西分装,把功能整合,把数据做聚合,然后放在平台上来可视化。第三个阶段是平台化。以后的趋势是脚本和功能必须是外部化的,这样新来的一个人才能接手。不用在服务器上跑脚本,还要同下个人交代在哪儿装。最后一个阶段就是服务化。服务化是指现在云平台所承载的东西。举个例子,搭一个 redis 集群,用户不需要知道服务器有多少个,因为所提供的 NOSQL 服务打开后,用户就可以直接使用了。
所以我们未来要做的就是收集告警信息进行自动化处理,而不是通知运维上线处理。我们要脱离那种每天等着告警信息去处理故障,要主动出击,不要等到故障了再去处理,而且即使事后处理好了,那么时间成本也是很高的。 再举个栗子,一个网站在全国各地会解析为多个 IP ,而且还会有备用 IP 用来切换(被 DDOS 的时候, IP 被封,我们需要切换)。我们会有一个脚本去检测这些 IP 的状态,当这些 IP 正常的时候才会切换到这些 IP 上,如果 Ping 不通或者有其他故障就不会去切换,否则去切换一个故障 IP 不是没有用吗?
我们在做监控的时候需要考虑很多不可控的因素,因此在写代码的时候要首先考虑异常状态,否则会造成二次故障,这是我们不愿意看到的。当故障 IP 2 小时内不丢包,我们就把他去掉,下次切换的时候就可以用到,反之亦然。这里提示下,对于这种时间周期可以使用 redis , expire 指定 ttl 。 给大家一张图来理解下告警信息的分类:

我们要做到能自动化的尽量自动化,不能自动化的我们要让它半自动,人工介入处理是最后的方案,因为是人就会犯错,尤其在业务出现异常,操作都是不可控的。 说这么多 ,核心就是需要建立自己的消息处理中心来分析问题,充分利用告警信息,大概的模型可以是这样:

最后,故障自愈能够给我们带来什么:
1 、非工作时间运维人员处理故障以及响应时间;
2 、减少直接的线上操作、避免出现人为原因的二次故障;
3 、提高运维人员对故障原因的分析、以及工作积极性;
4 、提升运维的自身价值。
Q&A
问:如何做告警收敛?
答:比如我们以一台服务器为单位,每分钟的告警信息分为系统和网络告警,统一处理。(当然也能以收件人,业务关联为单位。)
问:对于传染型的故障,不知道有没有什么好的方案呢,就是反复访问一个问题导致骨牌性的反应。
答:比如网站报了 500 错误,那么我们发现 500 错误的时候,在告警的时候可以让它去错误日志里收集关于相同 IP 的 error ,一起发送。
问:怎么自动化的?
答:减少我们去服务器查日志的时间,频繁的 grep xxx 。
问:百度爬虫并发大没抗住,怎么自动化处理?
答:首先你是想让它爬还是不爬,不爬就匹配 useragent 。
问:你们故障自愈是哪些情况?是通过日志?还是 api url 监控?通过特定故障返回特定值??因为 java 的日志各种情况都有。
答:面对 DDOS 流量型攻击,通过分析 url 使用防火墙封禁,首先是日志。
问: DDOS 怎么分析 url ??有什么特征吗??
答: DDOS 是没有日志的,可以通过网络告警去触发, CC 攻击分析你的 URL ,规则可以自己去定义,有些注入、刷 API 等通过正则去匹配。运维人员要利用好日志,所有的问题都是从日志中分析行为发现的。
问:我们上了 ELK , Java 除了假死自动重启,好像没什么自愈的。
答: ELK 可以使用 API 拉日志,去分析业务的运行状态, ELK 的面太大,这里细节就不多说了。
]]>监控宝
1 、企业版“报表中心”新增“数据报表”模块
数据报表可进行不同监测点的多个指标数据对比,支持折线图、柱状图、折柱混搭视图切换,数据报表可导出。目前支持 Ping 监控监测点和省份运营商两个维度的报表。


另外,企业用户的只读账户,也可设置并接收到语音告警了。网页性能管理支持国际化「繁体中文、英文」。 有海外的业务的小伙伴们不要错过哦。

透视宝
1 、新增业务系统拓扑展现
面向业务系统的构建和问题分析,能够定义面向业务系统的架构图,整合原有离散的应用、前端、后台任务、数据库及基础设施,给用户呈现业务系统的体系架构;基于业务系统拓扑图的性能分析帮助用户通过拓扑图分析系统各个组件的性能问题。

2 、应用栏目新增对比分析
应用栏目中新增对比分析:可以按应用和该应用下的事务进行不同时间维度的对比分析。统计指标为:每分钟请求数,平均响应时间,每分钟错误数,错误包含错误和异常。

另外,透视宝 javacode 请求堆栈中添加 mongodb 的数据库信息。移动应用分析新增对 wkwebview 的性能监控,可监控 WKWebview 的时间响应分解、耗时、白屏、 ajax 请求数据、 JS 错误数据等。

压测宝
集成代码追踪,支持全平台全语言的后端追踪
压测任务数据分析中能够深度集成透视宝代码追踪,支持全平台、全语言的后端代码追踪,针对压测中的性能问题进行深度分析。例如对 [失败、缓慢] 的请求做深度分析,可详细查看该请求的堆栈耗时、 SQL 执行耗时、请求参数等。


盼望着盼望着,终于可以支付了,我愉快地拿起手机打开应用支付订单,等支付确认之后,我才发现,貌似店家没有给我优惠哦!怎么两份苹果要了 79*2=158 元呢?真郁闷,这不简直是赤果果的消费欺诈不成?所以我选择退款!必须退!结果更让人崩溃,点击退款之后系统的提示是这样的!

不得不佩服这个店家的服务,一会短信就过来了,店家抱歉说是因为系统因为访问量太大出现了故障,所以可以支付完成之后找店家补差价。哦,原来是这样!本来还以为是店家欺诈呢。

郁闷地打开朋友圈,想发发牢骚,结果看见朋友圈里中招的小伙伴相当多呢。



看了这些顿时精神一震,好歹我也是个高级运维工程师呀,还懂代码开发,就是传说中的 DevOps ,爬起来我开始分析:一般这种商品两件优惠大致有几种策略(可能还有,我买的比较少,没有看到): 1 )第 2 份 0 元,就是所谓的五折嘛! 2 )第 2 份 1 元,比五折那么一点点; 3 )第 2 份每斤 1 元; 那么在加入购物车选择结账的时候,系统发生了什么?我猜想是这样的:

按照这个流程来讲的话,就是万恶的“减免计算接口”出现了问题!估计是对应的后端服务宕机了,或者我所在的北京地区的网络出现了问题,导致在调用这个接口的时候出现了异常,不过真心佩服电商平台技术,做了很多的异常判断,明显是当“减免计算接口”出现异常的时候,系统能够继续正常执行,当然此时就第 2 份就不会优惠了。 接口很重要!接口很重要!接口很重要! 所以在系统上线前有必要对接口进行大规模并发下的压力测试,首先要保障提供接口服务的程序不掉链子,能够抗住那么多流量,其实这样还不够,因为仅仅关注后端是不够的,现在的应用架构太复杂了,网络、 CDN 等都是影响接口正常质量的很重要的因素,所以必须能够在全链路的真实环境下对系统进行压测,这样就能判断哪些地区,哪些运营商可能导致的用户不爽。 正在这时,上海同学告诉我他在凌晨正常下单支付了!好吧,这说明上海并没有受到类似不良接口的影响。 仅仅是全链路压测够不够呢?其实还不够,因为在真实环境下,各种状况层出不穷,瞬息万变,测试做的再好也只能尽可能真实的模拟未来发生的情况,但是实际上还是会有不可预想的事情发生,所以我们还需要监控!比如我就用监控宝的 API 监控把公司应用里的那么多关键接口进行了 7X24 小时的实时监控,能够通过云智慧的全球监测点对接口调用的可用性、正确性和响应时间进行实时监测,当有问题的时候第一时间获得短信或者电话语音的告警通知,经过分析快照快速定位和解决问题——这一切只要在老板知道以前处理掉,今年的优秀员工就是我啦。 最后问一句,谁认识负责“减免计算接口”服务的运维同学?我想和他聊聊去。
]]>
]]>
]]>
]]>
]]>
]]>
]]>
]]>这些地区有业务的小伙伴不要错过哦,可以用监控宝实时关注这些地区用户访问公司业务的性能情况。
监控宝监测网络遍布全球,监测频率高达1分钟,覆盖全国所有省份和运营商,实现高效能网站持续监测,帮助您了解世界各地真实用户访问网站的情况。
了解更多全球分布式监控节点,从这里进: http://www.jiankongbao.com/monitor
您还需要哪些地区的监控节点,也可以留言给我们哦~
]]>无压测,不狂欢。 云智慧压测宝助您决战 618 ,立即进行压力测试 http://yacebao.com/
云智慧压测宝,性能压力测试的必备工具,基于真实业务场景与用户行为的云端压力测试。只需 3 步 6 分钟,即可发起百万并发访问,实现对全链路和全业务的压力测试。
6 分钟 即可发起百万并发
全球多达 200+城市持续并发 任意位置浏览器创建并控制测试 洞察生产环境高并发下的性能表现 
只需三步 从准备到获得数据
准备测试脚本,确认压测目标 设置测试时间、并发量等任务 得到测试结果,实时查看数据 
压测监控大屏掌控全局状况
自定义数据分析面板 全自动关联分析多项指标 实时数据分析,发现性能瓶颈 
颠覆传统压测理念

决战 618 立即进行压力测试 http://yacebao.com/
]]>
透视宝 Webview 性能分析是对 H5 页面性能的分析,包括页面加载性能分析和 Ajax 性能分析。新鲜出炉,免费体验中。 前往免费体验: www.toushibao.com
图 1:透视宝 webview 的慢页面加载列表
图 2 : H5 页面响应时间分解图
图 3:透视宝 webview 页面加载资源时序图
前往免费体验: www.toushibao.com
]]>感觉现在的支付宝就像方校长, 被迫做数据的收集, 以后街上监视器一拍就知道户口, 或者听个留言就知道户口, 交际关系网络轻松获取, api 都做好了, 想想好可怕.
我是从澳大利亚区 AppStore 下的支付宝
IPA https://mega.nz/#!OoljEQhJ!i-46F7gcw9G2Crxvv2XuQV8z0v_Q_tPWlUAU4Rnfpok 
了解更多全球分布式监控节点,从这里进: http://www.jiankongbao.com/monitor
您还需要哪些地区的监控节点,也可以留言给我们哦~
]]>
]]>
]]>
详细的性能信息呈现
全面掌握容器从开启、暂停、重启到销毁全过程中,每项指标的详细情况。全程自动监测 Docker 指标,自动关联监控任务,自动生成数据图表。让您在使用 Docker 时清晰掌握其资源消耗状况。
存活数量、崩溃事件、 CPU 使用率、内存使用量、磁盘使用量、网络流量及 Swap 状态
部署简单
只需要将 Docker 监控采集器下载安装到主机,即可在监控任务中查看对应的 Docker 监控数据。

全渠道告警(即将上线)
自定义告警阈值, Email 、短信、微信、语音、 APP 推送等全渠道告警方式,第一时间发现业务性能问题。

2015 年 12 月 31 日之前,向所有 Docker 爱好者、技术人员免费开放。
马上试用: www.jiankongbao.com
]]>