IT运营监察和控制化解方案介绍

现状

•小商店/ 创业团队< 500台服务器规模

开源方案:Zabbix、Nagios、Cacti…

云服务提供商:监察和控制宝、oneAlert等

•BAT级别> 10万台服务器

投入大量的人工,内部自研,与工作严重耦合无法作为产品生产

•中间阶层

无从可选

 

早期,选用Zabbix

•Zabbix是一款开源的商店级监督系统

•对其实行一次开发、封装、调优…

•为啥选拔Zabbix

•Cacti

•Collectd

•RRDtool

•Nagios

•openTSDB

 

Zabbix实践思路

•测试ZabbixNode

•Zabbix代码优化

•使用方式优化

•独立布署多套Zabbix,通过API整合

 

Zabbix境遇的难题

•随着公司工作规模的火速前进

•用户“使用成效”低下,学习花费很高

•不拥有水平扩张能力,不能够支撑业务供给

•告警策略的保养、变更代价太大,导致运营职员沦为当中,不能自拔

•不便利自动化,不便利与运转平台等基础设备整合


Open-Falcon

Open-Falcon是Nokia运营团队设计开发的一款网络公司级监督检查种类

•提供最好用、最人性化的网络公司级监督化解方案

•项目主页:http://open-falcon.com

•Github: https://github.com/xiaomi/open-falcon

•QQ讨论组:373249123

•微信公众号:OpenFalcon

 

社区进献

•沟通机监察和控制

https://github.com/gaochao1/swcollector

•Windows监控

https://github.com/freedomkk-qfeng/falcon-scripts/tree/master/windows_collect

•Agent宕机监察和控制

https://github.com/freedomkk-qfeng/falcon-scripts/tree/master/agent_monitor

•Redis/memcached/rabbitmq监控

https://github.com/iambocai/falcon-monit-scripts

•MySQL 监察和控制方案

https://github.com/open-falcon/mymon

 

卓绝案例

美团

•生产环境广泛应用,1万+agent

•集成服务树、扶助ping监察和控制、多机房架构支持、报告警方第3接收人协理

•正在开发openTSDB接口、query扩展正则功用

赶集

•深度定制,用于大数量部门平台服务监察和控制与机关运行,生产环境已上线

京东财政和经济

•深度调查研究open-falcon

•正在开发测试drrs(一种分布式的time series data 存款和储蓄组件)并适配falcon

 

内部 

图片 1

agent
•负责机器数据收集
•自发现各样监督检查指标
•发送数据给transfer
•发送心跳音讯给hbs
•执行自定义插件
•业务数据毫无用插件采集!
•数据搜集选用推如故拉的不二法门?

transfer •对收到到的数据做合法性校验
•转载数量给graph和judge
•为啥要做这几个统一的接入端?
•为啥要对数码做分片?
•数据分片方案,用一致性hash依旧路由表?

judge •对吸收到的多少依据阈值实行判断
•达到阈值的数量爆发相应的event
•触发式判定or 轮询?
•为啥要动用内部存款和储蓄器?

graph
•操作rrd文件,对数码进行仓库储存和询问
•将反复操作合并后再flush磁盘
•将要flush到磁盘的多少,打散到种种时间片,下跌IO消耗
•为何用rrd而不是opentsdb之类的?

hbs
•提供接口给agent查询机器所需监督检查的端口、进程、要推行的插件列表等消息
•接收agent汇报的动静消息并写入数据库
•缓存用户配置的告警策略
•为何要用hbs缓存策略列表?

query

•利用一致性hash算法,查询多少个graph的多寡并集结
•供给接纳与transfer相同的hash算法及布局

各web端
•Dashboard负责绘图、体现、仪表盘等
•Uic负责管理组合人的对应关系
•Alarm-dashboard负责体现当前未恢复生机的告警
•用户在portal中布局告警策略
•Portal中的hostgroup一般是从CMDB中一起过来的!

Aggregator 指标:集群监察和控制
•针对有些hostgroup的多个counter实行测算
•分子:$(c1) + $(c2) -$(c3)
•分母:可以是$# 或许数字可能$(d1) + $(d2) -$(d3)
计算结果
•封装成1个metricItem,再一次push回open-falcon
为啥如此达成
•归一化的标题一举成功方案
•复用整个open-falcon的绘图呈现、告警逻辑

Gateway——跨数据宗旨

图片 2

接驳服务树(CMDB)
•开源服务器管理组件(服务树)
•监察和控制对象通过服务树来管理
•服务器进出节点、监察和控制自动变更

野史数据高可用
rrd-on-hbase
•绘图数据存款和储蓄在hbase中,化解高可用的难题
•历史数据提供更详实粒度的查看
drrs(@京东金融)
•Distributed Round Robin Server
•面向中央集团,轻量级的历史数据存款和储蓄方案,化解数量扩大体量的题材

智能告警
同比、环比
•Dashboard数据体现帮忙比较、环比
•告警判定引入同比、环比作为参照
动态阈值
•通过对历史数据的学习,生成动态的告警阈值
涉嫌分析
•精准告警
•故障定位

SDK
七层
•Nginx
•统计cps、200、5xx、4xx、latency、availability、throughput
语言补助Java/C++/PHP/Python
•内置计算种种接口的cps、latency
•内置总结工作关心的目标的力量
框架援救
•resin、spring、flask…
总计类型
•Gauge/ Meter / Timer / Counter / Histogram

云监控
•服务端Host在国有云上
•无需客户安装、运行服务端
•支持namespace隔离、quota限额
•从根本上对两样用户的多寡举行隔开
•优化监察和控制的增进、管理、查看流程
•提高用户体验、升高用户选取功能

其他
•Callback成效增强,推进故障自动处理
•插件的管理扶助各样措施(不仅限于git)
•Dashboard 扩充用户登录认证
•告警排班/ 告警升级(@金山云)


Open-Falcon布署进行
•初始阶段
•全数的机件陈设在一台物理机上即可
机器量级~ 500
•graph、judge、transfer多个零部件拆分出来铺排在1台服务器上
机器量级~ 1000
•graph、judge、transfer 增加到2~3个实例
•query拆分出去,安排三个实例
•dashboard 拆分出来安顿
机器量级~ 10K
•graph、judge、transfer 增添到十几个实例,graph尽量使用ssd磁盘
•query增加到5个实例
•dashboard 拆分出来,扩展到1个实例

 

瞩望对您运营管理有扶持。


以上内容部分源点网络, 希望对您系统架构划设想计,软件研究开发有赞助。
别的您可能感兴趣的文章:

营造飞速的研究开发与自动化运转
互连网数据库架构划设想计思路
挪动支付一站式消除方案
某大型电商云平台实践
合作社级应用架构格局N-Tier多层架构
某商厦打交道应用网络拓扑架构图
IT基础架构规划方案一(互联网连串规划)
餐饮连锁集团IT音信消除决方案一

如有想询问越来越多软件研究开发 , 系统 IT集成 , 集团音信化,项目管理
等消息,请关怀本身的微信订阅号:

图片 3

 

作者:Petter Liu
出处:http://www.cnblogs.com/wintersun/
正文版权归作者和微博共有,欢迎转发,但未经小编同意必须保留此段表明,且在篇章页面显然地点给出原版的书文连接,不然保留追究法律义务的职分。
该小说也还要发布在自家的独门博客中-Petter Liu
Blog

网站地图xml地图