返回首页
最新 | 最热门 | 最高评价

+0  树莓派(raspberrypi)、saltstack 在线下自助机运维上的应用

Tag: *nix | infrastucture | kiosk | operations | raspberrypi | 大发排列3官网
jaseywang 发于 2017年02月08日 13:05 | 点击: 1848 | 展开摘要
目前每家院区都分布了从数台到近百台规模不等的自助机,覆盖了北京市属 22 家医院的三十多个院区,一千多台的日常变更、升级管理、甚至常人看来很简单的开关机成了摆在眼前的一大问题。下面这篇博客会抛出 4 个问题并且分享下我们线上的实战经验。

1. 开关机,一个看似很幼稚的问题

你去市面上问一个的有点经验的运维,「服务器怎么开关机」,他可能第一反应是,「服务器要关机吗?」如果你接着问,「如果现在就有这么一个需要,需要先关机过段时间再开机,怎么办?」,他很可能会告诉你,「远程

查看全文: 大发排列3网址

+0  树莓派(raspberrypi)、saltstack 在线下自助机运维上的应用

Tag: *nix | infrastucture | kiosk | operations | raspberrypi | 大发排列3官网
jaseywang 发于 2017年01月20日 13:05 | 点击: 1240 | 展开摘要
目前每家院区都分布了从数台到近百台规模不等的自助机,覆盖了北京市属 22 家医院的三十多个院区,一千多台的日常变更、升级管理、甚至常人看来很简单的开关机成了摆在眼前的一大问题。下面这篇博客会抛出 4 个问题并且分享下我们线上的实战经验。

1. 开关机,一个看似很幼稚的问题

你去市面上问一个的有点经验的运维,「服务器怎么开关机」,他可能第一反应是,「服务器要关机吗?」如果你接着问,「如果现在就有这么一个需要,需要先关机过段时间再开机,怎么办?」,他很可能会告诉你,「远程

查看全文: http://shapenut.com/item/16083.html

+0  How We Migrate PBs Data from Beijing to Shanghai

Tag: *nix | infrastucture | mongodb | 大发排列3 | mysql | networking | operations | redis
jaseywang 发于 2015年05月13日 00:22 | 点击: 1933 | 展开摘要
We spent more than 6 months migrating our PBs data located in Beijing to Shanghai.

This slide gives you a brief introduction about how we do it.



How We Migrate PBs Data from Beijing to Shanghai from Jasey Wang

Related Posts:
Migrati

查看全文: http://shapenut.com/item/14202.html

+0  Umeng Operations Infrastructure & Practice

Tag: *nix | infrastucture | operations
jaseywang 发于 2015年02月16日 13:59 | 点击: 1575 | 展开摘要
This month(12/2014), I was invited by Zhihu, China's Quora to give a talk about operations infrastructure and practice of umeng.com. Since I've been here for 4 years, it's really a good opportunity to have a summary, so here com

查看全文: http://shapenut.com/item/13859.html

+0  resolv.conf 的超时(timeout)与重试(attempts)机制

Tag: *nix | dns | infrastucture | operations | programming | tcp
jaseywang 发于 2015年01月02日 23:06 | 点击: 3989 | 展开摘要
/etc/resolv.conf 有两个默认的值至关重要,一个是超时的 timeout,一个是重试的 attempts,默认情况下,前者是 5s 后者是 2 次。

这个估计很多工程师都不是很在意,一般情况下,使用默认的值倒没什么大问题,特殊情况我会在最后说明。

要测试,不要使用 dig, host, nslook 这类工具,因为他们并没有调用 resolver 的库,可以使用 getent 来测试。上面提到的只是一些诊断的工具,对于日常的应用来说,包括 web ser

查看全文: http://shapenut.com/item/13720.html

+0  如何部署一个稳定高效可扩展的前端

Tag: *nix | infrastucture | ipvs | log | 大发排列3 | nginx | operations | post-mortem | zabbix
jaseywang 发于 2014年10月23日 23:07 | 点击: 1793 | 展开摘要
一切的工程都要从实用的角度出发,排除 GLSB 在外,目前主流的开放的前端无非就那几种:

1. 最简单的就是 DNS RR,上手很快,缺点也很明显

2. web server + keepalived,相对智能些,依然有缺点,没有 health checker

3. 目前主流的方案 LVS(ipvs) + keepalived + web server(Nginx/Tengine),如果规模比较大,可能还会涉及到 OSPF

前端的地位不言而喻,出问题大家都只能

查看全文: http://shapenut.com/item/13427.html

+0  如何部署一个真正好用的前端

Tag: *nix | infrastucture | ipvs | log | 大发排列3 | nginx | operations | post-mortem | zabbix
jaseywang 发于 2014年10月23日 23:07 | 点击: 1747 | 展开摘要
一切的工程都要从实用的角度出发,排除 GLSB 在外,目前主流的开放的前端无非就那几种:

1. 最简单的就是 DNS RR,上手很快,缺点也很明显

2. web server + keepalived,相对智能些,依然有缺点,没有 health checker

3. 目前主流的方案 LVS(ipvs) + keepalived + web server(Nginx/Tengine),如果规模比较大,可能还会涉及到 OSPF

前端的地位不言而喻,出问题大家都只能

查看全文: http://shapenut.com/item/13424.html

+0  NX-OS(N7K) 也能跑崩(Nexus 7000 Stuck Sending TCNs Every 2 Seconds)

Tag: *nix | operations | tcp
jaseywang 发于 2014年09月22日 20:22 | 点击: 1868 | 展开摘要
题目有点夸张,但是确实对我们的生产环境造成了很大的影响,越是基础的部件出现问题造成的损失越大。这个是触发该 bug 的两个时间段内,一台前端机器到部分后端机器的丢包情况监控。



这个 bug 跟我两年前碰到的 2.6.32 内核的 208.5 bug(1, 2) 倒是很像,弄不好又是哪个无证码农犯了除以 0 了。

发现这个 unicast flooding 的特征还是蛮明显的,比如 iftop 发现竟然出现了其他主机之间交互的流量,tcpdump 抓包也能观察到类

查看全文: http://shapenut.com/item/13304.html

+0  startup 的安全问题

Tag: *nix | infosec | operations | startup
jaseywang 发于 2014年09月18日 00:24 | 点击: 1511 | 展开摘要
安全这个问题好像离绝大多数的 startup 比较遥远,好像谈到安全只有 BAT 这类规模的才会重视。

绝大多数的 startup 起家都是短糙快,怎么好搞怎么搞,怎么方便怎么搞,怎么省事怎么搞。再加上「绝大多数的创业公司都喜欢宣称自己是「平均年龄25 的年轻团队。」,正面理解起来是有活力的团队,反面理解起来,其实代表的是「招不到人,只能忽悠年轻人,组建的一只没经验靠人力时间堆砌的弱逼团队」」,其整体的安全性可想而知。

这或许在初期并没有什么问题,因为本来知道你的人就

查看全文: http://shapenut.com/item/13280.html

+0  最近半个月的工作[14P]

Tag: *nix | around my life | fun | infrastucture | 大发排列3官网 | life | nginx | operations | outage | 大发排列3计划 | tcp
jaseywang 发于 2014年09月15日 22:08 | 点击: 1620 | 展开摘要
5 月发生的事,6 月补充完,9 月发出来 ;-)

5 月 13 日周二

开始我们另外一个核心 IDC 最后一次常规性 10G 升级,下面的一部分我们后来把他总结成了《5 月故障总结(post-mortem)》

回家睡了会儿,3:00 am 起床,4:00am 开始连续干了 6h

回公司休息了 1h,塞了点巧克力复活

中午去水立方进行了常规的 1h 训练

回来面(对了,我们目前招高级应用运维工程师 PE,有兴趣的给我简历,邮箱是 w 在 umeng 点

查看全文: http://shapenut.com/item/13257.html

+0  ops 的 technical support

Tag: *nix | operations
jaseywang 发于 2014年08月12日 20:48 | 点击: 1209 | 展开摘要
Technical support 是一项非常有挑战性的工程。做 ops 的多少要遇到一些这类的问题,对外你是客户,厂商给你提供技术支持;对内,你需要服务客户,给很多分不清 ip 是什么如何做 bind 的码农们提供技术支持敦促其改进。

每次客户的系统出问题,你屁颠屁颠的跑到现场去花了几天几夜帮他修复了一个非常棘手的问题,自然值得骄傲,但是如果有比这个更好的方式,为何不试试看,很高兴的看到,有很多的公司已经在这方面做的很完善。

首先说说我们的老合作伙伴,RedHat,

查看全文: 大发排列3计划

+0  5 月故障总结(post-mortem)

Tag: *nix | operations | outage
jaseywang 发于 2014年07月05日 00:02 | 点击: 1590 | 展开摘要
14 年 5 月,友盟的几个核心产品由于各种因素的影响,对外表现了一些不稳定的现象,我作为最主要的当事人之一,有不可逃避的责任,为了给开发者一个交代,我总结了这么一篇 post-mortem。目前对外发布的版本出于迎合普通工程师的口味,我们的运营阉割了部分内容,除此之外,我们还做了一个给纯小白用户看的时间轴图片,更加的简介明了,说是《友盟万兆网络升级日记》并不能概括这段事件发生的事情。下面这个是我写的一个未经删改的 post-mortem,透露的内容还是很多的,同时技术性也更

查看全文: http://shapenut.com/item/12710.html
|<<<12>>>| 一共2页, 23条记录
返回首页