运维工程师心法:6 大技能让你告别背锅( 十 )

生产环境不是儿戏 , 数据库也不是儿戏 , 一定要对数据负责 。 不备份的后果是非常严重的 。

3.追根究底
很多运维人员比较忙 , 遇到问题解决就不会再管了 , 记得去年一个客户的网站老是打不开 , 经过php代码报错 , 发现是session和whos_online损坏 , 前任运维是通过repair修复的 , 我就也这样修复了 , 但是过了几个小时 , 又出现了 。 反复三四次之后 , 我就去谷歌数据库表莫名损坏原因:一是myisam的bug , 二是mysqlbug , 三是mysql在写入过程中被kill , 最后发现是内存不够用 , 导致OOM kill了mysqld进程 , 并且没有swap分区 , 后台监控内存是够用的 , 最后升级物理内存解决 。

4.测试和生产环境
在重要操作之前一定要看自己所在的机器 , 尽量避免多开窗口 。

推荐阅读