qpstudy 2016.04 響け!アラートコール!に参加した

  • 投稿者:
  • 投稿カテゴリー:event

#qpstudy 2016.04 響け!アラートコール!に参加した
その時の箇条書き(聞いたことや気づきをメモ)

・早く障害に気づく、いち早くとりかかるための監視
・網羅性と精度は経験と勘に左右される。基本的に監視項目は外枠から考えていく(外形監視→デーモン監視といった具合に)
・PaaSをどう監視するかも今後のポイント
 開発、運用業務内容の変化に合わせて、監視方法をかえて価値提供する必要がある
 例えばAWSだとCloudWatch(用意されたもの)や自前ツールなどを利用して監視する
・対応が必要なもののみをアラートとする考え方もある
・監視サーバは本当に必要か?SaaSを利用しない理由はあるのか?を考えなおす(メルカリはMackerelでの監視に移行している)
・人と同じ救急救命モデルがコンピューターでも活かせるかもしれない
・トリアージという観点。優先度をつけて、どのサーバから対処するか決める
・自動化を目的とすると皆が不幸になるので、手段とすること
・監視項目がビジネス(お金)と結びついたらよい判断基準になるかも(例えば、この障害であれば○円の損害なのですぐに対応するなど)
・監視項目と対応方法はセットであるべき
・ただ監視するだけでなく、それを別の人に引き継げるかどうかも大切な観点(属人化しがちのため)
・コンピュータよりも人間が得意なことは、アーキテクチャ全体を見渡し障害ポイントを推測すること
 あとはなるべくコンピュータに任せたい

おまけ

reverse-i-search なるものを初めて知った
http://heartbeats.jp/hbblog/2010/03/10tips.html

参考資料