【レポート】NoOps Meetup Tokyo #6

NoOps Meetup Tokyo #6に行ってきました。レポートというかメモ書きですがシェアしたいと思います。

Observabilityを支えるStackdriver

SREとはdevopsの実践方法で意思決定にデータを用いる SREを実行するためのデータは　・SLI、SLO、SLA 　・エラーバジェット　・ユーザーの幸福に繋がる指標がある。

SLOはシステムの提供できる価値と許容できる値 SLIとなるメトリクスの取得と収集が必要 SLO違反に対応するための体制が必要

クラウド化によって従来のOSやハードウェアの監視の負担は軽減されてきているので、アプリケーションとして価値が提供できているかが重要になってきている。

Stackdriver製品を使っている。 GCPとAWSに対応複数のサービスにまたがったトレースもできる sentry的なアプリケーションログのレポートもまとめてくれる

https://speakerdeck.com/ymmt2005/wu-li-detasentademo-noops サイボウズクラウドのインフラはオンプレ手作業、トイルが多い手順書作る、レビュー、リハーサル、本番環境で手動適用

2018年からリプレイス計画始動 kubernetes中心物理サーバに直接依存させたくないコンテナ・マイクロサービス時代の勝ち馬拡張性が高く設計が優れている

kubernetes以外も全て宣言的オペレーションにする特定の目的に縛られたサーバ・ネットワークを作らないデータセンターで動作するすべてを自動テストする →ぶっつけ本番をしたくない

kubernetes管理ツールCKE 　・kubernetes クラスタの運用を自動化　・望みのクラスタ構成を宣言するだけ

仮想データセンターを活用したCI/CD 　・開発者用のデータセンターがほしい　・pladematというツール　　ネットワーク（スイッチ）、ルータ、サーバをYAMLで管理電源停止後の動作確認もできる

トイルをどうやって計測するか SREはトイルを50％以下にしないといけない

業務分類

カンバンで分類ごとにレーンを作るすべての業務にポイントを付与作業時間割合を計測

そもそもトイルが生まれないようなシステム開発が必要障害が生まれにくいような設計より信頼性の高いコンポーネントに置き換える（AWSのマネージド使うとか）

デプロイの責務を開発者に移管開発者がデプロイボタン押したらデプロイ開発者による問題検知ができるようモニタリングする stacdrierでジョブキューの可視化、新着バグを通知