NEW
リモート可
【Python/リモート可】既存システムへのSRE導入設計支援
雇用形態
業務委託(フリーランス)
業務内容
・可用性管理を行います。
・SLO/SLIの設計と可用性指標の定義・理解を進めます。
・冗長化設計や高可用性構成を提供します。
・AutoScalingの活用やマルチAZ構成の設計・導入を行います。
・監視・可観測性の強化を図ります。
・メトリクス、ログ、トレースの収集・管理を行います。
・監視基盤設計・構築をします(Prometheus、Grafana、CloudWatch、Fluentdを使用)。
・アラート・インシデント対応を行います。
・アラート閾値の設定とノイズ抑制を行います。
・Slackなどと連携した通知設計を行います。
・一時対応やログ調査を実施します。
・自動化スクリプトの作成を行います(Bash、Pythonを使用)。
・継続的改善(SRE原則に基づくPDCA)を実施します。
・SLO違反の分析とSLI/SLOデータの可視化を行います。
・違反要因の仮説立案と検証を行います。
・容量・性能管理を行います。
・スケーリング戦略の立案と実行をします。
・Kubernetesを用いたAWS上のコンテナ自動スケール設計を行います。
・AWS OpsWorks、Terraformなどを用いたIaCによる構成管理と自動化を行います。
求めるスキル
- ■必須スキル:
- ・SRE(Site Reliability Engineering)の導入経験 ・可用性、パフォーマンス向上、運用自動化、アラート設計などのSRE導入における導入設計を対応
- ■歓迎スキル:
- ・AWSサービスを使った監視、アラート設計導入やスケーリング自動化 ・TeraformやAnsibleを使ったIaCの実装経験
更新日: 2日前