Разработали и провели тренинг по Reliability и Production Engineering на основе подхода и книг по Google SRE. Провели обучение тимлидов, техлидов и инженеров эксплуатации. Обсудили основные принципы и процессы. Раскрыли такие темы и практики как Monitoring, Alerting, Troubleshooting, Incident Management, On-Call, Postmortems, SLI/SLO/SLA, Error Budget, Toil. Показали варианты топологий команд и примеры перехода и построения SRE в компании. Обсудили связь с DevOps и ITIL. Помогли составить план перехода к SRE. Обеспечивали консультационную поддержку после тренинга.