Мы проводили аудит процессов и практик эксплуатации в компании, развивающей B2B SaaS платформу, с целью повышения стабильности платформы, масштабирования сервисов, развития процессов поставки и эксплуатации. Запрос был связан с ростом нагрузки на платформу, усложнением архитектуры и необходимостью выстроить более предсказуемую и устойчивую модель эксплуатации.
В рамках аудита мы проанализировали процессы и практики в командах эксплуатации и разработки, изучили текущее взаимодействие между командами, архитектуру платформы, окружения и используемые сервисы. Отдельное внимание было уделено анализу инцидентов, выявлению системных причин сбоев, а также сбору и структурированию накопленного технического долга, влияющего на стабильность и скорость изменений.
По результатам аудита были подготовлены рекомендации по следующим направлениям:
- Реорганизация команды эксплуатации, разделение ответственности между платформенной командой и SRE командой, а также улучшение взаимодействия с командами разработки;
- Развитие SRE практик, включая организацию дежурств, управление инцидентами, проведение пост мортемов, управление техническим долгом и техническими миграциями;
- Развитие Observability практик, включая мониторинг, логирование и трейсинг как основу для управляемой эксплуатации и диагностики проблем;
- Развитие и применение практик Infrastructure as Code и CI/CD для стабилизации и синхронизации окружении, а также автоматизации процессов поставки и развертывания.
Результаты аудита стали основой для планирования изменений в эксплуатации и повышения надежности платформы.