Помогаем развивать культуру, процессы и практики надежности
Знакомые проблемы?
Низкая надежность и доступность
1
Рост компании, команд и сервисов
2
Взаимодействие разработки и эксплуатации
3
Нехватка экспертов и экспертизы
4
Низкая инженерная культура
5
Неэффективные процессы и практики
6
Мы помогаем решать проблемы с которыми регулярно сталкиваются технические директора, руководители продуктовых и платформенных команд, руководители команд разработки, инфраструктуры и эксплуатации в технологических и Enterprise компаниях.
Мы помогаем
Развивать культуру, процессы и практики надежности
Усиливать центры компетенций и практик
Развивать команды эксплуатации и надежности
Создавать и внедрять практики и инструменты
Улучшать взаимодействие эксплуатации и разработки
Соблюдать баланс между качеством и скоростью
Мы применяем
Мы применяем и адаптируем современные фреймворки, подходы, модели, паттерны и метрики для оценки зрелости и развития культуры и практик надежности
Мы понимаем, что все компании и команды разные, поэтому пилотируем и масштабируем процессы, практики и инструменты с учетом вашего контекста, инженерной зрелости и ограничений
Проводим аудиты и исследования команд эксплуатации, поддержки и сопровождения. Анализируем структуру команд, способы взаимодействия, оцениваем состояние инженерной культуры, процессов и практик, сервисов и инструментов. Подготавливаем подробные отчеты, аналитику и рекомендации по развитию культуры, процессов и практик.
Выполняем R&D проекты. Создаем и обновляем методологии, модели зрелости, фреймворки и каталоги практик . Внедряем, развиваем и масштабируем современные практики надежности в командах. Помогаем создавать и развивать центры компетенций, сообщества практик, экспертные команды. Усиливаем вашу экспертизу и компетенции.
Проводим обучение, тренинги и воркшопы, консультации по современным практикам надежности для менеджмента, руководителей и лидеров сообществ, лидеров центров компетенций и практик, тимлидов, техлидов, представителей экспертных и платформенных команд, инфраструктуры, сопровождения и эксплуатации.
Запросить
Мы готовы вам помочь
Ответим на вопросы по услугам и форматам, разберем ваш кейс, назначим встречу с экспертом, отправим предложение
Мы объединяем экспертов, которые помогают развивать инженерную культуру, процессы и практики надежности и отказоустойчивости в крупных технологических компаниях
Разработанные нами рекомендации, методологии и подходы успешно применяются в компаниях
Аудит процессов и практик в инфраструктурных командах EdTech компании
Мы проводили аудит процессов и практик в инфраструктурных командах EdTech компании с фокусом на применение и развитие современных DevOps и SRE практик. Управленческий запрос был связан с ростом нагрузки на инфраструктуру, усложнением архитектуры и необходимостью повысить стабильность сервисов, предсказуемость работы инфраструктуры и качество взаимодействия между командами.
В рамках аудита мы изучили взаимодействие продуктовых и инфраструктурных команд, архитектуру и сервисы, текущее состояние инфраструктуры и существующие процессы эксплуатации. Отдельное внимание было уделено выявлению проблем, анализу планов по развитию, накопленного технического долга и операционных ограничении, влияющих на скорость изменений и надежность сервисов.
По результатам аудита были подготовлены рекомендации по следующим направлениям:
Реорганизация инфраструктурных команд и улучшение взаимодействия с продуктовыми командами, включая поддержку, обучение, проведение опросов и использование метрик, а также развитие внутренних процессов дежурств, управления инцидентами, работы с техническим долгом, технических миграции и планирования расходов;
Создание платформы CI/CD для автоматизации процессов разработки, тестирования и поставки, управления окружениями, пайплайнами и политиками развертывания, развитие платформы как внутреннего продукта и предоставление платформы как сервиса;
Развитие SRE практик с целью повышения стабильности сервисов и инфраструктуры, а также повышения инженерных компетенции команд разработки, включая применение и развитие инструментов мониторинга, логирования и трейсинга;
Развитие практик Infrastructure as Code, управления конфигурациями и облачными окружениями, выбор и обновление инструментов, а также применение подходов Pipelines as Code и Monitoring as Code.
Этот аудит стал основой для планирования системных изменении в инфраструктуре и развития инженерной культуры и практик в компании.
Аудит процессов и практик эксплуатации в B2B SaaS платформе
Мы проводили аудит процессов и практик эксплуатации в компании, развивающей B2B SaaS платформу, с целью повышения стабильности платформы, масштабирования сервисов, развития процессов поставки и эксплуатации. Запрос был связан с ростом нагрузки на платформу, усложнением архитектуры и необходимостью выстроить более предсказуемую и устойчивую модель эксплуатации.
В рамках аудита мы проанализировали процессы и практики в командах эксплуатации и разработки, изучили текущее взаимодействие между командами, архитектуру платформы, окружения и используемые сервисы. Отдельное внимание было уделено анализу инцидентов, выявлению системных причин сбоев, а также сбору и структурированию накопленного технического долга, влияющего на стабильность и скорость изменений.
По результатам аудита были подготовлены рекомендации по следующим направлениям:
Реорганизация команды эксплуатации, разделение ответственности между платформенной командой и SRE командой, а также улучшение взаимодействия с командами разработки;
Развитие SRE практик, включая организацию дежурств, управление инцидентами, проведение пост мортемов, управление техническим долгом и техническими миграциями;
Развитие Observability практик, включая мониторинг, логирование и трейсинг как основу для управляемой эксплуатации и диагностики проблем;
Развитие и применение практик Infrastructure as Code и CI/CD для стабилизации и синхронизации окружении, а также автоматизации процессов поставки и развертывания.
Результаты аудита стали основой для планирования изменений в эксплуатации и повышения надежности платформы.
Развитие процессов и практик SRE в технологической компании
Мы консультировали CTO и SRE команду в технологической компании с фокусом на развитие и масштабирование SRE процессов и практик в условиях роста бизнеса и увеличения количества команд. Управленческий запрос был связан с ростом нагрузки на SRE команду, необходимостью сохранить стабильность платформы и выстроить устойчивое взаимодействие между SRE и командами разработки на этапах разработки, тестирования и поставки.
В рамках работы мы исследовали текущее взаимодействие SRE и команд разработки, проанализировали организацию дежурств внутри SRE команды и в командах разработки, оценили фактическую нагрузку на SRE, приоритизацию проектов и операционных задач. Отдельное внимание было уделено управлению инцидентами, накопленному техническому долгу и применению метрик надежности.
По результатам работы были подготовлены рекомендации по следующим направлениям:
Масштабирование дежурств SRE команды за счет улучшения передачи смен, учета пиков нагрузки и введения показателей фактической нагрузки на дежурных, включая количество алертов, инцидентов и задач;
Построение дежурств в командах разработки без введения отдельной роли, с масштабированием уже работающей модели SRE дежурств на продуктовые команды;
Развитие процессов управления инцидентами, обновление и расширение схемы инцидент менеджмента, дополнение чеклистов и постмортемов задачами по обновлению ранбуков;
Формирование и использование бюджета ошибок (Error Budget) как управленческого инструмента для баланса между качеством и скоростью, на основе согласованных SLI, SLO и SLA и общего понимания надежности сервисов со стороны бизнеса и команд разработки;
Запуск регулярных End-to-end тестов в Production окружении для более раннего выявления проблем, снижения количества алертов и повышения наблюдаемости;
Результаты консультации стали основой для масштабирования SRE культуры и практик.
Развитие процессов и практик надежности в FinTech компании
Мы проводили аудит и развивали процессы и практики надежности в крупной FinTech компании (1800 инженеров). Управленческий запрос был связан с ростом масштаба организации, перегрузкой и необходимостью навести порядок в ролях, ответственности и способах взаимодействия команд, влияющих на стабильность и качество сервисов.
В рамках проекта мы применили паттерны из подхода Team Topologies на уровне Reliability трайба. Провели анализ текущей структуры трайба, определили оптимальный состав и типы команд. Разделили направления Reliability Engineering, Release Engineering и Quality Engineering на платформенные и экспертные Enabling команды, что позволило снизить количество зависимостей, уточнить зоны ответственности и уменьшить операционную нагрузку, определить внутренние и внешние способы взаимодействия трайба и команд.
По результатам работы:
Спроектирована целевая структура Reliability трайба и типы команд с учетом подхода Team Topologies, выполнено разделение направлений Reliability Engineering, Release Engineering и Quality Engineering на платформенные и экспертные Enabling команды;
Устранены ключевые зависимости между командами внутри трайба, уточнены зоны ответственности, определены владельцы процессов и согласованы способы взаимодействия между платформенными и экспертными командами;
Подготовлен Engineering playbook с паттернами, процессами и практиками для Reliability трайба и команд;
Разработаны и проведены тренинги по Reliability Engineering на основе подходов Google SRE для тимлидов, техлидов и инженеров;
Проработаны и внедрены практики Monitoring, Alerting, Incident Management, Troubleshooting, On-Call, Postmortems, SLI, SLO, SLA и Error Budget, а также подход к снижению toil как источника операционной перегрузки.
Проект заложил основу для системного развития культуры и практик надежности в компании.
Развитие процессов и практик надежности в EdTech компании
Мы развивали процессы и практики надежности в EdTech компании среднего масштаба (около 250 инженеров). Управленческий запрос был связан с резким ростом нагрузки на платформу, увеличением количества продуктовых команд и необходимостью сохранить стабильность сервисов при кратном росте бизнеса. За короткий период нагрузка на системы выросла в 8 раз, а количество команд — примерно в 2 раза.
В рамках проекта мы провели аудит продуктовых и инфраструктурных команд, проанализировали текущее распределение ответственности, взаимодействие между командами и существующие процессы эксплуатации. В работе применялись паттерны из подхода Team Topologies, что позволило переосмыслить структуру команд и способы их взаимодействия.
По результатам работы:
Поддержан запуск платформенной команды, а также SRE и DevSecOps команд в формате Enabling команд;
Определены границы ответственности и оптимальные способы взаимодействия между продуктовыми, платформенными и экспертными командами;
Оформлены Team API для платформенных и Enabling команд как явное описание ожиданий, обязанностей и точек взаимодействия;
Сформированы и реализованы рекомендации по масштабированию эксплуатации и надежности с учетом роста нагрузки и числа команд;
Развиты и внедрены SRE практики, включая Observability, On-Call, Incident Management, Postmortems и Runbooks.
Проект помог компании пройти этап быстрого роста без потери управляемости, выстроить понятную модель ответственности за надежность и заложить основу для дальнейшего масштабирования инженерной культуры.
Мы работаем с ведущими технологическими компаниями, которые системно внедряют современные практики надежности и развивают команды эксплуатации и сопровождения