Открыть меню

Пример SJM — деградация цифрового канала

Создано 2 июн. 2026 г. Обновлено 5 июн. 2026 г. 3 мин чтения

Учебная SJM-карта для incident-review деградации цифрового канала: наблюдаемый опыт, recovery, defect/RCA/regression слой и вопросы разбора.

Учебная карта для incident-review: приложение или веб-канал частично работает, но критичный сценарий завершается ошибкой или зависшим статусом.

Назначение и границы

  • Старт: клиент выполняет критичное действие в цифровом канале.
  • Завершение: сервис восстановлен, клиент понимает статус операции и доступный fallback.
  • За рамками: конкретная инфраструктура, если она не подтверждена evidence.

Incident-review

ЭтапНаблюдаемый опыт клиентаЧто проверить внутри сервисаRecoveryМетрикиTooling
1. ДействиеКлиент отправляет запросКанал, интеграции, внешние зависимостиНе создавать дубль при повтореError rate, latencyмониторинг, trace, source of truth
2. ОшибкаКлиент получает ошибку или долгий spinnerКлассификация ошибки, correlation ID, мониторингПонятное сообщение и безопасный retryДоля ошибок, тайм-аутыerror catalog, alert rules
3. ПереходКлиент ищет другой каналПередаётся ли контекст в поддержкуFallback без повторного объясненияДоля переходов, повторные обращенияCRM, система обращений, база знаний
4. ВосстановлениеКлиент проверяет итогСверка фактического статусаУведомление и corrective actionВремя восстановления, reopen rateincident record, change request

Monitoring и change management

Incident-review должен завершаться не только восстановлением, но и обновлением сервисной модели:

  • добавить или уточнить monitoring-signal;
  • обновить error catalog и клиентское сообщение;
  • проверить, нужен ли новый fallback;
  • обновить базу знаний первой линии;
  • добавить regression check для критичного сценария;
  • создать change request, если причина системная;
  • обновить SJM, если фактический путь отличается от ожидаемого.

Defect / RCA / regression слой

СлойЧто делать после деградации
Defect reportописать симптом, ожидаемый результат, фактический результат, условия, trace id, impact и workaround
RCAотделить клиентский симптом от первопричины: канал, интеграция, очередь, данные, retry, мониторинг, требование
Regressionдобавить проверку, которая воспроизводит критичный отказ или защищает исправленную ветку
Automationнастроить synthetic check, alert, SLA timer check или log query там, где ручная проверка запоздает
SJM updateобновить фактический путь клиента, fallback, KB и escalation path

Вопросы для разбора

  • Как отличить неуспешный запрос от запроса с неизвестным результатом?
  • Где находится источник истины по статусу?
  • Не создаёт ли retry дубль операции?
  • Есть ли доступный fallback для клиента?
  • Какие third-party dependencies участвовали в деградации?
  • Требуется ли обновить SJM после инцидента?
  • Есть ли alert, который сработал раньше клиентских обращений?
  • Как поддержка связывает обращение клиента с инцидентом?
  • Нужен ли новый regression test или synthetic monitoring?

Связанные материалы

Живой сад

Этот текст можно улучшать вместе

Нашёл опечатку?

Выдели фрагмент в заметке и нажми «Сообщить» — откроется короткая форма с контекстом.

Хочешь обсудить?

Ниже можно оставить комментарий через Telegram, когда заметка связана с публикацией канала.

Telegram-комментарии

Добавь `telegramPostId` в публичную заметку, чтобы здесь появился виджет обсуждения.

Источник: публичный слой Obsidian Vault.