الاستعداد (On-call) لا يتسع بالذكاء، بل بالانضباط المُمِل. بعد عقد من أجهزة الاستدعاء، ثلاث قارات، وحادثة لا تُنسى تتعلق بمهمة cron مُختَلّة في الإسماعيلية، هذه هي القائمة المختصرة التي أسلّمها فعلاً لكل زميل جديد في الدورة. هي على صفحة واحدة عن قصد — إن لم تكن كذلك، فأنت تكتب دليلاً لن يقرأه أحد الساعة 03:00.

القاعدة الأولى: لا أحد يقرأ

الساعة 03:00، أنت لا تقرأ. أنت تُطابِق الأنماط. الكتيبات التي تفترض أنك ستستوعب بهدوء جداراً من النصوص تكتب روايات. الصفحات التي كتبتُها وبقيت لها ثلاثة أشياء: عَرَض من سطر واحد، الأمر الذي ستنفّذه بالضبط، والخطوة التالية التي ستتحقّق منها بالضبط. النسخة التي تحوي فقرات من الشرح تُؤرشَف خلال ستة أشهر لأن لا أحد يفتحها في حادثة فعلية.

إن كان لكتيبك قسم “خلفية”، فذاك القسم موجّه لك-في-المستقبل، لا لك-في-الدورة. ضعه في الأسفل.

القاعدة الثانية: أوّل فعل هو “أخبِر الناس”

قبل أن تلمس شيئاً — قبل أن تُنفّذ التراجع (rollback)، قبل أن تُوسِّع الـpool، قبل أن تُعيد تشغيل عقدة — انشر في قناة الحادثة. سطران فقط: ما الذي تراه وما الذي توشك على فعله. وكفى.

هذه احتكاك، نعم. إنها احتكاك. لكنها أرخص احتكاك ستُدخله يوماً إلى دورتك. تمنع حالات التشخيص الثلاثي حيث يُشغّل الجميع أوامر متناقضة، وقد أُعيد تشغيل قاعدة البيانات مرتين خلال أربع دقائق. اسألني كيف أعرف.

قائمة مُرتَّبة بما ستتحقّق منه أولاً

الترتيب يهمّ. إن لم تكن لوحتك تُظهر هذه الخمسة على بُعد نقرتين أو أقل، فعندك مشكلة ما قبل الحادثة تتجاهلها.

  1. هل نشرنا شيئاً في الساعة الأخيرة؟ 60% من صفحاتك هذا السبب، وأنت تعرف. تراجَع أولاً، ثم شخّص. التشخيص-قبل-التراجع هو كيف تنتهي بانقطاع ثلاث ساعات وخيط Slack مؤدّب جداً حول تغيير مَن كان.
  2. هل قاعدة البيانات بخير؟ المعالج، إشباع pool الاتصالات، تأخّر النسخ المتماثل (replication lag). قاعدة البيانات في الغالب أبطأ شيء في مسار الطلب، وهي الشيء الذي يستغرق أطول وقت للتعافي إن أذيتها.
  3. هل هو منطقة واحدة / AZ / partition فقط؟ إن بدا الشيء معطوباً لكنه فقط معطوب في eu-central-1، فالإصلاح غالباً على طبقة الموازن، لا في شفرتك.
  4. هل تغيّر API خارجي؟ الشركات الخارجية تُنزِل تغييرات كاسرة أيام الأسبوع الساعة 10 صباحاً وتتظاهر بأنها كانت في سجل التغييرات.
  5. هل تغيّر شكل الحركة؟ تكامل أحدهم خرج للهواء وأنت الآن تستقبل 40ضعفاً من الطلبات. تحقّق من توزيع عناوين IP المصدر قبل أن تبدأ بإعادة كتابة خدمة.

إن لم تجد السبب في هذه الخمسة، تَمهَّل. الخطوة التالية دائماً هي “اقرأ السجلات، ببطء، من الحافة إلى الداخل” — لا “خمِّن وأعِد التشغيل”.

البطولات رائحة كريهة

أوّل مرّة خضتُ فيها حادثة 14 ساعة بمفردي وصفّق الجميع، ظننتُ أن هذا هو العمل. في المرّة العاشرة، أدركتُ أنني كنتُ أحمل نظاماً كان يجب أن يُنبّه مزيداً من الناس، أسرع.

علامات أنك تكون بطلاً بدلاً من أن تكون مهندساً:

  • أنت الوحيد الذي يفهم الكتيب.
  • اللوحات التي تستخدمها لا توجد في أي مكان سوى في إشاراتك المرجعية.
  • تعرف الإصلاح بذاكرة العضلات — ولم تكتبه أبداً.
  • قرّرت ألاّ تُصعّد لأن “أسرع لو فعلتُها أنا”.

كل واحدة من هذه بنود ما بعد الحادثة. “وثّق الكتيب”، “انقل اللوحة إلى المجلد المشترك”، “أضف قسماً إلى حقيبة التدريب”. بطولاتك دَيْن تقني. ادفعه قبل أن تصبح دورتك صدمة موروثة لشخص آخر.

الاستدعاء ليس مراجعة أداء

إن أخذتَ شيئاً واحداً من هذه التدوينة: الـpager يُطلَق لأن الأنظمة تفشل. الأنظمة تفشل لأن الهندسة صعبة. أنت لستَ أبطأ، أسوأ، أقل أقدمية لأن الـpager أيقظك. أنت الشخص الذي حضر.

النمط المُضادّ هنا مراجعات ما بعد الحادثة التي تسأل “مَن الذي كان عليه أن يلتقط هذا؟” الجواب دائماً “النظام” — الـCI، الاختبار، التنبيه، الحاجز، مراجعة التصميم التي لم تطرح السؤال الصحيح. سؤال الـ”مَن” مسرح عار، ويجعل الحادثة التالية أصعب لأن الناس ستؤخّر الاستدعاء كي لا تُسمّى.

عادات محدّدة تُبقيني سليماً

هذه هي المُمِلّات التي تتراكم:

  • أحتفظ بسجل pager شخصي. الوقت، الصفحة، ما تحقّقتُ منه أوّلاً، ما السبب الفعلي، ما الذي كنت سأتحقّق منه لو عرفت. خمسة أسطر لكل حادثة. بعد سنة، تظهر أنماط تفوتها عملية ما بعد الحادثة الرسمية.
  • أُسكِت الـpager بتأكيد متعمّد، لا بردّ فعل. إن كان التنبيه خاطئاً، أُصلح التنبيه تلك الليلة. إن أسكتّه ونسيت، سيُنبّهني مجدداً الساعة 04:00 وسأكون أستحقّه.
  • أعتبر “استُدعيت لكن ليست حادثة” عَلّة. التنبيهات الكاذبة مشكلة تشغيلية من الأولوية صفر، لا ضريبة شعبية. إن اعتاد فريقك الاستيقاظ لشيء ليس حدثاً، فدورتك تتفكّك ببطء.
  • أُسلّم التسليم كتابةً. دائماً. “لا شيء للإبلاغ” جملة. “تجاهلتُ صفحة 03:00، غالباً ستُحلّ ذاتياً” تسليم؛ “تصبح على خير” هجر.

قالب الكتيب الذي يُستخدَم فعلاً

## العَرَض
<جملة واحدة، الشيء الذي قاله الـpager>

## الفعل الفوري
<الأمر، أو رابط اللوحة، أو "صعِّد إلى X">

## التحقّق
<كيف تعرف أن الشيء نجح>

## الخطوات التالية إن لم ينجح
<ثلاث نقاط كحد أقصى، مُرتَّبة>

## الخلفية
<كل شيء آخر — السبب، التاريخ، الروابط>

إن لم يتّسع كتيب للأقسام الأربعة العليا على شاشة واحدة، فهو كتيبان يتظاهران بأنهما واحد. اقسمهما.

وأخيراً: النوم

لا يمكنك هندسة طريقك خارج قلّة النوم. إن كانت الدورة تُوقظك أكثر من مرة كل ربع سنة، فهذه مشكلة هندسية — لا مشكلة مرونة شخصية — ومهمتك إصلاحها بجعل النظام أهدأ، لا بأن تصبح أقسى.

أشغّل لوحة تحكّم محلية-أولاً للوكلاء (Fulcrum) جزئياً لأنني تعبتُ من مشاهدة الفِرق تُعيد اختراع نفس عادات الاستجابة للحوادث التي كتبتها قبل عقد. أجهزة الاستدعاء ليست العدو. العدو هو المؤسسة التي تعامل الـpager الصاخب كسِمة شخصية للناس الذين يحملونه.