EP7 — Infrastructure Monitoring & Alerting: ระบบที่มีกราฟสวย แต่ไม่มีใครดู
“ระบบไม่เคยล่มแบบไม่มีสัญญาณเตือน
แต่ล่มเพราะไม่มีใครเห็นสัญญาณนั้น”
🔹 บทนำ: ทุกองค์กรมี Monitoring แต่ทำไมยังล่มบ่อย?
วันนี้แทบทุกองค์กรมี Monitoring
ไม่ว่าจะเป็น Dashboard, Graph, Alert, Log, หรือ Notification
แต่เมื่อเกิดเหตุจริง เช่น
-
Server ล่ม
-
Storage เต็ม
-
Application ช้า
-
Database ค้าง
-
Network packet loss
-
Service ไม่ตอบสนอง
คำถามที่มักตามมาคือ
“ทำไมไม่มีใครรู้ก่อน?”
ทั้งที่ความจริงคือ
ระบบรู้… แต่คนไม่รู้
🔹 ทำไม Monitoring & Alerting ถึงเป็นงาน System Security ที่ถูกลืม?
✔ 1) มีระบบ แต่ไม่มีคนเป็นเจ้าของ
Monitoring ถูกติดตั้งตอนแรก
แต่ไม่มีใครรับผิดชอบดูแลต่อ
-
Alert ส่งไปอีเมลที่ไม่มีคนอ่าน
-
Dashboard เปิดเฉพาะตอนผู้บริหารถาม
-
ไม่มีใครรู้ว่า Alert ไหนสำคัญจริง
✔ 2) Alert เยอะเกินไป จนไม่มีใครสนใจ (Alert Fatigue)
ทุกอย่างแจ้งเตือนหมด
CPU 70% ก็เตือน
Disk ขยับก็เตือน
สุดท้ายคนเรียนรู้ว่า
“ไม่ต้องสนใจ เดี๋ยวก็หาย”
✔ 3) Monitoring ถูกมองว่าเป็นแค่ “เครื่องมือดูสถานะ”
หลายองค์กรใช้ Monitoring แค่ดูว่า
ระบบ “Up หรือ Down”
แต่ไม่ได้ใช้เพื่อ:
-
มองแนวโน้ม (Trend)
-
ป้องกันเหตุล่วงหน้า
-
ตรวจพฤติกรรมผิดปกติ
✔ 4) ไม่มีการเชื่อม Monitoring กับ Incident Response
Alert มาแล้ว → ใครทำอะไรต่อ?
ไม่มี Runbook
ไม่มี Escalation
ไม่มี SLA
สุดท้าย Alert กลายเป็น “เสียงรบกวน”
✔ 5) ผู้บริหารเห็นกราฟ แต่ไม่เห็นความเสี่ยง
Dashboard ดูสวย
แต่ไม่ได้ตอบคำถามว่า
“ถ้าระบบล่มวันนี้ ธุรกิจจะกระทบแค่ไหน?”
🔹 ปัญหาที่พบจริงในองค์กรไทย
❌ ระบบล่มตอนกลางคืน แต่ไม่มีใครรู้
เพราะ Alert ส่งเข้า Email IT กลางคืนที่ไม่มี on-call
❌ Storage เต็มมานาน แต่ไม่มี Threshold ที่ meaningful
เตือนตอน 95% → ช้าเกินไป
❌ Monitoring มี แต่ไม่มี Log
รู้ว่าล่ม แต่ไม่รู้ว่าล่มเพราะอะไร
❌ Monitoring แยกส่วน
Network คนละจอ
Server คนละจอ
App คนละจอ
ไม่มีใครเห็นภาพรวม
🔹 Monitoring ที่ดี ต้องตอบ “คำถามธุรกิจ” ไม่ใช่แค่คำถามเทคนิค
Monitoring ที่มีคุณค่า ต้องตอบได้ว่า:
-
ระบบไหนกระทบธุรกิจมากที่สุด
-
อะไรคือสัญญาณเตือนก่อนล่ม
-
ถ้า Alert นี้เกิด ใครต้องรับผิดชอบ
-
ต้องแก้ภายในกี่นาที
-
เกิดบ่อยแค่ไหน และแนวโน้มเป็นอย่างไร
ถ้าตอบไม่ได้ → Monitoring ยังไม่สมบูรณ์
🔹 องค์ประกอบของ Monitoring & Alerting ที่ใช้งานได้จริง
1) Monitoring Coverage ที่ครบ
-
Infrastructure (CPU, RAM, Disk, Network)
-
Application / Service
-
Database
-
Cloud Resource
-
Security Event (Login, Error, Abuse)
2) Threshold ที่มีความหมาย
-
ไม่ใช่ค่า default
-
ต้องอิงจากพฤติกรรมจริงของระบบ
-
แยกระหว่าง Warning กับ Critical
3) Alert Routing ที่ชัดเจน
-
Alert ไหนส่งให้ใคร
-
กลางวัน / กลางคืน
-
Escalate เมื่อไร
4) Runbook สำหรับ Alert สำคัญ
-
Alert นี้ต้องทำอะไร
-
ตรวจอะไรก่อน
-
ติดต่อใคร
-
แก้ชั่วคราวอย่างไร
5) Dashboard สำหรับ “ผู้บริหาร”
ไม่ใช่กราฟเทคนิค
แต่เป็น:
-
Service health
-
Impact ต่อธุรกิจ
-
Incident trend
-
Risk indicator
🔹 Monitoring ในมุม System Security
Monitoring ไม่ใช่แค่เรื่อง Availability
แต่เป็นด่านสำคัญของ System Security เช่น:
-
Login ผิดปกติ
-
Resource ถูกใช้งานผิดพฤติกรรม
-
Service ถูกโจมตีแบบช้า ๆ
-
Internal misuse
-
Misconfiguration
หลาย Incident ถูกพบได้ “ตั้งแต่ยังไม่เป็นข่าว”
ถ้ามี Monitoring ที่ดีพอ
🔹 วิธีเริ่มต้น Monitoring สำหรับองค์กรที่ยังไม่พร้อม
✔ 1) เลือกระบบที่กระทบธุรกิจมากที่สุดก่อน
ไม่ต้อง monitor ทุกอย่าง
✔ 2) ลด Alert ให้เหลือเฉพาะ Critical
ดีกว่ามีเยอะแล้วไม่มีใครดู
✔ 3) ตั้ง Alert ให้ “ต้องมีคนรับผิดชอบ”
ไม่ใช่แค่แจ้งเตือน
✔ 4) Review Alert รายไตรมาส
อะไรไม่เคยมีค่า → ตัดทิ้ง
🔹 สรุป EP7
Monitoring ไม่ได้ล้มเหลวเพราะเครื่องมือ
แต่ล้มเหลวเพราะ “ไม่มีคนดู และไม่มีคนตัดสินใจ”
“กราฟสวยไม่ได้ช่วยอะไร
ถ้าไม่มีใครมองมันในเวลาที่ควรมอง”
EP7 จึงเป็นอีกหนึ่งบทของ
System Security ที่ถูกลืม
ที่องค์กรต้องกลับมาให้ความสำคัญ หากไม่อยากรู้ปัญหาตอนที่สายเกินไป


