EP7 — Infrastructure Monitoring & Alerting: ระบบที่มีกราฟสวย แต่ไม่มีใครดู

“ระบบไม่เคยล่มแบบไม่มีสัญญาณเตือน
แต่ล่มเพราะไม่มีใครเห็นสัญญาณนั้น”

🔹 บทนำ: ทุกองค์กรมี Monitoring แต่ทำไมยังล่มบ่อย?

วันนี้แทบทุกองค์กรมี Monitoring
ไม่ว่าจะเป็น Dashboard, Graph, Alert, Log, หรือ Notification

แต่เมื่อเกิดเหตุจริง เช่น

Server ล่ม
Storage เต็ม
Application ช้า
Database ค้าง
Network packet loss
Service ไม่ตอบสนอง

คำถามที่มักตามมาคือ
“ทำไมไม่มีใครรู้ก่อน?”

ทั้งที่ความจริงคือ

ระบบรู้… แต่คนไม่รู้

🔹 ทำไม Monitoring & Alerting ถึงเป็นงาน System Security ที่ถูกลืม?

✔ 1) มีระบบ แต่ไม่มีคนเป็นเจ้าของ

Monitoring ถูกติดตั้งตอนแรก
แต่ไม่มีใครรับผิดชอบดูแลต่อ

Alert ส่งไปอีเมลที่ไม่มีคนอ่าน
Dashboard เปิดเฉพาะตอนผู้บริหารถาม
ไม่มีใครรู้ว่า Alert ไหนสำคัญจริง

✔ 2) Alert เยอะเกินไป จนไม่มีใครสนใจ (Alert Fatigue)

ทุกอย่างแจ้งเตือนหมด
CPU 70% ก็เตือน
Disk ขยับก็เตือน

สุดท้ายคนเรียนรู้ว่า
“ไม่ต้องสนใจ เดี๋ยวก็หาย”

✔ 3) Monitoring ถูกมองว่าเป็นแค่ “เครื่องมือดูสถานะ”

หลายองค์กรใช้ Monitoring แค่ดูว่า
ระบบ “Up หรือ Down”

แต่ไม่ได้ใช้เพื่อ:

มองแนวโน้ม (Trend)
ป้องกันเหตุล่วงหน้า
ตรวจพฤติกรรมผิดปกติ

✔ 4) ไม่มีการเชื่อม Monitoring กับ Incident Response

Alert มาแล้ว → ใครทำอะไรต่อ?
ไม่มี Runbook
ไม่มี Escalation
ไม่มี SLA

สุดท้าย Alert กลายเป็น “เสียงรบกวน”

✔ 5) ผู้บริหารเห็นกราฟ แต่ไม่เห็นความเสี่ยง

Dashboard ดูสวย
แต่ไม่ได้ตอบคำถามว่า
“ถ้าระบบล่มวันนี้ ธุรกิจจะกระทบแค่ไหน?”

🔹 ปัญหาที่พบจริงในองค์กรไทย

❌ ระบบล่มตอนกลางคืน แต่ไม่มีใครรู้

เพราะ Alert ส่งเข้า Email IT กลางคืนที่ไม่มี on-call

❌ Storage เต็มมานาน แต่ไม่มี Threshold ที่ meaningful

เตือนตอน 95% → ช้าเกินไป

❌ Monitoring มี แต่ไม่มี Log

รู้ว่าล่ม แต่ไม่รู้ว่าล่มเพราะอะไร

❌ Monitoring แยกส่วน

Network คนละจอ
Server คนละจอ
App คนละจอ
ไม่มีใครเห็นภาพรวม

🔹 Monitoring ที่ดี ต้องตอบ “คำถามธุรกิจ” ไม่ใช่แค่คำถามเทคนิค

Monitoring ที่มีคุณค่า ต้องตอบได้ว่า:

ระบบไหนกระทบธุรกิจมากที่สุด
อะไรคือสัญญาณเตือนก่อนล่ม
ถ้า Alert นี้เกิด ใครต้องรับผิดชอบ
ต้องแก้ภายในกี่นาที
เกิดบ่อยแค่ไหน และแนวโน้มเป็นอย่างไร

ถ้าตอบไม่ได้ → Monitoring ยังไม่สมบูรณ์

🔹 องค์ประกอบของ Monitoring & Alerting ที่ใช้งานได้จริง

1) Monitoring Coverage ที่ครบ

Infrastructure (CPU, RAM, Disk, Network)
Application / Service
Database
Cloud Resource
Security Event (Login, Error, Abuse)

2) Threshold ที่มีความหมาย

ไม่ใช่ค่า default
ต้องอิงจากพฤติกรรมจริงของระบบ
แยกระหว่าง Warning กับ Critical

3) Alert Routing ที่ชัดเจน

Alert ไหนส่งให้ใคร
กลางวัน / กลางคืน
Escalate เมื่อไร

4) Runbook สำหรับ Alert สำคัญ

Alert นี้ต้องทำอะไร
ตรวจอะไรก่อน
ติดต่อใคร
แก้ชั่วคราวอย่างไร

5) Dashboard สำหรับ “ผู้บริหาร”

ไม่ใช่กราฟเทคนิค
แต่เป็น:

Service health
Impact ต่อธุรกิจ
Incident trend
Risk indicator

🔹 Monitoring ในมุม System Security

Monitoring ไม่ใช่แค่เรื่อง Availability
แต่เป็นด่านสำคัญของ System Security เช่น:

Login ผิดปกติ
Resource ถูกใช้งานผิดพฤติกรรม
Service ถูกโจมตีแบบช้า ๆ
Internal misuse
Misconfiguration

หลาย Incident ถูกพบได้ “ตั้งแต่ยังไม่เป็นข่าว”
ถ้ามี Monitoring ที่ดีพอ

🔹 วิธีเริ่มต้น Monitoring สำหรับองค์กรที่ยังไม่พร้อม

✔ 1) เลือกระบบที่กระทบธุรกิจมากที่สุดก่อน

ไม่ต้อง monitor ทุกอย่าง

✔ 2) ลด Alert ให้เหลือเฉพาะ Critical

ดีกว่ามีเยอะแล้วไม่มีใครดู

✔ 3) ตั้ง Alert ให้ “ต้องมีคนรับผิดชอบ”

ไม่ใช่แค่แจ้งเตือน

✔ 4) Review Alert รายไตรมาส

อะไรไม่เคยมีค่า → ตัดทิ้ง

🔹 สรุป EP7

Monitoring ไม่ได้ล้มเหลวเพราะเครื่องมือ
แต่ล้มเหลวเพราะ “ไม่มีคนดู และไม่มีคนตัดสินใจ”

“กราฟสวยไม่ได้ช่วยอะไร
ถ้าไม่มีใครมองมันในเวลาที่ควรมอง”

EP7 จึงเป็นอีกหนึ่งบทของ
System Security ที่ถูกลืม
ที่องค์กรต้องกลับมาให้ความสำคัญ หากไม่อยากรู้ปัญหาตอนที่สายเกินไป