Files

Torbjørn Lindahl 7a9b4b751e docker related

2026-01-18 23:29:04 +01:00

6.0 KiB

Raw Blame History

Container Health Monitoring Implementation

Problem Solved

Containers could fail silently, leading to stuck sessions and poor user experience. No active monitoring meant failures went undetected until users reported issues, requiring manual intervention and causing system instability.

Solution Implemented

1. Container Health Monitor (`session-manager/container_health.py`)

Active Monitoring Loop: Continuous 30-second interval health checks for all running containers
Multi-Status Detection: Comprehensive health status determination (healthy, unhealthy, restarting, failed, unknown)
Intelligent Restart Logic: Configurable failure thresholds and automatic restart with limits
Health History Tracking: Maintains rolling history of health checks for trend analysis
Concurrent Processing: Asynchronous health checks for multiple containers simultaneously

2. Health Check Mechanisms

Docker Status Inspection: Checks container running state and basic health
Health Check Integration: Supports Docker health checks when configured
Response Time Monitoring: Tracks health check performance and latency
Error Classification: Detailed error categorization for different failure types
Metadata Collection: Gathers additional context for troubleshooting

3. Automatic Recovery System

Failure Threshold Detection: Requires consecutive failures before restart
Restart Attempt Limiting: Prevents infinite restart loops with configurable limits
Graceful Degradation: Marks sessions as failed when recovery impossible
Session Status Updates: Automatically updates session status based on container health
Security Event Logging: Audit trail for container failures and recoveries

4. FastAPI Integration (`session-manager/main.py`)

Lifecycle Management: Starts/stops monitoring with application lifecycle
Health Endpoints: Dedicated endpoints for health statistics and session-specific data
Dependency Injection: Proper integration with session manager and Docker clients
Configuration Control: Environment-based tuning of monitoring parameters
Error Handling: Graceful handling of monitoring failures

5. Comprehensive Testing Suite

Unit Testing: Individual component validation (status enums, result processing)
Integration Testing: Full monitoring lifecycle and concurrent operations
Failure Scenario Testing: Restart logic and recovery mechanism validation
Performance Testing: Concurrent health check processing and resource usage
History Management: Automatic cleanup and data retention validation

Key Technical Improvements

Health Check Architecture

# Continuous monitoring loop
while self._monitoring:
    await self._perform_health_checks()  # Check all containers
    await self._cleanup_old_history()    # Maintain history
    await asyncio.sleep(self.check_interval)

Intelligent Failure Detection

# Consecutive failure detection
recent_failures = sum(1 for r in recent_results[-threshold:]
                     if r.status in [UNHEALTHY, FAILED, UNKNOWN])

if recent_failures >= threshold:
    await self._restart_container(session_id, container_id)

Status Determination Logic

# Multi-factor health assessment
if docker_status != "running":
    return FAILED
elif health_check_configured and health_status != "healthy":
    return UNHEALTHY
else:
    return HEALTHY

Automatic Recovery Flow

Health Check Failure → Mark as unhealthy
Consecutive Failures → Initiate restart after threshold
Restart Attempts → Limited to prevent loops
Recovery Success → Update session status
Recovery Failure → Mark session as permanently failed

Production Deployment

Configuration Options

# Monitoring intervals
CONTAINER_HEALTH_CHECK_INTERVAL=30
CONTAINER_HEALTH_TIMEOUT=10.0

# Recovery settings
CONTAINER_MAX_RESTART_ATTEMPTS=3
CONTAINER_RESTART_DELAY=5
CONTAINER_FAILURE_THRESHOLD=3

Health Monitoring Integration

Application Health: Container health included in /health endpoint
Session Health: Individual session health via /health/container/{session_id}
Metrics Export: Structured health data for monitoring systems
Alert Integration: Automatic alerts on container failures

Operational Benefits

Proactive Detection: Issues found before user impact
Reduced Downtime: Automatic recovery minimizes service disruption
Operational Efficiency: Less manual intervention required
System Reliability: Prevents accumulation of failed containers
User Experience: Consistent service availability

Validation Results

Health Monitoring ✅

Active Monitoring: Continuous health checks working correctly
Status Detection: Accurate health status determination
History Tracking: Health check history maintained and cleaned
Concurrent Processing: Multiple containers monitored simultaneously

Recovery Mechanisms ✅

Failure Detection: Consecutive failure threshold working
Restart Logic: Automatic restart with proper limits
Session Updates: Session status reflects container health
Error Handling: Graceful handling of restart failures

Integration Testing ✅

FastAPI Lifecycle: Proper start/stop of monitoring
Health Endpoints: Statistics and history accessible via API
Configuration Control: Environment-based parameter tuning
Dependency Injection: Clean integration with existing systems

Performance Validation ✅

Concurrent Checks: 10+ simultaneous health checks without blocking
Resource Efficiency: Minimal CPU/memory overhead
Response Times: Sub-second health check completion
Scalability: Handles growing numbers of containers

The container health monitoring system provides enterprise-grade reliability with proactive failure detection and automatic recovery, eliminating stuck sessions and ensuring consistent service availability for all users. 🎯

6.0 KiB Raw Blame History