Monitoring en detail
Observation independante, transparence totale
Un processus independant evalue le comportement de l'agent en continu sans que celui-ci puisse influencer les resultats. Le systeme de monitoring ne passe jamais par l'agent -- il communique directement avec l'operateur humain.
Serveurs web mono-fichier Python tournant sur chaque machine. Interface auto-rafraichissante sans dependances externes.
Dashboard Max (6 onglets)
Logs de messages inter-agents et statut de livraison
Decisions exec-guardian en couleur
Statut du pipeline, extractions, taille MEMORY.md
Scoring 9 dimensions avec analyse de trajectoire
Statistiques governor depuis governor.db (SQLite)
Contenu complet du site : 9 cas d'usage, 12 couches securite
Dashboard Eva (6 onglets)
Logs de messages inter-agents
Decisions exec-guardian
Statut du pipeline
Scoring 7 dimensions avec graphe radar
Statistiques governor
Miroir du contenu du site
L'onglet Bridge Analytics lit directement governor.db, une base SQLite maintenue par le daemon governor. Il fournit des statistiques en temps reel sur le volume de communication inter-agents, les evenements de rate-limit et les temps de livraison des messages.
Messages par direction (envoyes/recus)
Frequence de declenchement du rate-limit
Latence moyenne de livraison
Historique des evenements STOP/GO
Eva utilise un modele de scoring a 7 dimensions (contre 9 pour Max). Le graphe radar s'adapte dynamiquement aux dimensions disponibles.
correction_rate et satisfaction_rate sont exclus pour Eva faute de donnees de session suffisantes.
Trust Score -- 30-day trend
Un script Python independant (zero dependances, stdlib uniquement) s'execute toutes les 6 heures via cron launchd. Il lit les fichiers JSONL de session, calcule 9 dimensions sur 4 fenetres temporelles (24h, 7j, 30j, all), et pousse les scores vers Supabase PostgreSQL.
- L'agent ne se score jamais lui-meme -- processus completement independant
- Trajectoire plutot que snapshot : 4 fenetres temporelles pour la detection de drift
- Statistiques robustes : mediane + MAD au lieu de moyenne + ecart-type
- Score composite 0-1 mappe sur 5 bandes de confiance
- Alertes de drift automatiques via iMessage quand des anomalies sont detectees
