Services/Organisation/Node Monitoring: Unterschied zwischen den Versionen

Aus FunkFeuer Wiki
Zur Navigation springen Zur Suche springen
 
Zeile 76: Zeile 76:
(inoffiziell) @bmk-smoke-01.2345falke
(inoffiziell) @bmk-smoke-01.2345falke


Fragt das httpinfo-plugin (Port 8080) oder jsoninfo-Plugin (Port 9090) ab, um die Uptime und ggf. einen Restart des olsr-daemons festzustellen. Läuft alle 30min über die laut Topologie erreichbaren Router.
Fragt das httpinfo-plugin (Port 8080) oder jsoninfo-Plugin (Port 9090) ab, um die Uptime und ggf. einen Restart des olsr-daemons festzustellen. Läuft alle 30min über die laut Topologie erreichbaren Router. Diese Files sind nur von einer FunkFeuer-IP-Adresse aus zugänglich.  


* [http://193.238.158.8/lastseen/uptime.dat OLSRd-Uptime]
* [http://193.238.158.8/lastseen/uptime.dat OLSRd-Uptime]
Zeile 84: Zeile 84:
(inoffiziell) @bmk-smoke-01.2345falke
(inoffiziell) @bmk-smoke-01.2345falke


Fragt die bekannten Status-Seiten der Router ab, um die daemon-version festzustellen. Läuft täglich 7:30 über die laut Topologie erreichbaren Router.
Fragt die bekannten Status-Seiten der Router ab, um die daemon-version festzustellen. Läuft täglich 7:30 über die laut Topologie erreichbaren Router. Diese Files sind nur von einer FunkFeuer-IP-Adresse aus zugänglich.  


* [http://193.238.158.8/lastseen/versions.txt OLSRd-Versionen]
* [http://193.238.158.8/lastseen/versions.txt OLSRd-Versionen]

Aktuelle Version vom 27. Mai 2020, 16:28 Uhr

Beschreibung

Node Monitoring umfasst:

Maintainer

  • Christian Pock
  • Adi Kriegisch (Serveradmin)
  • Clemens Hopfer (Serveradmin)

Funktionen

SmokePing

Die Hostliste für Smokeping von Freenet und Olsr2 wird alle 2 Stunden aus dem Redeemer neu erstellt. Enthalten sind alle Geräte, die für SmokePing aktiviert wurden. IP-Adressen, die länger als 1 Jahr nicht mehr erreichbar waren, werden aus der Hostliste automatisch wieder entfernt.

Erkennung Zuletzt-Online

Siehe Services/Organisation/Redeemer#Zuletzt-Online Redeemer

SmokePing-Werte

Täglich um 7:00 werden die SmokePing-Ergebnisse von Freenet und Olsr2 aus den vergangenen 24h als Text-File unter http://smokeping.funkfeuer.at/smokeping/freenet-summary.dat und http://smokeping.funkfeuer.at/smokeping/olsr2-summary.dat bereitgestellt. Diese File enthält pro Nodename/Devicename die Durchschnitte von Ping-Median, Standardabweichung und Paketloss.

Aktuelle Routen

Auf dem Host smokeping.funkfeuer.at (Standort Housing "Vault") wird täglich um 7:30, 13:30, 19:30 ein TraceRoute zu Freenet-Zielen gemacht und unter http://smokeping.funkfeuer.at/smokeping/traces.dat bereitgestellt. Diese File enthält nur die IP-Adressen und ist nur von einer FunkFeuer-IP-Adresse aus zugänglich.

Die Ziele der Traceroutes werden aus der aktuellen olsr(v1)-Topologie und olsrv2-Topologie ermittelt. Jeder erkannte Hop wird auf die MainIp der jeweiligen olsr-Instanz geändert, sollte die IP eines MID rückgemeldet worden sein. Für einige olsrv2-Router liegt zusätzlich eine manuell gepfegte Liste von "MID-Adressen" vor, um z.B. die Roofnode-Router mit ihren OSPF-Uplinkadressen besser darzustellen.

Topologie-Statistik pro Tag

(inoffiziell) @rpi3p.wehr24

Holt sich täglich die Topologie von olsr(v1) und olsr2 sowie die SmokePing-Werte, TraceRoute-Files und liefert eine Zusammenfassung:

Die Versionen von olsrd und olsrd2 werden durch ein tägliches Skript versucht von den einzelnen Routern abzurufen.

Topologie-Veränderungen

(inoffiziell)

Überwacht die Veränderung der OLSR(1)-Topologie, speichert Veränderungen der letzten Tage. Die Anzeige von Informationen ist nur nach einem Login mit einem Redeemer-User verfügbar.

Das Tool OLSRv1-Status holt die Topologie von Roofnode-Routern über das http-plugin. Die Daten werden bis zu 4min zwischengespeichert, um die wiederkehrenden Topologie-Querries zu diesen Routern einzusparen. Erfolgen keine "User-Aufrufe" von OLSRv1-Status oder OLSRv1-Map, so aktualisieren sich die Daten alle 10min.

Alle IPs aus der Topologie werden in Device-Name und Node-Name umgeschlüsselt. Das passiert primär über die Daten aus der BaseMap. Wo nicht möglich (Node für Map deaktiviert?) wird ein DNS-Lookup durchgeführt (ebenfalls gecached). Die Links "Von-Node"-"Zu-Node" und "Nodeintern:VonDevice-ZuDevice" werden alphanumerisch sortiert und Dupletten entfernt.

Die Zusammenfassung zeigt, welche Nodes erkannt wurden, welche fehlen, welche Links instabil sind,... Die "Spezialnodes" werden über deren Links zum Tunnelserver, zu Kryptaroof und zu Nessus erkannt und unterschieden.

Bei jedem Durchlauf werden die aktuellen Links gegen die gespeicherten Links vergleichen - der Match-Key sind dabei die Node/Geräte-Namen. Ändern sich IP-Adressen, spielt das also keine Rolle / Ändern sich Geräte/Node-Namen bei gleichbleibenden IP-Adressen, wird das als Änderung festgehalten.

  • Fehlt aktuell ein Link, der beim vorigen Durchlauf vorhanden war, bekommt diese Link den Status "offline" mit Zeitstempel "offline-since".
  • Ist ein Link vorhanden, welcher in der Logfile mit "offline-since" vermerkt ist, dann wird dieser Link als "wiederhergestellt" eingestuft. Der Zeitstempel "offline-since" wird entfernt und ein Zeitstempel "recovered-at" zugewiesen.
  • Ist ein Link aktuell vorhanden, der in der Logfile fehlt, wird dieser als "neu" eingestuft

Der Zustand des Links (up oder down) wird für die letzten 200 (etwa 1 bis 1.5 Tage) Durchläufe gespeichert.

  • Das Verhältnis "Online-Zustände" zu "Anzahl-Zustände" ergibt den Wert "Online-%". Beispiel 99% bedeutet: von den letzten 200 Proben war der Link 2x down
  • Das Verhältnis "Zustandswechsel" zu "Anzahl-Zustände" ergbit die Swap-Rate. Beispiel 4% bedeutet: während der letzten 200 Proben ging die Verbindung 8x in einen anderen Zustand, also vermutlich 4x down und 4x up.

Links mit einer Swap-Rate >2% werden als "Instable" eingestuft und bekommen den Zeitstempel "Swapping since" zugewiesen. Dieser Zustand wird geprüft, wenn ein Link gerade offline gegangen ist. Instable-Links werden als "Stable" eingestuft, wenn sie mit einem Zeitstempel "swapping since" markiert sind und in diesem Moment die Swap-Rate <2% ist. Diese Prüfung wird vorgenommen, wenn ein Link online kommt oder schon länger online ist, jedoch noch den Zeitstempel "swapping since" trägt.

Die Logfile ist 2-teilig: Topologiezustand (Links, Zeitstempel), Notifications/Eventhistory (begrenzt auf 9.000 Einträge - je zahlreicher die Events, desto kürzer also der Betrachtungszeitraum)

Routen-Veränderungen

(inoffiziell)

Das Tool Route-Monitor prüft jede Minute die Routen von 10 Nodes und vermerkt die jüngsten 200 Änderungen. Die Nodes auf den Routen der 10 Ziel-Nodes werden dabei gleich mitaktualisiert. Es wird angenommen, dass alle IPs eines Nodes die selbe Route zum Border-Gateway haben! Das Tool agiert aus dem Housing beim Knoten 2345falke und betrachtet deshalb die IPv4-Routen auf Sicht der Roofnode-Routers rn01falke.

OLSRd Uptime

(inoffiziell) @bmk-smoke-01.2345falke

Fragt das httpinfo-plugin (Port 8080) oder jsoninfo-Plugin (Port 9090) ab, um die Uptime und ggf. einen Restart des olsr-daemons festzustellen. Läuft alle 30min über die laut Topologie erreichbaren Router. Diese Files sind nur von einer FunkFeuer-IP-Adresse aus zugänglich.

OLSRd Versionserkennung

(inoffiziell) @bmk-smoke-01.2345falke

Fragt die bekannten Status-Seiten der Router ab, um die daemon-version festzustellen. Läuft täglich 7:30 über die laut Topologie erreichbaren Router. Diese Files sind nur von einer FunkFeuer-IP-Adresse aus zugänglich.