Services/Organisation/Node Monitoring: Unterschied zwischen den Versionen

Aus FunkFeuer Wiki
Zur Navigation springen Zur Suche springen
 
(10 dazwischenliegende Versionen desselben Benutzers werden nicht angezeigt)
Zeile 4: Zeile 4:
* [http://smokeping.funkfeuer.at/ SmokePing]  für IPv6@olsrv2 unter [http://smokeping.funkfeuer.at/smokeping/olsr2/ smokeping.funkfeuer.at/smokeping/olsr2]
* [http://smokeping.funkfeuer.at/ SmokePing]  für IPv6@olsrv2 unter [http://smokeping.funkfeuer.at/smokeping/olsr2/ smokeping.funkfeuer.at/smokeping/olsr2]
* [[Services/Organisation/Redeemer#Zuletzt-Online|Ermittlung von "Zuletzt Online"]] zur Darstellung in Redeemer und Maps
* [[Services/Organisation/Redeemer#Zuletzt-Online|Ermittlung von "Zuletzt Online"]] zur Darstellung in Redeemer und Maps
* Aktuelle SmokePing-Werte als .dat-File
* Aktuelle Routen zu allen Freenet-Zielen als .dat-File
* (inoffiziell) Topologie-Statistik pro Tag
* (inoffiziell) Erkennung von Topologie-Veränderungen der letzten Tage
* (inoffiziell) Erkennung von Topologie-Veränderungen der letzten Tage
* (inoffiziell) Erkennung von IPv4-Routenänderungen der letzten Tage
* (inoffiziell) Erkennung von IPv4-Routenänderungen der letzten Tage
* UptimeRobot
* (inoffiziell) OLSRd Uptime
* (inoffiziell) OLSRd Versionserkennung
* (extern) UptimeRobot, z.B. https://stats.uptimerobot.com/BPl2ySN2Q


== Maintainer ==
== Maintainer ==
* [[Benutzer:Pocki|Christian Pock]]
* [[Benutzer:Pocki|Christian Pock]]
* Adi Kriegisch
* Adi Kriegisch (Serveradmin)
* Clemens Hopfer
* Clemens Hopfer (Serveradmin)


== Funktionen ==
== Funktionen ==
Zeile 20: Zeile 25:
=== Erkennung Zuletzt-Online ===
=== Erkennung Zuletzt-Online ===
Siehe [[Services/Organisation/Redeemer#Zuletzt-Online Redeemer]]
Siehe [[Services/Organisation/Redeemer#Zuletzt-Online Redeemer]]
=== SmokePing-Werte ===
Täglich um 7:00 werden die SmokePing-Ergebnisse von Freenet und Olsr2 aus den vergangenen 24h als Text-File unter http://smokeping.funkfeuer.at/smokeping/freenet-summary.dat und http://smokeping.funkfeuer.at/smokeping/olsr2-summary.dat bereitgestellt. Diese File enthält pro Nodename/Devicename die Durchschnitte von Ping-Median, Standardabweichung und Paketloss.
=== Aktuelle Routen ===
Auf dem Host smokeping.funkfeuer.at (Standort Housing "Vault") wird täglich um 7:30, 13:30, 19:30 ein TraceRoute zu Freenet-Zielen gemacht und unter http://smokeping.funkfeuer.at/smokeping/traces.dat bereitgestellt. Diese File enthält nur die IP-Adressen und ist nur von einer FunkFeuer-IP-Adresse aus zugänglich.
Die Ziele der Traceroutes werden aus der aktuellen olsr(v1)-Topologie und olsrv2-Topologie ermittelt. Jeder erkannte Hop wird auf die MainIp der jeweiligen olsr-Instanz geändert, sollte die IP eines MID rückgemeldet worden sein. Für einige olsrv2-Router liegt zusätzlich eine manuell gepfegte Liste von "MID-Adressen" vor, um z.B. die Roofnode-Router mit ihren OSPF-Uplinkadressen besser darzustellen.
=== Topologie-Statistik pro Tag ===
(inoffiziell) @rpi3p.wehr24
Holt sich täglich die Topologie von olsr(v1) und olsr2 sowie die SmokePing-Werte, TraceRoute-Files und liefert eine Zusammenfassung:
* https://rpi3p.wehr24.wien.funkfeuer.at/topo/?1
* https://rpi3p.wehr24.wien.funkfeuer.at/topo/?2
* https://rpi3p.wehr24.wien.funkfeuer.at/topo/chart
Die Versionen von olsrd und olsrd2 werden durch ein tägliches Skript versucht von den einzelnen Routern abzurufen.


=== Topologie-Veränderungen ===
=== Topologie-Veränderungen ===
Zeile 49: Zeile 72:


Das Tool [https://ff.cybercomm.at/monitor/tree.php Route-Monitor] prüft jede Minute die Routen von 10 Nodes und vermerkt die jüngsten 200 Änderungen. Die Nodes auf den Routen der 10 Ziel-Nodes werden dabei gleich mitaktualisiert. Es wird angenommen, dass alle IPs eines Nodes die selbe Route zum Border-Gateway haben! Das Tool agiert aus dem Housing beim Knoten 2345falke und betrachtet deshalb die IPv4-Routen auf Sicht der Roofnode-Routers rn01falke.
Das Tool [https://ff.cybercomm.at/monitor/tree.php Route-Monitor] prüft jede Minute die Routen von 10 Nodes und vermerkt die jüngsten 200 Änderungen. Die Nodes auf den Routen der 10 Ziel-Nodes werden dabei gleich mitaktualisiert. Es wird angenommen, dass alle IPs eines Nodes die selbe Route zum Border-Gateway haben! Das Tool agiert aus dem Housing beim Knoten 2345falke und betrachtet deshalb die IPv4-Routen auf Sicht der Roofnode-Routers rn01falke.
=== OLSRd Uptime ===
(inoffiziell) @bmk-smoke-01.2345falke
Fragt das httpinfo-plugin (Port 8080) oder jsoninfo-Plugin (Port 9090) ab, um die Uptime und ggf. einen Restart des olsr-daemons festzustellen. Läuft alle 30min über die laut Topologie erreichbaren Router. Diese Files sind nur von einer FunkFeuer-IP-Adresse aus zugänglich.
* [http://193.238.158.8/lastseen/uptime.dat OLSRd-Uptime]
* [http://193.238.158.8/lastseen/uptime.log OLSRd-Restarts]
=== OLSRd Versionserkennung ===
(inoffiziell) @bmk-smoke-01.2345falke
Fragt die bekannten Status-Seiten der Router ab, um die daemon-version festzustellen. Läuft täglich 7:30 über die laut Topologie erreichbaren Router. Diese Files sind nur von einer FunkFeuer-IP-Adresse aus zugänglich.
* [http://193.238.158.8/lastseen/versions.txt OLSRd-Versionen]

Aktuelle Version vom 27. Mai 2020, 16:28 Uhr

Beschreibung

Node Monitoring umfasst:

Maintainer

  • Christian Pock
  • Adi Kriegisch (Serveradmin)
  • Clemens Hopfer (Serveradmin)

Funktionen

SmokePing

Die Hostliste für Smokeping von Freenet und Olsr2 wird alle 2 Stunden aus dem Redeemer neu erstellt. Enthalten sind alle Geräte, die für SmokePing aktiviert wurden. IP-Adressen, die länger als 1 Jahr nicht mehr erreichbar waren, werden aus der Hostliste automatisch wieder entfernt.

Erkennung Zuletzt-Online

Siehe Services/Organisation/Redeemer#Zuletzt-Online Redeemer

SmokePing-Werte

Täglich um 7:00 werden die SmokePing-Ergebnisse von Freenet und Olsr2 aus den vergangenen 24h als Text-File unter http://smokeping.funkfeuer.at/smokeping/freenet-summary.dat und http://smokeping.funkfeuer.at/smokeping/olsr2-summary.dat bereitgestellt. Diese File enthält pro Nodename/Devicename die Durchschnitte von Ping-Median, Standardabweichung und Paketloss.

Aktuelle Routen

Auf dem Host smokeping.funkfeuer.at (Standort Housing "Vault") wird täglich um 7:30, 13:30, 19:30 ein TraceRoute zu Freenet-Zielen gemacht und unter http://smokeping.funkfeuer.at/smokeping/traces.dat bereitgestellt. Diese File enthält nur die IP-Adressen und ist nur von einer FunkFeuer-IP-Adresse aus zugänglich.

Die Ziele der Traceroutes werden aus der aktuellen olsr(v1)-Topologie und olsrv2-Topologie ermittelt. Jeder erkannte Hop wird auf die MainIp der jeweiligen olsr-Instanz geändert, sollte die IP eines MID rückgemeldet worden sein. Für einige olsrv2-Router liegt zusätzlich eine manuell gepfegte Liste von "MID-Adressen" vor, um z.B. die Roofnode-Router mit ihren OSPF-Uplinkadressen besser darzustellen.

Topologie-Statistik pro Tag

(inoffiziell) @rpi3p.wehr24

Holt sich täglich die Topologie von olsr(v1) und olsr2 sowie die SmokePing-Werte, TraceRoute-Files und liefert eine Zusammenfassung:

Die Versionen von olsrd und olsrd2 werden durch ein tägliches Skript versucht von den einzelnen Routern abzurufen.

Topologie-Veränderungen

(inoffiziell)

Überwacht die Veränderung der OLSR(1)-Topologie, speichert Veränderungen der letzten Tage. Die Anzeige von Informationen ist nur nach einem Login mit einem Redeemer-User verfügbar.

Das Tool OLSRv1-Status holt die Topologie von Roofnode-Routern über das http-plugin. Die Daten werden bis zu 4min zwischengespeichert, um die wiederkehrenden Topologie-Querries zu diesen Routern einzusparen. Erfolgen keine "User-Aufrufe" von OLSRv1-Status oder OLSRv1-Map, so aktualisieren sich die Daten alle 10min.

Alle IPs aus der Topologie werden in Device-Name und Node-Name umgeschlüsselt. Das passiert primär über die Daten aus der BaseMap. Wo nicht möglich (Node für Map deaktiviert?) wird ein DNS-Lookup durchgeführt (ebenfalls gecached). Die Links "Von-Node"-"Zu-Node" und "Nodeintern:VonDevice-ZuDevice" werden alphanumerisch sortiert und Dupletten entfernt.

Die Zusammenfassung zeigt, welche Nodes erkannt wurden, welche fehlen, welche Links instabil sind,... Die "Spezialnodes" werden über deren Links zum Tunnelserver, zu Kryptaroof und zu Nessus erkannt und unterschieden.

Bei jedem Durchlauf werden die aktuellen Links gegen die gespeicherten Links vergleichen - der Match-Key sind dabei die Node/Geräte-Namen. Ändern sich IP-Adressen, spielt das also keine Rolle / Ändern sich Geräte/Node-Namen bei gleichbleibenden IP-Adressen, wird das als Änderung festgehalten.

  • Fehlt aktuell ein Link, der beim vorigen Durchlauf vorhanden war, bekommt diese Link den Status "offline" mit Zeitstempel "offline-since".
  • Ist ein Link vorhanden, welcher in der Logfile mit "offline-since" vermerkt ist, dann wird dieser Link als "wiederhergestellt" eingestuft. Der Zeitstempel "offline-since" wird entfernt und ein Zeitstempel "recovered-at" zugewiesen.
  • Ist ein Link aktuell vorhanden, der in der Logfile fehlt, wird dieser als "neu" eingestuft

Der Zustand des Links (up oder down) wird für die letzten 200 (etwa 1 bis 1.5 Tage) Durchläufe gespeichert.

  • Das Verhältnis "Online-Zustände" zu "Anzahl-Zustände" ergibt den Wert "Online-%". Beispiel 99% bedeutet: von den letzten 200 Proben war der Link 2x down
  • Das Verhältnis "Zustandswechsel" zu "Anzahl-Zustände" ergbit die Swap-Rate. Beispiel 4% bedeutet: während der letzten 200 Proben ging die Verbindung 8x in einen anderen Zustand, also vermutlich 4x down und 4x up.

Links mit einer Swap-Rate >2% werden als "Instable" eingestuft und bekommen den Zeitstempel "Swapping since" zugewiesen. Dieser Zustand wird geprüft, wenn ein Link gerade offline gegangen ist. Instable-Links werden als "Stable" eingestuft, wenn sie mit einem Zeitstempel "swapping since" markiert sind und in diesem Moment die Swap-Rate <2% ist. Diese Prüfung wird vorgenommen, wenn ein Link online kommt oder schon länger online ist, jedoch noch den Zeitstempel "swapping since" trägt.

Die Logfile ist 2-teilig: Topologiezustand (Links, Zeitstempel), Notifications/Eventhistory (begrenzt auf 9.000 Einträge - je zahlreicher die Events, desto kürzer also der Betrachtungszeitraum)

Routen-Veränderungen

(inoffiziell)

Das Tool Route-Monitor prüft jede Minute die Routen von 10 Nodes und vermerkt die jüngsten 200 Änderungen. Die Nodes auf den Routen der 10 Ziel-Nodes werden dabei gleich mitaktualisiert. Es wird angenommen, dass alle IPs eines Nodes die selbe Route zum Border-Gateway haben! Das Tool agiert aus dem Housing beim Knoten 2345falke und betrachtet deshalb die IPv4-Routen auf Sicht der Roofnode-Routers rn01falke.

OLSRd Uptime

(inoffiziell) @bmk-smoke-01.2345falke

Fragt das httpinfo-plugin (Port 8080) oder jsoninfo-Plugin (Port 9090) ab, um die Uptime und ggf. einen Restart des olsr-daemons festzustellen. Läuft alle 30min über die laut Topologie erreichbaren Router. Diese Files sind nur von einer FunkFeuer-IP-Adresse aus zugänglich.

OLSRd Versionserkennung

(inoffiziell) @bmk-smoke-01.2345falke

Fragt die bekannten Status-Seiten der Router ab, um die daemon-version festzustellen. Läuft täglich 7:30 über die laut Topologie erreichbaren Router. Diese Files sind nur von einer FunkFeuer-IP-Adresse aus zugänglich.