Servery nms
Obsah |
Obecné informace
NMS je Network monitoring system. Hlavním cílem tohoto serveru je, monitorování dostupnosti a performance veškerého provozu na Strahově.
Cíle
- performance a alarm monitoring serveru a sitovych prvku
Cílem je prozkoumat, zda je dany spravovaný server aktivní, pokud aktivní je, je vše v pořádku, v opačném případě zašle systém e-mail správci, zástupci a technickému manažerovi. Systém dále zašle SMS správci a jeho zástupci o nekativitě PC.
Monitorované platformy
Switche a routre
- Cisco Catalyst 6509
- Cisco 3750
- Cisco 2950
- Cisco 2960
- Cisco Air Ap 1242AG-E-K9
Servery
- HP Proliant 145 G2
- HP Proliant DL380 G5
- Různe x86a x64 servery
- Dell ???
Jina zarizeni
- KVM
- APC Symmetra LX 16kVA
Operacni systemy
- Debian GNU Linux Lenny
- Debian GNU Linux 4.0 Etch
- Debian GNU Linux 3.1 Sarge
- FreeBSD 6.3
- Microsoft Windows Server 2003 Standart x64
- Microsoft Windows Server 2008
Komunikační protokoly vyuzivany k monitoringu
- ICMP (ping)
- SNMP (161/UDP)
- SYSLOG (514/UDP)
- ZABBIX AGENT (10050/TCP)
- ZABBIX TRAP (10051/TCP)
Alarm monitoring
Dostupnost sítovych zarizeni
- Monitorovaní stavu portů u jednotlivých propojů na páteři a blocích pomocí syslog správ nebo SNMP trapů
- Monitorování dostupnosti síťových prvkú pomocí ICMP pingu
- Seznam síťových prvků a monitorovaných interfaců:[xls]
Dostupnost serverů
- Dostupnost serverů se ověřuje pomoci ICMP pingu.
- Seznam monitorovaných serverů: [xls]
Dostupnost služeb
- Monitorování dostupnosti TCP/UDP služeb je zabezpečen pomocí požadavků na daný TCP/UDP port a kontrolou bežíciho procesu
- Seznam ověřovaných služeb: [xls]
Performance monitoring
- Zátež CPU (load)
- Vyuziti pameti
- Mereni teplot
- Chybovost sitovych interfacu
- Stav baterie APC
Traffic monitoring
- Monitoring trafficu in/out jednotlivých switchů
- Monitoruje se pomocí SNMP dotazů jednou za 5 minut
- Monitorují se všechny blokové i patrové routery + centralní
- Software: cacti
- URL: https://nms.siliconhill.cz/cacti/graph_view.php
Severity
- Information
- Warning
- Average
- High
- Disaster
Default triggers
Linux servers
Name Expression Severity /etc/inetd.conf has been changed on server $server {$server:vfs.file.cksum[/etc/inetd.conf].diff(0)}>0 Warning /etc/passwd has been changed on server $server {$server:vfs.file.cksum[/etc/passwd].diff(0)}>0 Average /etc/services has been changed on server $server {$server:vfs.file.cksum[/etc/services].diff(0)}>0 Average /usr/bin/ssh has been changed on server $server {$server:vfs.file.cksum[/usr/bin/ssh].diff(0)}>0 Average /usr/sbin/sshd has been changed on server $server {$server:vfs.file.cksum[/usr/sbin/sshd].diff(0)}>0 Average /vmlinuz has been changed on server $server {$server:vfs.file.cksum[/vmlinuz].diff(0)}>0 Warning Apache is not running on $server {$server:proc.num[httpd].last(0)}<1 Average Configured max number of opened files is too low on $server {$server:kernel.maxfiles.last(0)}<512 Information Configured max number of processes is too low on $server {$server:kernel.maxproc.last(0)}<256 Information Email (SMTP) server is down on $server {$server:net.tcp.service[smtp].last(0)}=0 Average FTP server is down on $server {$server:net.tcp.service[ftp].last(0)}=0 Average Host information was changed on $server {$server:system.uname.diff(0)}>0 Information Hostname was changed on $server {$server:system.hostname.diff(0)}>0 Information IMAP server is down on $server {$server:net.tcp.service[imap].last(0)}=0 Average Inetd is not running on $server {$server:proc.num[inetd].last(0)}<1 Average Lack of free memory on server $server {$server:vm.memory.size[free].last(0)}<10000 Average Lack of free swap space on $server {$server:system.swap.size[,free].last(0)}<100000 High Low free disk space on $server volume / {$server:vfs.fs.size[/,pfree].last(0)}<10 High Low free disk space on $server volume /home {$server:vfs.fs.size[/home,pfree].last(0)}<10 High Low free disk space on $server volume /opt {$server:vfs.fs.size[/opt,pfree].last(0)}<10 High Low free disk space on $server volume /tmp {$server:vfs.fs.size[/tmp,pfree].last(0)}<10 High Low free disk space on $server volume /usr {$server:vfs.fs.size[/usr,pfree].last(0)}<10 High Low free disk space on $server volume /var {$server:vfs.fs.size[/var,pfree].last(0)}<10 High Low number of free inodes on $server volume / {$server:vfs.fs.inode[/,pfree].last(0)}<10 High Low number of free inodes on $server volume /home {$server:vfs.fs.inode[/home,pfree].last(0)}<10 High Low number of free inodes on $server volume /opt {$server:vfs.fs.inode[/opt,pfree].last(0)}<10 High Low number of free inodes on $server volume /tmp {$server:vfs.fs.inode[/tmp,pfree].last(0)}<10 High Low number of free inodes on $server volume /usr {$server:vfs.fs.inode[/usr,pfree].last(0)}<10 High Mysql is not running on $server {$server:proc.num[mysqld].last(0)}<1 Average News (NNTP) server is down on $server {$server:net.tcp.service[nntp].last(0)}=0 Average POP3 server is down on $server {$server:net.tcp.service[pop].last(0)}=0 Average Processor load is too high on $server {$server:system.cpu.load[,avg1].last(0)}>5 Average Server $server is unreachable {$server:status.last(0)}=2 High SSH server is down on $server {$server:net.tcp.service[ssh].last(0)}=0 Average Sshd is not running on $server {$server:proc.num[sshd].last(0)}<1 Average Syslogd is not running on $server {$server:proc.num[syslogd].last(0)}<1 Average Too many processes on $server {$server:proc.num[].last(0)}>300 High Too many processes running on $server {$server:proc.num[,,run].last(0)}>10 Average Too may users connected on server $server {$server:system.users.num.last(0)}>50 Average Version of zabbix_agent(d) was changed on $server {$server:agent.version.diff(0)}>0 Average WEB (HTTP) server is down on $server {$server:net.tcp.service[http].last(0)}=0 Average Zabbix_agentd is not running on $server {$server:proc.num[zabbix_agentd].last(0)}<1 Average Zabbix_server is not running on $server {$server:proc.num[zabbix_server].last(0)}<1 Average $server has just been restarted {$server:system.uptime.last(0)}<600 Information
Windows servers
Name Expression Severity Apache is not running on $server {$server:proc_cnt[httpd].last(0)}<1 Average c:\autoexec.bat has been changed on server $server {$server:vfs.file.cksum[c:\autoexec.bat].diff(0)}>0 Average Host information was changed on $server {$server:system.uname.diff(0)}>0 Average Lack of free memory on server $server {$server:vm.memory.size[free].last(0)}<10000 Average Lack of free swap space on $server {$server:system.swap.size[,free].last(0)}<100000 Average Low free disk space on $server volume c: {$server:vfs.fs.size[c:,free].last(0)}<10000 Average Low free disk space on $server volume d: {$server:vfs.fs.size[d:,free].last(0)}<10000 Average Processor load is too high on $server {$server:system.cpu.load[,avg1].last(0)}>5 Average Server $server is unreachable {$server:status.last(0)}=2 Average Too many processes on $server {$server:proc.num[].last(0)}>300 Average Too many processes running on $server {$server:system[procrunning].last(0)}>10 Average Version of zabbix_agent(d) was changed on $server {$server:agent.version.diff(0)}>0 Information $server has just been restarted {$server:system.uptime.last(0)}<600 Average
Notifikace
Notifikace jsou rozesílane emailem pres smtp server service.sh.cvut.cz na adresu $server@sh.cvut.cz a přes GSM modul formou SMS (zatim neimplementovano).
Format email notifikace
Head>[NMS]: {TRIGGER.NAME}: {ITEM.LASTVALUE} Body>{TRIGGER.NAME}: {ITEM.LASTVALUE} Body>Date: {DATE} - {TIME} Body>Ipaddress: {IPADDRESS} Body>Severity: {TRIGGER.SEVERITY}
Format SMS notifikace
- Maximálně 160 znaků.
Head>[NMS]: {TRIGGER.NAME}: {ITEM.LASTVALUE} Body>{TRIGGER.NAME}: {ITEM.LASTVALUE} Body>Date: {DATE} - {TIME} Body>Ipaddress: {IPADDRESS} Body>Severity: {TRIGGER.SEVERITY}
Informace o serveru nms.sh.cvut.cz
- Operační systém : Debian Linux 6.0 Stable
- Hardware : Dell Power Edge
- Správce : Bangom
- Zabbixadmin : Bangom
Software
- zabbix 1.8.4 - alarm and performance monitoring
- cacti 0.7.8c - monitoring sitoveho provozu na portech cisco routru
- zenoss - syslog analyzer
Hostované služby
- monitoring
- natdet
Administrátorský (root) přístup na server
Bangoura Moris - správce serveru Bangoura Moris - zabbix & cacti admin DOPLNIT - NATdet admin
Zabbix agenta je možné stáhnout na www.zabbix.com. Nebo ho je mozne nainstalovat z balicku dane distribuce. Verze agenta nesmi byt vetsi, nez je verze serveru!
Nastaveni zabbix agenta - LINUX
/etc/zabbix/zabbix_agent.conf
Server=147.32.127.234 Timeout=3
/etc/zabbix/zabbix_agentd.conf
Server=147.32.127.234 ServerPort=10051 Hostname=$hostname_serveru.sh.cvut.cz ListenPort=10050 ListenIP=$ipadresa_serveru StartAgents=5 Timeout=3
Po nastavení těchto parametrů kontaktujte správce serveru NMS. Je nutné dodat také seznam služeb, které na serveru běží z důvodu monitoringu.
Nastaveni zabbix agenta - Windows
Na disky C:\ vytvořte složku "Zabbix" a v ní vytvořte soubor config.txt a adresář "log"
C:\Zabbix\config.txt
Server=147.32.127.234 ServerPort=10051 Hostname=$hostname_serveru.sh.cvut.cz ListenPort=10050 ListenIP=$ipadresa_serveru StartAgents=5 DebugLevel=3 PidFile=C:\Zabbix\log\zabbix_agentd.pid LogFile=C:\Zabbix\log\zabbix_agentd.log Timeout=3
Stáhněte si z internetových stránek zabbix agenta pro windows (verze agenta by neměla být novější, než je aktuálně nainstalovaná verze serverz na http://nms.sh.cvut.cz/zabbix):
http://www.zabbix.com/download.php
Spusťe soubor zabbix_agentd.exe s následujícími parametry:
zabbix_agentd.exe --config C:\Zabbix\config.txt --install
Pro lenochy jsem vytvořil vše ve spustitelném souboru na:
http://shell.sh.cvut.cz/~charlie/zabbix
Stačí pouze rozbalit, zeditovat config.txt (Hostname, ListenIP) a spustit install.bat.
Nastaveni snmpd serveru
/etc/snmp/snmpd.conf
com2sec local localhost shred com2sec local 147.32.127.234 shred group MyROGroup v1 local group MyROGroup v2c local group MyROGroup usm local view all included .1 80 access MyROGroup "" any noauth exact all none none syslocation CS SiliconHill syscontact Jaro Frolo <$server@sh.cvut.cz>
Debian: Nastaveni kontroly aktualizacii
Pouziva sa binarka "check_apt" z nagios-plugins baliku.
# apt-get install nagios-plugins
# vim /etc/crontab
00 * * * * root /usr/bin/apt-get update
# vim /etc/zabbix/zabbix_agentd.conf
UserParameter=apt.status,/usr/lib/nagios/plugins/check_apt -n | awk '{ print substr($2,1,2) }'
# /etc/init.d/zabbix-agent restart
V zabbix webovom rozhrani treba nalinkovat template "Template_App_APT" k vasemu serveru:
- V menu: "configuration"/"hosts" a potom vybrat v pravo hore "Hosts" a "Hostgroup: $server".
- Potom kliknut na server a v ramceku "Linked templates" pridat template "Template_App_APT" a kliknut na "Save"!
Nastaveni cisco routru
Global settings:
logging 147.32.127.234 snmp-server enable traps snmp-server enable authentication snmp-server enable linkdown linkup snmp-server enable coldstart warmstart snmp-server enable traps chassis snmp-server enable traps module snmp-server enable traps ospf state-change snmp-server enable traps ospf errors snmp-server enable traps config-copy snmp-server enable traps config snmp-server enable traps cpu threshold
Interface settings:
logging event link-status snmp trap link-status
Nastaveni serveru Dell a OpenManage
Debian+snmp+dell OMSA
http://john.parnefjord.se/node/39/print
http://blog.brachium-system.net/archives/70-Debian-Dell-OMSA-SNMP.html
Sprovozneni grafu pro network interface traffic
Defaultne je zbieranie dat pre interface zakazany, pretoze kazdy server ma interface pomenovany inak. Potrebujete teda najprv aktivovat prislusny "zberac dat" - item.
- Pokial mate vlasny ucet v zabbixe, prihlaste sa a vojdite do menu "Configuration/Host". Ak ucet nemate, kontaktujte spravcu na nms@sh.cvut.cz aby vam ucet vytvoril.
- V pravo potom zvolte "Items".
- Do kolonky "Host" vyberte kliknutim na select "Host group" v ktorej je vas server a zvolte ho.
- Kliknite na "filter"
- Zaskrtnite riadky, kde je nazov itemu "Interface traffic IN $interface", Interface traffic OUT $interface, zvolte dole v lavo "Activate selected" a potvrdte kliknutim na "Go"
Od tejto chvile sa zacnu nacitavat data o trafficu na prislusnom interfacu. V grafe by sa mali po par minutach objavit data.
TODO
Zabbix:
- Update na novou verzi
- v případě krize zasílání SMS
- shutdown serverů při vypadnutí UPS
- přístup na monitoring pro jednotlivé správce z DUSPSu, včetně autentizace pro jednotlivé servery, které mají na starosti
- e-mailové notifikace na jednotlivé správce i do jednotné konference
Cacti:
- update na novou verzi