Servery nms
(→Nastaveni zabbix agenta) |
|||
| (Není zobrazeno 6 mezilehlých verzí od 3 uživatelů.) | |||
| Řádka 1: | Řádka 1: | ||
| + | {{neaktualni}} | ||
| + | |||
= Obecné informace = | = Obecné informace = | ||
NMS je Network monitoring system. Hlavním cílem tohoto serveru je, monitorování dostupnosti a performance veškerého provozu na Strahově. | NMS je Network monitoring system. Hlavním cílem tohoto serveru je, monitorování dostupnosti a performance veškerého provozu na Strahově. | ||
| Řádka 170: | Řádka 172: | ||
= Informace o serveru nms.sh.cvut.cz = | = Informace o serveru nms.sh.cvut.cz = | ||
| − | * Operační systém : Debian Linux Stable | + | * Operační systém : Debian Linux 6.0 Stable |
* Hardware : Dell Power Edge | * Hardware : Dell Power Edge | ||
| − | * Správce : [mailto: | + | * Správce : [mailto:bangom@sh.cvut.cz Bangom] |
| − | * Zabbixadmin : [mailto: | + | * Zabbixadmin : [mailto:bangom@sh.cvut.cz Bangom] |
== Software == | == Software == | ||
| − | * zabbix 1.8. | + | * zabbix 1.8.4 - alarm and performance monitoring |
* cacti 0.7.8c - monitoring sitoveho provozu na portech cisco routru | * cacti 0.7.8c - monitoring sitoveho provozu na portech cisco routru | ||
* zenoss - syslog analyzer | * zenoss - syslog analyzer | ||
| Řádka 187: | Řádka 189: | ||
== Administrátorský (root) přístup na server == | == Administrátorský (root) přístup na server == | ||
| − | [[ | + | [[Bangoura Moris]] - správce serveru |
| − | [[ | + | [[Bangoura Moris]] - zabbix & cacti admin |
| − | + | DOPLNIT - NATdet admin | |
[[category:servery]] | [[category:servery]] | ||
| Řádka 196: | Řádka 198: | ||
Zabbix agenta je možné stáhnout na [http://www.zabbix.com/download.php www.zabbix.com]. Nebo ho je mozne nainstalovat z balicku dane distribuce. Verze agenta nesmi byt vetsi, nez je verze serveru! | Zabbix agenta je možné stáhnout na [http://www.zabbix.com/download.php www.zabbix.com]. Nebo ho je mozne nainstalovat z balicku dane distribuce. Verze agenta nesmi byt vetsi, nez je verze serveru! | ||
| − | == Nastaveni zabbix agenta == | + | == Nastaveni zabbix agenta - LINUX == |
/etc/zabbix/zabbix_agent.conf | /etc/zabbix/zabbix_agent.conf | ||
| Řádka 206: | Řádka 208: | ||
/etc/zabbix/zabbix_agentd.conf | /etc/zabbix/zabbix_agentd.conf | ||
| − | + | ||
| − | Server=147.32.127.234 | + | Server=147.32.127.234 |
| − | ServerPort=10051 | + | ServerPort=10051 |
| − | Hostname=$hostname_serveru.sh.cvut.cz | + | Hostname=$hostname_serveru.sh.cvut.cz |
| − | ListenPort=10050 | + | ListenPort=10050 |
| − | ListenIP=$ipadresa_serveru | + | ListenIP=$ipadresa_serveru |
| − | StartAgents=5 | + | StartAgents=5 |
| − | Timeout=3 | + | Timeout=3 |
| − | + | ||
Po nastavení těchto parametrů kontaktujte správce serveru NMS. Je nutné dodat také seznam služeb, které na serveru běží z důvodu monitoringu. | Po nastavení těchto parametrů kontaktujte správce serveru NMS. Je nutné dodat také seznam služeb, které na serveru běží z důvodu monitoringu. | ||
| + | |||
| + | == Nastaveni zabbix agenta - Windows == | ||
| + | Na disky C:\ vytvořte složku "Zabbix" a v ní vytvořte soubor config.txt a adresář "log" | ||
| + | |||
| + | C:\Zabbix\config.txt | ||
| + | |||
| + | |||
| + | Server=147.32.127.234 | ||
| + | ServerPort=10051 | ||
| + | Hostname=$hostname_serveru.sh.cvut.cz | ||
| + | ListenPort=10050 | ||
| + | ListenIP=$ipadresa_serveru | ||
| + | StartAgents=5 | ||
| + | DebugLevel=3 | ||
| + | PidFile=C:\Zabbix\log\zabbix_agentd.pid | ||
| + | LogFile=C:\Zabbix\log\zabbix_agentd.log | ||
| + | Timeout=3 | ||
| + | |||
| + | |||
| + | Stáhněte si z internetových stránek zabbix agenta pro windows (verze agenta by neměla být novější, než je aktuálně nainstalovaná verze serverz na http://nms.sh.cvut.cz/zabbix): | ||
| + | http://www.zabbix.com/download.php | ||
| + | |||
| + | Spusťe soubor zabbix_agentd.exe s následujícími parametry: | ||
| + | zabbix_agentd.exe --config C:\Zabbix\config.txt --install | ||
| + | |||
| + | Pro lenochy jsem vytvořil vše ve spustitelném souboru na: | ||
| + | http://shell.sh.cvut.cz/~charlie/zabbix | ||
| + | Stačí pouze rozbalit, zeditovat config.txt (Hostname, ListenIP) a spustit install.bat. | ||
== Nastaveni snmpd serveru == | == Nastaveni snmpd serveru == | ||
| Řádka 297: | Řádka 327: | ||
Od tejto chvile sa zacnu nacitavat data o trafficu na prislusnom interfacu. V grafe by sa mali po par minutach objavit data. | Od tejto chvile sa zacnu nacitavat data o trafficu na prislusnom interfacu. V grafe by sa mali po par minutach objavit data. | ||
| + | |||
| + | = TODO = | ||
| + | Zabbix: | ||
| + | * Update na novou verzi | ||
| + | * v případě krize zasílání SMS | ||
| + | * shutdown serverů při vypadnutí UPS | ||
| + | * přístup na monitoring pro jednotlivé správce z DUSPSu, včetně autentizace pro jednotlivé servery, které mají na starosti | ||
| + | * e-mailové notifikace na jednotlivé správce i do jednotné konference | ||
| + | |||
| + | Cacti: | ||
| + | * update na novou verzi | ||
Aktuální verze z 26. 10. 2015, 17:16
Obsah |
[editovat] Obecné informace
NMS je Network monitoring system. Hlavním cílem tohoto serveru je, monitorování dostupnosti a performance veškerého provozu na Strahově.
[editovat] Cíle
- performance a alarm monitoring serveru a sitovych prvku
Cílem je prozkoumat, zda je dany spravovaný server aktivní, pokud aktivní je, je vše v pořádku, v opačném případě zašle systém e-mail správci, zástupci a technickému manažerovi. Systém dále zašle SMS správci a jeho zástupci o nekativitě PC.
[editovat] Monitorované platformy
[editovat] Switche a routre
- Cisco Catalyst 6509
- Cisco 3750
- Cisco 2950
- Cisco 2960
- Cisco Air Ap 1242AG-E-K9
[editovat] Servery
- HP Proliant 145 G2
- HP Proliant DL380 G5
- Různe x86a x64 servery
- Dell ???
[editovat] Jina zarizeni
- KVM
- APC Symmetra LX 16kVA
[editovat] Operacni systemy
- Debian GNU Linux Lenny
- Debian GNU Linux 4.0 Etch
- Debian GNU Linux 3.1 Sarge
- FreeBSD 6.3
- Microsoft Windows Server 2003 Standart x64
- Microsoft Windows Server 2008
[editovat] Komunikační protokoly vyuzivany k monitoringu
- ICMP (ping)
- SNMP (161/UDP)
- SYSLOG (514/UDP)
- ZABBIX AGENT (10050/TCP)
- ZABBIX TRAP (10051/TCP)
[editovat] Alarm monitoring
[editovat] Dostupnost sítovych zarizeni
- Monitorovaní stavu portů u jednotlivých propojů na páteři a blocích pomocí syslog správ nebo SNMP trapů
- Monitorování dostupnosti síťových prvkú pomocí ICMP pingu
- Seznam síťových prvků a monitorovaných interfaců:[xls]
[editovat] Dostupnost serverů
- Dostupnost serverů se ověřuje pomoci ICMP pingu.
- Seznam monitorovaných serverů: [xls]
[editovat] Dostupnost služeb
- Monitorování dostupnosti TCP/UDP služeb je zabezpečen pomocí požadavků na daný TCP/UDP port a kontrolou bežíciho procesu
- Seznam ověřovaných služeb: [xls]
[editovat] Performance monitoring
- Zátež CPU (load)
- Vyuziti pameti
- Mereni teplot
- Chybovost sitovych interfacu
- Stav baterie APC
[editovat] Traffic monitoring
- Monitoring trafficu in/out jednotlivých switchů
- Monitoruje se pomocí SNMP dotazů jednou za 5 minut
- Monitorují se všechny blokové i patrové routery + centralní
- Software: cacti
- URL: https://nms.siliconhill.cz/cacti/graph_view.php
[editovat] Severity
- Information
- Warning
- Average
- High
- Disaster
[editovat] Default triggers
[editovat] Linux servers
Name Expression Severity
/etc/inetd.conf has been changed on server $server {$server:vfs.file.cksum[/etc/inetd.conf].diff(0)}>0 Warning
/etc/passwd has been changed on server $server {$server:vfs.file.cksum[/etc/passwd].diff(0)}>0 Average
/etc/services has been changed on server $server {$server:vfs.file.cksum[/etc/services].diff(0)}>0 Average
/usr/bin/ssh has been changed on server $server {$server:vfs.file.cksum[/usr/bin/ssh].diff(0)}>0 Average
/usr/sbin/sshd has been changed on server $server {$server:vfs.file.cksum[/usr/sbin/sshd].diff(0)}>0 Average
/vmlinuz has been changed on server $server {$server:vfs.file.cksum[/vmlinuz].diff(0)}>0 Warning
Apache is not running on $server {$server:proc.num[httpd].last(0)}<1 Average
Configured max number of opened files is too low on $server {$server:kernel.maxfiles.last(0)}<512 Information
Configured max number of processes is too low on $server {$server:kernel.maxproc.last(0)}<256 Information
Email (SMTP) server is down on $server {$server:net.tcp.service[smtp].last(0)}=0 Average
FTP server is down on $server {$server:net.tcp.service[ftp].last(0)}=0 Average
Host information was changed on $server {$server:system.uname.diff(0)}>0 Information
Hostname was changed on $server {$server:system.hostname.diff(0)}>0 Information
IMAP server is down on $server {$server:net.tcp.service[imap].last(0)}=0 Average
Inetd is not running on $server {$server:proc.num[inetd].last(0)}<1 Average
Lack of free memory on server $server {$server:vm.memory.size[free].last(0)}<10000 Average
Lack of free swap space on $server {$server:system.swap.size[,free].last(0)}<100000 High
Low free disk space on $server volume / {$server:vfs.fs.size[/,pfree].last(0)}<10 High
Low free disk space on $server volume /home {$server:vfs.fs.size[/home,pfree].last(0)}<10 High
Low free disk space on $server volume /opt {$server:vfs.fs.size[/opt,pfree].last(0)}<10 High
Low free disk space on $server volume /tmp {$server:vfs.fs.size[/tmp,pfree].last(0)}<10 High
Low free disk space on $server volume /usr {$server:vfs.fs.size[/usr,pfree].last(0)}<10 High
Low free disk space on $server volume /var {$server:vfs.fs.size[/var,pfree].last(0)}<10 High
Low number of free inodes on $server volume / {$server:vfs.fs.inode[/,pfree].last(0)}<10 High
Low number of free inodes on $server volume /home {$server:vfs.fs.inode[/home,pfree].last(0)}<10 High
Low number of free inodes on $server volume /opt {$server:vfs.fs.inode[/opt,pfree].last(0)}<10 High
Low number of free inodes on $server volume /tmp {$server:vfs.fs.inode[/tmp,pfree].last(0)}<10 High
Low number of free inodes on $server volume /usr {$server:vfs.fs.inode[/usr,pfree].last(0)}<10 High
Mysql is not running on $server {$server:proc.num[mysqld].last(0)}<1 Average
News (NNTP) server is down on $server {$server:net.tcp.service[nntp].last(0)}=0 Average
POP3 server is down on $server {$server:net.tcp.service[pop].last(0)}=0 Average
Processor load is too high on $server {$server:system.cpu.load[,avg1].last(0)}>5 Average
Server $server is unreachable {$server:status.last(0)}=2 High
SSH server is down on $server {$server:net.tcp.service[ssh].last(0)}=0 Average
Sshd is not running on $server {$server:proc.num[sshd].last(0)}<1 Average
Syslogd is not running on $server {$server:proc.num[syslogd].last(0)}<1 Average
Too many processes on $server {$server:proc.num[].last(0)}>300 High
Too many processes running on $server {$server:proc.num[,,run].last(0)}>10 Average
Too may users connected on server $server {$server:system.users.num.last(0)}>50 Average
Version of zabbix_agent(d) was changed on $server {$server:agent.version.diff(0)}>0 Average
WEB (HTTP) server is down on $server {$server:net.tcp.service[http].last(0)}=0 Average
Zabbix_agentd is not running on $server {$server:proc.num[zabbix_agentd].last(0)}<1 Average
Zabbix_server is not running on $server {$server:proc.num[zabbix_server].last(0)}<1 Average
$server has just been restarted {$server:system.uptime.last(0)}<600 Information
[editovat] Windows servers
Name Expression Severity
Apache is not running on $server {$server:proc_cnt[httpd].last(0)}<1 Average
c:\autoexec.bat has been changed on server $server {$server:vfs.file.cksum[c:\autoexec.bat].diff(0)}>0 Average
Host information was changed on $server {$server:system.uname.diff(0)}>0 Average
Lack of free memory on server $server {$server:vm.memory.size[free].last(0)}<10000 Average
Lack of free swap space on $server {$server:system.swap.size[,free].last(0)}<100000 Average
Low free disk space on $server volume c: {$server:vfs.fs.size[c:,free].last(0)}<10000 Average
Low free disk space on $server volume d: {$server:vfs.fs.size[d:,free].last(0)}<10000 Average
Processor load is too high on $server {$server:system.cpu.load[,avg1].last(0)}>5 Average
Server $server is unreachable {$server:status.last(0)}=2 Average
Too many processes on $server {$server:proc.num[].last(0)}>300 Average
Too many processes running on $server {$server:system[procrunning].last(0)}>10 Average
Version of zabbix_agent(d) was changed on $server {$server:agent.version.diff(0)}>0 Information
$server has just been restarted {$server:system.uptime.last(0)}<600 Average
[editovat] Notifikace
Notifikace jsou rozesílane emailem pres smtp server service.sh.cvut.cz na adresu $server@sh.cvut.cz a přes GSM modul formou SMS (zatim neimplementovano).
[editovat] Format email notifikace
Head>[NMS]: {TRIGGER.NAME}: {ITEM.LASTVALUE}
Body>{TRIGGER.NAME}: {ITEM.LASTVALUE}
Body>Date: {DATE} - {TIME}
Body>Ipaddress: {IPADDRESS}
Body>Severity: {TRIGGER.SEVERITY}
[editovat] Format SMS notifikace
- Maximálně 160 znaků.
Head>[NMS]: {TRIGGER.NAME}: {ITEM.LASTVALUE}
Body>{TRIGGER.NAME}: {ITEM.LASTVALUE}
Body>Date: {DATE} - {TIME}
Body>Ipaddress: {IPADDRESS}
Body>Severity: {TRIGGER.SEVERITY}
[editovat] Informace o serveru nms.sh.cvut.cz
- Operační systém : Debian Linux 6.0 Stable
- Hardware : Dell Power Edge
- Správce : Bangom
- Zabbixadmin : Bangom
[editovat] Software
- zabbix 1.8.4 - alarm and performance monitoring
- cacti 0.7.8c - monitoring sitoveho provozu na portech cisco routru
- zenoss - syslog analyzer
[editovat] Hostované služby
- monitoring
- natdet
[editovat] Administrátorský (root) přístup na server
Bangoura Moris - správce serveru Bangoura Moris - zabbix & cacti admin DOPLNIT - NATdet admin
[editovat]
Zabbix agenta je možné stáhnout na www.zabbix.com. Nebo ho je mozne nainstalovat z balicku dane distribuce. Verze agenta nesmi byt vetsi, nez je verze serveru!
[editovat] Nastaveni zabbix agenta - LINUX
/etc/zabbix/zabbix_agent.conf
Server=147.32.127.234 Timeout=3
/etc/zabbix/zabbix_agentd.conf
Server=147.32.127.234 ServerPort=10051 Hostname=$hostname_serveru.sh.cvut.cz ListenPort=10050 ListenIP=$ipadresa_serveru StartAgents=5 Timeout=3
Po nastavení těchto parametrů kontaktujte správce serveru NMS. Je nutné dodat také seznam služeb, které na serveru běží z důvodu monitoringu.
[editovat] Nastaveni zabbix agenta - Windows
Na disky C:\ vytvořte složku "Zabbix" a v ní vytvořte soubor config.txt a adresář "log"
C:\Zabbix\config.txt
Server=147.32.127.234 ServerPort=10051 Hostname=$hostname_serveru.sh.cvut.cz ListenPort=10050 ListenIP=$ipadresa_serveru StartAgents=5 DebugLevel=3 PidFile=C:\Zabbix\log\zabbix_agentd.pid LogFile=C:\Zabbix\log\zabbix_agentd.log Timeout=3
Stáhněte si z internetových stránek zabbix agenta pro windows (verze agenta by neměla být novější, než je aktuálně nainstalovaná verze serverz na http://nms.sh.cvut.cz/zabbix):
http://www.zabbix.com/download.php
Spusťe soubor zabbix_agentd.exe s následujícími parametry:
zabbix_agentd.exe --config C:\Zabbix\config.txt --install
Pro lenochy jsem vytvořil vše ve spustitelném souboru na:
http://shell.sh.cvut.cz/~charlie/zabbix
Stačí pouze rozbalit, zeditovat config.txt (Hostname, ListenIP) a spustit install.bat.
[editovat] Nastaveni snmpd serveru
/etc/snmp/snmpd.conf
com2sec local localhost shred com2sec local 147.32.127.234 shred group MyROGroup v1 local group MyROGroup v2c local group MyROGroup usm local view all included .1 80 access MyROGroup "" any noauth exact all none none syslocation CS SiliconHill syscontact Jaro Frolo <$server@sh.cvut.cz>
[editovat] Debian: Nastaveni kontroly aktualizacii
Pouziva sa binarka "check_apt" z nagios-plugins baliku.
# apt-get install nagios-plugins
# vim /etc/crontab
00 * * * * root /usr/bin/apt-get update
# vim /etc/zabbix/zabbix_agentd.conf
UserParameter=apt.status,/usr/lib/nagios/plugins/check_apt -n | awk '{ print substr($2,1,2) }'
# /etc/init.d/zabbix-agent restart
V zabbix webovom rozhrani treba nalinkovat template "Template_App_APT" k vasemu serveru:
- V menu: "configuration"/"hosts" a potom vybrat v pravo hore "Hosts" a "Hostgroup: $server".
- Potom kliknut na server a v ramceku "Linked templates" pridat template "Template_App_APT" a kliknut na "Save"!
[editovat] Nastaveni cisco routru
Global settings:
logging 147.32.127.234 snmp-server enable traps snmp-server enable authentication snmp-server enable linkdown linkup snmp-server enable coldstart warmstart snmp-server enable traps chassis snmp-server enable traps module snmp-server enable traps ospf state-change snmp-server enable traps ospf errors snmp-server enable traps config-copy snmp-server enable traps config snmp-server enable traps cpu threshold
Interface settings:
logging event link-status snmp trap link-status
[editovat] Nastaveni serveru Dell a OpenManage
Debian+snmp+dell OMSA
http://john.parnefjord.se/node/39/print
http://blog.brachium-system.net/archives/70-Debian-Dell-OMSA-SNMP.html
[editovat] Sprovozneni grafu pro network interface traffic
Defaultne je zbieranie dat pre interface zakazany, pretoze kazdy server ma interface pomenovany inak. Potrebujete teda najprv aktivovat prislusny "zberac dat" - item.
- Pokial mate vlasny ucet v zabbixe, prihlaste sa a vojdite do menu "Configuration/Host". Ak ucet nemate, kontaktujte spravcu na nms@sh.cvut.cz aby vam ucet vytvoril.
- V pravo potom zvolte "Items".
- Do kolonky "Host" vyberte kliknutim na select "Host group" v ktorej je vas server a zvolte ho.
- Kliknite na "filter"
- Zaskrtnite riadky, kde je nazov itemu "Interface traffic IN $interface", Interface traffic OUT $interface, zvolte dole v lavo "Activate selected" a potvrdte kliknutim na "Go"
Od tejto chvile sa zacnu nacitavat data o trafficu na prislusnom interfacu. V grafe by sa mali po par minutach objavit data.
[editovat] TODO
Zabbix:
- Update na novou verzi
- v případě krize zasílání SMS
- shutdown serverů při vypadnutí UPS
- přístup na monitoring pro jednotlivé správce z DUSPSu, včetně autentizace pro jednotlivé servery, které mají na starosti
- e-mailové notifikace na jednotlivé správce i do jednotné konference
Cacti:
- update na novou verzi
