piątek, 15 sierpnia 2008

Walka ze sprzętem - sun xfire 2200 i karty ethernetowe nvidia



Nasze ostatnie problemy z serwerami (które wymusiły na nas wyjazd do serwerowni w Warszawskim ATM) były związane z usterką kart sieciowych opartych na chipisetach nvidi. Przy zwiększonym ruchu po interfejsie sieciowym wynikłym np. przez zwiększonym ruchu pomiędzy mysql-em a apachem interfejs przestawał odbierać i wysyłać dane, a po pewnym czasie nawet zawieszał system i powodował kernel panic. Obsługa techniczna atm twierdziła oczywiście że jesteśmy pierwszymi klientami którzy raportuja takie problemy z sun xfire 2200 i linuxem (może ze względu że chyba nikt nie miał połączonych ze sobą bezpośrednio 3 serwerów bez switch-a). Problem powtarzał się ze zmienionym kernelem i nowym modułem forcedeth.
W logach przy generowaniu dużego ruchu sieciowego (przez nc lub spc) pojawiał się wpis: "eth0: too many iterations (6) in nv_nic_irq."
Rozwiązaniem problemu okazało się załadowanie modułu forcedeth z opcją max_interrupt_work=25


localhost:/# modprobe forcedeth max_interrupt_work=25

w opisach znalezionych w internecie ta liczba była mniejsza, lecz metodą prób i błędów doszliśmy to 25. Nie wiem jednak czy rozwiązanie to wystarczy na długo i czy sytuacja nie powtórzy się. Najlepszym wyjściem będzie zainstalowanie switcha i użycie pozostałego interfejsu sieciowego opartego na chipisecie broadcom-u - co niebawem uczynimy.

Brak komentarzy: