Nie jesteś zalogowany.
Jeśli nie posiadasz konta, zarejestruj je już teraz! Pozwoli Ci ono w pełni korzystać z naszego serwisu. Spamerom dziękujemy!
Prosimy o pomoc dla małej Julki — przekaż 1% podatku na Fundacji Dzieciom zdazyć z Pomocą.
Więcej informacji na dug.net.pl/pomagamy/.
Strony: 1
Witam, dawno mnie tu nie było....
Piszę bo nie mogę sobie poradzić z jednym serwerem a skończyły mi się już pomysły
Serwerek sobie żyje żyje i nagle po prostu wali błędem
rejecting I/O to offline device
i koniec, dopiero po restarcie wraca do normalności....
jak się domyślacie nawet gdy jestem zalogowany gdy następuje pad nie jestem w stanie nic odpalić żeby sprawdzić WTF
Gdy zainstalowałem mu dodatkowy dysk jako Hot-Spare po pierwszym padzie wyniósł się z jednego z dysków na nowy.
Wymieniłem ten "wadliwy" dysk i nadal ma jeden w zapasie ale już nie chce się nigdzie przenosić
W tym momencie pady występują co weekend ( tak złośliwość przedmiotów martwych )
Problematyczny serwerek to:
IBM x3650 (7979)
RAID 5 3x500GB + 1x500 hot-spare
Kontroler:
04:00.0 RAID bus controller: Adaptec AAC-RAID (Rocket) (rev 02)
root@beehive:~# arcconf getconfig 1 Controllers found: 1 ---------------------------------------------------------------------- Controller information ---------------------------------------------------------------------- Controller Status : Optimal Channel description : SAS/SATA Controller Model : IBM ServeRAID 8k Controller Serial Number : 4063ECC Controller World Wide Name : 5005076B04063ECC Physical Slot : 0 Installed memory : 256 MB Copyback : Disabled Background consistency check : Enabled Background consistency check period : 30 Automatic Failover : Enabled Host bus type : unknown Host bus speed : 0 MHz Host bus link width : 0 bit(s)/link(s) Stayawake period : Disabled Spinup limit internal drives : 0 Spinup limit external drives : 0 Defunct disk drive count : 0 Logical devices/Failed/Degraded : 1/0/0 -------------------------------------------------------- Controller Version Information -------------------------------------------------------- BIOS : 5.2-0 (15421) Firmware : 5.2-0 (15421) Driver : 1.2-0 (30200) Boot Flash : 5.1-0 (15411) -------------------------------------------------------- Controller Battery Information -------------------------------------------------------- Status : Optimal Over temperature : No Capacity remaining : 100 percent Time remaining (at current draw) : 4 days, 20 hours, 7 minutes ---------------------------------------------------------------------- Logical device information ---------------------------------------------------------------------- Logical device number 1 Logical device name : Master Block Size of member drives : Unknown RAID level : 5 Unique Identifier : 6EB9A46B Status of logical device : Optimal Size : 244118528 MB Parity space : 0 MB Stripe-unit size : 256 KB Read-cache setting : Enabled Read-cache status : On Write-cache setting : On when protected by battery/ZMM Write-cache status : On Partitioned : Yes Protected by Hot-Spare : Yes Dedicated Hot-Spare : 0,3 Bootable : Yes Failed stripes : No Power settings : Disabled -------------------------------------------------------- Logical device segment information -------------------------------------------------------- Segment 0 : Present (Controller:1,Enclosure:0,Slot:5) TM85133J19NKVL Segment 1 : Present (Controller:1,Enclosure:0,Slot:6) TM85133J166TLL Segment 2 : Present (Controller:1,Enclosure:0,Slot:1) S2ZYJ9DF210802 ---------------------------------------------------------------------- Physical Device information ---------------------------------------------------------------------- Device #0 Device is a Hard drive State : Online Block Size : Unknown Supported : Yes Transfer Speed : SATA 3.0 Gb/s Reported Channel,Device(T:L) : 0,1(1:0) Reported Location : Enclosure 0, Slot 1 Reported ESD(T:L) : 2,0(0:0) Vendor : ST500LM0 Model : 12 Firmware : Serial number : S2ZYJ9DF210802 Reserved Size : 10193574 KB Used Size : 0 MB Unused Size : 30432232 MB Total Size : 30442187 MB Write Cache : Enabled (write-back) FRU : None S.M.A.R.T. : No S.M.A.R.T. warnings : 0 SSD : No NCQ status : Disabled Device #1 Device is a Hard drive State : Dedicated Hot-Spare Block Size : Unknown Dedicated Spare for : logical device 1 Supported : Yes Transfer Speed : SATA 3.0 Gb/s Reported Channel,Device(T:L) : 0,3(3:0) Reported Location : Enclosure 0, Slot 3 Reported ESD(T:L) : 2,0(0:0) Vendor : HGST Model : HTS725050A7E630 Firmware : Serial number : TF652AWJ34BLWV Reserved Size : 1045728 KB Used Size : 30441162 MB Unused Size : 3 MB Total Size : 30442187 MB Write Cache : Enabled (write-back) FRU : None S.M.A.R.T. : No S.M.A.R.T. warnings : 0 SSD : No NCQ status : Disabled Device #2 Device is a Hard drive State : Online Block Size : Unknown Supported : Yes Transfer Speed : SATA 3.0 Gb/s Reported Channel,Device(T:L) : 0,5(5:0) Reported Location : Enclosure 0, Slot 5 Reported ESD(T:L) : 2,0(0:0) Vendor : HGST Model : HTS545050A7E380 Firmware : Serial number : TM85133J19NKVL Reserved Size : 10193574 KB Used Size : 0 MB Unused Size : 30432232 MB Total Size : 30442187 MB Write Cache : Enabled (write-back) FRU : None S.M.A.R.T. : No S.M.A.R.T. warnings : 0 SSD : No NCQ status : Disabled Device #3 Device is a Hard drive State : Online Block Size : Unknown Supported : Yes Transfer Speed : SATA 3.0 Gb/s Reported Channel,Device(T:L) : 0,6(6:0) Reported Location : Enclosure 0, Slot 6 Reported ESD(T:L) : 2,0(0:0) Vendor : HGST Model : HTS545050A7E380 Firmware : Serial number : TM85133J166TLL Reserved Size : 10193574 KB Used Size : 0 MB Unused Size : 30432232 MB Total Size : 30442187 MB Write Cache : Enabled (write-back) FRU : None S.M.A.R.T. : No S.M.A.R.T. warnings : 0 SSD : No NCQ status : Disabled Device #4 Device is an Enclosure services device Reported Channel,Device(T:L) : 2,0(0:0) Enclosure ID : 0 Expander ID : 0 Enclosure Logical Identifier : 5005076A041369F0 Type : SES2 Vendor : IBM-ESXS Model : VSC7160 Firmware : 1.07 Status of Enclosure services device Speaker status : Not available Command completed successfully.
root@beehive:~# arcconf GETLOGS 1 DEVICE Controllers found: 1 <ControllerLog controllerID="0" type="0" time="1415265163" version="1" tableFull="false"> <driveErrorEntry adapterID="0" channelID="0" deviceID="5" slotNum="5" enclIndex="0" numParityErrors="0" linkFailures="0" hwErrors="0" abortedCmds="9494" mediumErrors="0"/> <driveErrorEntry adapterID="0" channelID="0" deviceID="6" slotNum="6" enclIndex="0" numParityErrors="0" linkFailures="0" hwErrors="0" abortedCmds="9493" mediumErrors="0"/> <driveErrorEntry adapterID="0" channelID="2" deviceID="0" slotNum="0" enclIndex="0" numParityErrors="0" linkFailures="6" hwErrors="0" abortedCmds="0" mediumErrors="0"/> <driveErrorEntry adapterID="0" channelID="0" deviceID="7" slotNum="7" enclIndex="0" numParityErrors="0" linkFailures="107" hwErrors="0" abortedCmds="1" mediumErrors="2"/> <driveErrorEntry adapterID="0" channelID="0" deviceID="3" slotNum="3" enclIndex="0" numParityErrors="0" linkFailures="0" hwErrors="0" abortedCmds="1215" mediumErrors="0"/> </ControllerLog> Command completed successfully.
Serwerek pracuje pod Ubuntu 14.04 z ~ 20 virtualkami KVM zarządzanych przez Openstacka
Moim ostatnim pomysłem jest weekendowy problem z siecią elektryczną w biurowcu
specjalistą nie jestem ale słabsze obciążenie transformatora może powodować większą wrażliwość na zakłócenia ?
Próbuje nakłonić szefa na jakiegoś UPSa On-line ale niechętnie patrzy na moje próby zgadywania WFT.
Ma ktoś jakiś sposób żeby to sprawdzić co go boli?
Offline
czechu napisał(-a):
Moim ostatnim pomysłem jest weekendowy problem z siecią elektryczną w biurowcu
specjalistą nie jestem ale słabsze obciążenie transformatora może powodować większą wrażliwość na zakłócenia ?
raczej przeciwnie - im większe obciążenie sieci, tym więcej zakłóceń
czechu napisał(-a):
Próbuje nakłonić szefa na jakiegoś UPSa On-line ale niechętnie patrzy na moje próby zgadywania WFT.
UPS on-line to trochę przesada, no chyba że firma bogata i stać was na taki gest ;) imo zwykły off-line wystarczy, ważne tylko, żeby był odpowiednio duży i żeby baterie były konserwowane co najmniej raz na pół roku
Offline
Prawdopodobnie znalazłem rozwiązanie problemu
http://en.wikipedia.org/wiki/Error_recovery_control
W serwerku są zwykłe dysku hitachi.....
Ktoś szukał może tego typu zastępstwa dla SASu ?
Znalazłem info że WDedki z serii RED mają już wsparcie dla tlera ma ktoś jakieś doświadczenia w tej kwestii ??
Offline
Strony: 1