Nie jesteś zalogowany.
Jeśli nie posiadasz konta, zarejestruj je już teraz! Pozwoli Ci ono w pełni korzystać z naszego serwisu. Spamerom dziękujemy!
Prosimy o pomoc dla małej Julki — przekaż 1% podatku na Fundacji Dzieciom zdazyć z Pomocą.
Więcej informacji na dug.net.pl/pomagamy/.
Strony: 1

Członek DUG


Witam, dawno mnie tu nie było....
Piszę bo nie mogę sobie poradzić z jednym serwerem a skończyły mi się już pomysły
Serwerek sobie żyje żyje i nagle po prostu wali błędem
rejecting I/O to offline device
i koniec, dopiero po restarcie wraca do normalności....
jak się domyślacie nawet gdy jestem zalogowany gdy następuje pad nie jestem w stanie nic odpalić żeby sprawdzić WTF
Gdy zainstalowałem mu dodatkowy dysk jako Hot-Spare po pierwszym padzie wyniósł się z jednego z dysków na nowy.
Wymieniłem ten "wadliwy" dysk i nadal ma jeden w zapasie ale już nie chce się nigdzie przenosić
W tym momencie pady występują co weekend ( tak złośliwość przedmiotów martwych )
Problematyczny serwerek to:
IBM x3650 (7979)
RAID 5 3x500GB + 1x500 hot-spare
Kontroler:
04:00.0 RAID bus controller: Adaptec AAC-RAID (Rocket) (rev 02)
root@beehive:~# arcconf getconfig 1
Controllers found: 1
----------------------------------------------------------------------
Controller information
----------------------------------------------------------------------
Controller Status : Optimal
Channel description : SAS/SATA
Controller Model : IBM ServeRAID 8k
Controller Serial Number : 4063ECC
Controller World Wide Name : 5005076B04063ECC
Physical Slot : 0
Installed memory : 256 MB
Copyback : Disabled
Background consistency check : Enabled
Background consistency check period : 30
Automatic Failover : Enabled
Host bus type : unknown
Host bus speed : 0 MHz
Host bus link width : 0 bit(s)/link(s)
Stayawake period : Disabled
Spinup limit internal drives : 0
Spinup limit external drives : 0
Defunct disk drive count : 0
Logical devices/Failed/Degraded : 1/0/0
--------------------------------------------------------
Controller Version Information
--------------------------------------------------------
BIOS : 5.2-0 (15421)
Firmware : 5.2-0 (15421)
Driver : 1.2-0 (30200)
Boot Flash : 5.1-0 (15411)
--------------------------------------------------------
Controller Battery Information
--------------------------------------------------------
Status : Optimal
Over temperature : No
Capacity remaining : 100 percent
Time remaining (at current draw) : 4 days, 20 hours, 7 minutes
----------------------------------------------------------------------
Logical device information
----------------------------------------------------------------------
Logical device number 1
Logical device name : Master
Block Size of member drives : Unknown
RAID level : 5
Unique Identifier : 6EB9A46B
Status of logical device : Optimal
Size : 244118528 MB
Parity space : 0 MB
Stripe-unit size : 256 KB
Read-cache setting : Enabled
Read-cache status : On
Write-cache setting : On when protected by battery/ZMM
Write-cache status : On
Partitioned : Yes
Protected by Hot-Spare : Yes
Dedicated Hot-Spare : 0,3
Bootable : Yes
Failed stripes : No
Power settings : Disabled
--------------------------------------------------------
Logical device segment information
--------------------------------------------------------
Segment 0 : Present (Controller:1,Enclosure:0,Slot:5) TM85133J19NKVL
Segment 1 : Present (Controller:1,Enclosure:0,Slot:6) TM85133J166TLL
Segment 2 : Present (Controller:1,Enclosure:0,Slot:1) S2ZYJ9DF210802
----------------------------------------------------------------------
Physical Device information
----------------------------------------------------------------------
Device #0
Device is a Hard drive
State : Online
Block Size : Unknown
Supported : Yes
Transfer Speed : SATA 3.0 Gb/s
Reported Channel,Device(T:L) : 0,1(1:0)
Reported Location : Enclosure 0, Slot 1
Reported ESD(T:L) : 2,0(0:0)
Vendor : ST500LM0
Model : 12
Firmware :
Serial number : S2ZYJ9DF210802
Reserved Size : 10193574 KB
Used Size : 0 MB
Unused Size : 30432232 MB
Total Size : 30442187 MB
Write Cache : Enabled (write-back)
FRU : None
S.M.A.R.T. : No
S.M.A.R.T. warnings : 0
SSD : No
NCQ status : Disabled
Device #1
Device is a Hard drive
State : Dedicated Hot-Spare
Block Size : Unknown
Dedicated Spare for : logical device 1
Supported : Yes
Transfer Speed : SATA 3.0 Gb/s
Reported Channel,Device(T:L) : 0,3(3:0)
Reported Location : Enclosure 0, Slot 3
Reported ESD(T:L) : 2,0(0:0)
Vendor : HGST
Model : HTS725050A7E630
Firmware :
Serial number : TF652AWJ34BLWV
Reserved Size : 1045728 KB
Used Size : 30441162 MB
Unused Size : 3 MB
Total Size : 30442187 MB
Write Cache : Enabled (write-back)
FRU : None
S.M.A.R.T. : No
S.M.A.R.T. warnings : 0
SSD : No
NCQ status : Disabled
Device #2
Device is a Hard drive
State : Online
Block Size : Unknown
Supported : Yes
Transfer Speed : SATA 3.0 Gb/s
Reported Channel,Device(T:L) : 0,5(5:0)
Reported Location : Enclosure 0, Slot 5
Reported ESD(T:L) : 2,0(0:0)
Vendor : HGST
Model : HTS545050A7E380
Firmware :
Serial number : TM85133J19NKVL
Reserved Size : 10193574 KB
Used Size : 0 MB
Unused Size : 30432232 MB
Total Size : 30442187 MB
Write Cache : Enabled (write-back)
FRU : None
S.M.A.R.T. : No
S.M.A.R.T. warnings : 0
SSD : No
NCQ status : Disabled
Device #3
Device is a Hard drive
State : Online
Block Size : Unknown
Supported : Yes
Transfer Speed : SATA 3.0 Gb/s
Reported Channel,Device(T:L) : 0,6(6:0)
Reported Location : Enclosure 0, Slot 6
Reported ESD(T:L) : 2,0(0:0)
Vendor : HGST
Model : HTS545050A7E380
Firmware :
Serial number : TM85133J166TLL
Reserved Size : 10193574 KB
Used Size : 0 MB
Unused Size : 30432232 MB
Total Size : 30442187 MB
Write Cache : Enabled (write-back)
FRU : None
S.M.A.R.T. : No
S.M.A.R.T. warnings : 0
SSD : No
NCQ status : Disabled
Device #4
Device is an Enclosure services device
Reported Channel,Device(T:L) : 2,0(0:0)
Enclosure ID : 0
Expander ID : 0
Enclosure Logical Identifier : 5005076A041369F0
Type : SES2
Vendor : IBM-ESXS
Model : VSC7160
Firmware : 1.07
Status of Enclosure services device
Speaker status : Not available
Command completed successfully.root@beehive:~# arcconf GETLOGS 1 DEVICE
Controllers found: 1
<ControllerLog controllerID="0" type="0" time="1415265163" version="1" tableFull="false">
<driveErrorEntry adapterID="0" channelID="0" deviceID="5" slotNum="5" enclIndex="0" numParityErrors="0" linkFailures="0" hwErrors="0" abortedCmds="9494" mediumErrors="0"/>
<driveErrorEntry adapterID="0" channelID="0" deviceID="6" slotNum="6" enclIndex="0" numParityErrors="0" linkFailures="0" hwErrors="0" abortedCmds="9493" mediumErrors="0"/>
<driveErrorEntry adapterID="0" channelID="2" deviceID="0" slotNum="0" enclIndex="0" numParityErrors="0" linkFailures="6" hwErrors="0" abortedCmds="0" mediumErrors="0"/>
<driveErrorEntry adapterID="0" channelID="0" deviceID="7" slotNum="7" enclIndex="0" numParityErrors="0" linkFailures="107" hwErrors="0" abortedCmds="1" mediumErrors="2"/>
<driveErrorEntry adapterID="0" channelID="0" deviceID="3" slotNum="3" enclIndex="0" numParityErrors="0" linkFailures="0" hwErrors="0" abortedCmds="1215" mediumErrors="0"/>
</ControllerLog>
Command completed successfully.Serwerek pracuje pod Ubuntu 14.04 z ~ 20 virtualkami KVM zarządzanych przez Openstacka
Moim ostatnim pomysłem jest weekendowy problem z siecią elektryczną w biurowcu
specjalistą nie jestem ale słabsze obciążenie transformatora może powodować większą wrażliwość na zakłócenia ?
Próbuje nakłonić szefa na jakiegoś UPSa On-line ale niechętnie patrzy na moje próby zgadywania WFT.
Ma ktoś jakiś sposób żeby to sprawdzić co go boli?
Offline




elektryk dyżurny





czechu napisał(-a):
Moim ostatnim pomysłem jest weekendowy problem z siecią elektryczną w biurowcu
specjalistą nie jestem ale słabsze obciążenie transformatora może powodować większą wrażliwość na zakłócenia ?
raczej przeciwnie - im większe obciążenie sieci, tym więcej zakłóceń
czechu napisał(-a):
Próbuje nakłonić szefa na jakiegoś UPSa On-line ale niechętnie patrzy na moje próby zgadywania WFT.
UPS on-line to trochę przesada, no chyba że firma bogata i stać was na taki gest ;) imo zwykły off-line wystarczy, ważne tylko, żeby był odpowiednio duży i żeby baterie były konserwowane co najmniej raz na pół roku
Offline

Członek DUG


Prawdopodobnie znalazłem rozwiązanie problemu
http://en.wikipedia.org/wiki/Error_recovery_control
W serwerku są zwykłe dysku hitachi.....
Ktoś szukał może tego typu zastępstwa dla SASu ?
Znalazłem info że WDedki z serii RED mają już wsparcie dla tlera ma ktoś jakieś doświadczenia w tej kwestii ??
Offline
Strony: 1