Nie jesteś zalogowany.
Jeśli nie posiadasz konta, zarejestruj je już teraz! Pozwoli Ci ono w pełni korzystać z naszego serwisu. Spamerom dziękujemy!

Ogłoszenie

Prosimy o pomoc dla małej Julki — przekaż 1% podatku na Fundacji Dzieciom zdazyć z Pomocą.
Więcej informacji na dug.net.pl/pomagamy/.

#1  2014-11-06 10:34:20

  czechu - Członek DUG

czechu
Członek DUG
Skąd: Gorlice
Zarejestrowany: 2004-10-24

Serwerek i jego weekendowe "rejecting I/O to offline device"

Witam, dawno mnie tu nie było....

Piszę bo nie mogę sobie poradzić z jednym serwerem a skończyły mi się już pomysły

Serwerek sobie żyje żyje i nagle po prostu wali błędem

Kod:

rejecting I/O to offline device

i koniec, dopiero po restarcie wraca do normalności....

jak się domyślacie nawet gdy jestem zalogowany gdy następuje pad nie jestem w stanie nic odpalić żeby sprawdzić WTF

Gdy zainstalowałem mu dodatkowy dysk jako Hot-Spare po pierwszym padzie wyniósł się z jednego z dysków na nowy.

Wymieniłem ten "wadliwy" dysk i nadal ma jeden w zapasie ale już nie chce się nigdzie przenosić

W tym momencie pady występują co weekend ( tak złośliwość przedmiotów martwych )

Problematyczny serwerek to:

IBM x3650 (7979)

RAID 5 3x500GB + 1x500 hot-spare

Kontroler:
04:00.0 RAID bus controller: Adaptec AAC-RAID (Rocket) (rev 02)


Kod:

root@beehive:~# arcconf getconfig 1
Controllers found: 1
----------------------------------------------------------------------
Controller information
----------------------------------------------------------------------
   Controller Status                        : Optimal
   Channel description                      : SAS/SATA
   Controller Model                         : IBM ServeRAID 8k    
   Controller Serial Number                 : 4063ECC
   Controller World Wide Name               : 5005076B04063ECC
   Physical Slot                            : 0
   Installed memory                         : 256 MB
   Copyback                                 : Disabled
   Background consistency check             : Enabled
   Background consistency check period      : 30
   Automatic Failover                       : Enabled
   Host bus type                            : unknown
   Host bus speed                           : 0 MHz
   Host bus link width                      : 0 bit(s)/link(s)
   Stayawake period                         : Disabled
   Spinup limit internal drives             : 0
   Spinup limit external drives             : 0
   Defunct disk drive count                 : 0
   Logical devices/Failed/Degraded          : 1/0/0
   --------------------------------------------------------
   Controller Version Information
   --------------------------------------------------------
   BIOS                                     : 5.2-0 (15421)
   Firmware                                 : 5.2-0 (15421)
   Driver                                   : 1.2-0 (30200)
   Boot Flash                               : 5.1-0 (15411)
   --------------------------------------------------------
   Controller Battery Information
   --------------------------------------------------------
   Status                                   : Optimal
   Over temperature                         : No
   Capacity remaining                       : 100 percent
   Time remaining (at current draw)         : 4 days, 20 hours, 7 minutes

----------------------------------------------------------------------
Logical device information
----------------------------------------------------------------------
Logical device number 1
   Logical device name                      : Master
   Block Size of member drives              : Unknown
   RAID level                               : 5
   Unique Identifier                        : 6EB9A46B
   Status of logical device                 : Optimal
   Size                                     : 244118528 MB
   Parity space                             : 0 MB
   Stripe-unit size                         : 256 KB
   Read-cache setting                       : Enabled
   Read-cache status                        : On
   Write-cache setting                      : On when protected by battery/ZMM
   Write-cache status                       : On
   Partitioned                              : Yes
   Protected by Hot-Spare                   : Yes
   Dedicated Hot-Spare                      : 0,3
   Bootable                                 : Yes
   Failed stripes                           : No
   Power settings                           : Disabled
   --------------------------------------------------------
   Logical device segment information
   --------------------------------------------------------
   Segment 0                                : Present (Controller:1,Enclosure:0,Slot:5)       TM85133J19NKVL
   Segment 1                                : Present (Controller:1,Enclosure:0,Slot:6)       TM85133J166TLL
   Segment 2                                : Present (Controller:1,Enclosure:0,Slot:1) S2ZYJ9DF210802


----------------------------------------------------------------------
Physical Device information
----------------------------------------------------------------------
      Device #0
         Device is a Hard drive
         State                              : Online
         Block Size                         : Unknown
         Supported                          : Yes
         Transfer Speed                     : SATA 3.0 Gb/s
         Reported Channel,Device(T:L)       : 0,1(1:0)
         Reported Location                  : Enclosure 0, Slot 1
         Reported ESD(T:L)                  : 2,0(0:0)
         Vendor                             : ST500LM0
         Model                              : 12
         Firmware                           : 
         Serial number                      : S2ZYJ9DF210802
         Reserved Size                      : 10193574 KB
         Used Size                          : 0 MB
         Unused Size                        : 30432232 MB
         Total Size                         : 30442187 MB
         Write Cache                        : Enabled (write-back)
         FRU                                : None
         S.M.A.R.T.                         : No
         S.M.A.R.T. warnings                : 0
         SSD                                : No
         NCQ status                         : Disabled
      Device #1
         Device is a Hard drive
         State                              : Dedicated Hot-Spare
         Block Size                         : Unknown
         Dedicated Spare for                : logical device 1
         Supported                          : Yes
         Transfer Speed                     : SATA 3.0 Gb/s
         Reported Channel,Device(T:L)       : 0,3(3:0)
         Reported Location                  : Enclosure 0, Slot 3
         Reported ESD(T:L)                  : 2,0(0:0)
         Vendor                             : HGST
         Model                              : HTS725050A7E630
         Firmware                           : 
         Serial number                      : TF652AWJ34BLWV
         Reserved Size                      : 1045728 KB
         Used Size                          : 30441162 MB
         Unused Size                        : 3 MB
         Total Size                         : 30442187 MB
         Write Cache                        : Enabled (write-back)
         FRU                                : None
         S.M.A.R.T.                         : No
         S.M.A.R.T. warnings                : 0
         SSD                                : No
         NCQ status                         : Disabled
      Device #2
         Device is a Hard drive
         State                              : Online
         Block Size                         : Unknown
         Supported                          : Yes
         Transfer Speed                     : SATA 3.0 Gb/s
         Reported Channel,Device(T:L)       : 0,5(5:0)
         Reported Location                  : Enclosure 0, Slot 5
         Reported ESD(T:L)                  : 2,0(0:0)
         Vendor                             : HGST
         Model                              : HTS545050A7E380
         Firmware                           : 
         Serial number                      : TM85133J19NKVL
         Reserved Size                      : 10193574 KB
         Used Size                          : 0 MB
         Unused Size                        : 30432232 MB
         Total Size                         : 30442187 MB
         Write Cache                        : Enabled (write-back)
         FRU                                : None
         S.M.A.R.T.                         : No
         S.M.A.R.T. warnings                : 0
         SSD                                : No
         NCQ status                         : Disabled
      Device #3
         Device is a Hard drive
         State                              : Online
         Block Size                         : Unknown
         Supported                          : Yes
         Transfer Speed                     : SATA 3.0 Gb/s
         Reported Channel,Device(T:L)       : 0,6(6:0)
         Reported Location                  : Enclosure 0, Slot 6
         Reported ESD(T:L)                  : 2,0(0:0)
         Vendor                             : HGST
         Model                              : HTS545050A7E380
         Firmware                           : 
         Serial number                      : TM85133J166TLL
         Reserved Size                      : 10193574 KB
         Used Size                          : 0 MB
         Unused Size                        : 30432232 MB
         Total Size                         : 30442187 MB
         Write Cache                        : Enabled (write-back)
         FRU                                : None
         S.M.A.R.T.                         : No
         S.M.A.R.T. warnings                : 0
         SSD                                : No
         NCQ status                         : Disabled
      Device #4
         Device is an Enclosure services device
         Reported Channel,Device(T:L)       : 2,0(0:0)
         Enclosure ID                       : 0
         Expander ID                        : 0
         Enclosure Logical Identifier       : 5005076A041369F0
         Type                               : SES2
         Vendor                             : IBM-ESXS
         Model                              : VSC7160
         Firmware                           : 1.07
         Status of Enclosure services device
            Speaker status                  : Not available
Command completed successfully.

Kod:

root@beehive:~# arcconf GETLOGS 1 DEVICE
Controllers found: 1
<ControllerLog controllerID="0" type="0" time="1415265163" version="1" tableFull="false">
    <driveErrorEntry adapterID="0" channelID="0" deviceID="5" slotNum="5" enclIndex="0" numParityErrors="0" linkFailures="0" hwErrors="0" abortedCmds="9494" mediumErrors="0"/>
    <driveErrorEntry adapterID="0" channelID="0" deviceID="6" slotNum="6" enclIndex="0" numParityErrors="0" linkFailures="0" hwErrors="0" abortedCmds="9493" mediumErrors="0"/>
    <driveErrorEntry adapterID="0" channelID="2" deviceID="0" slotNum="0" enclIndex="0" numParityErrors="0" linkFailures="6" hwErrors="0" abortedCmds="0" mediumErrors="0"/>
    <driveErrorEntry adapterID="0" channelID="0" deviceID="7" slotNum="7" enclIndex="0" numParityErrors="0" linkFailures="107" hwErrors="0" abortedCmds="1" mediumErrors="2"/>
    <driveErrorEntry adapterID="0" channelID="0" deviceID="3" slotNum="3" enclIndex="0" numParityErrors="0" linkFailures="0" hwErrors="0" abortedCmds="1215" mediumErrors="0"/>
</ControllerLog>
Command completed successfully.

Serwerek pracuje pod Ubuntu 14.04 z ~ 20 virtualkami KVM zarządzanych przez Openstacka

Moim ostatnim pomysłem jest weekendowy problem z siecią elektryczną w biurowcu
specjalistą nie jestem ale słabsze obciążenie transformatora może powodować większą wrażliwość na zakłócenia ?

Próbuje nakłonić szefa na jakiegoś UPSa On-line ale niechętnie patrzy na moje próby zgadywania WFT.

Ma ktoś jakiś sposób żeby to sprawdzić co go boli?

Offline

 

#2  2014-11-09 00:33:40

  rychu - elektryk dyżurny

rychu
elektryk dyżurny
Skąd: gdańsk/kalmar
Zarejestrowany: 2004-12-28

Re: Serwerek i jego weekendowe "rejecting I/O to offline device"

czechu napisał(-a):

Moim ostatnim pomysłem jest weekendowy problem z siecią elektryczną w biurowcu
specjalistą nie jestem ale słabsze obciążenie transformatora może powodować większą wrażliwość na zakłócenia ?

raczej przeciwnie - im większe obciążenie sieci, tym więcej zakłóceń

czechu napisał(-a):

Próbuje nakłonić szefa na jakiegoś UPSa On-line ale niechętnie patrzy na moje próby zgadywania WFT.

UPS on-line to trochę przesada, no chyba że firma bogata i stać was na taki gest ;) imo zwykły off-line wystarczy, ważne tylko, żeby był odpowiednio duży i żeby baterie były konserwowane co najmniej raz na pół roku


linux regd. user #248790

Offline

 

#3  2014-12-09 08:46:45

  czechu - Członek DUG

czechu
Członek DUG
Skąd: Gorlice
Zarejestrowany: 2004-10-24

Re: Serwerek i jego weekendowe "rejecting I/O to offline device"

Prawdopodobnie znalazłem rozwiązanie problemu

http://en.wikipedia.org/wiki/Error_recovery_control

W serwerku są zwykłe dysku hitachi.....

Ktoś szukał może tego typu zastępstwa dla SASu ?

Znalazłem info że WDedki z serii RED mają już wsparcie dla tlera ma ktoś jakieś doświadczenia w tej kwestii ??

Offline

 

Stopka forum

Powered by PunBB
© Copyright 2002–2005 Rickard Andersson
To nie jest tylko forum, to nasza mała ojczyzna ;-)