Page 1 sur 1

kernel panic

Publié : sam. 28 avr. 2007 23:54
par Tadeus

onjour,
Voila, ça fait quelsques semaines que je traine un probleme qui commence a vraiment m' agacer...

J' ai un Bi P3 que j' utilise comme serveur de fichier avec 3 cartes reseaux, une carte lsi logic 8 ports sata et une floppée de hdd en deux grappes raid 5 raccordées en Lvm pour faire un volume logique...

Jusque la, tt va bien... mais il se trouve que quand je fais des transferts de fichiers en écritures ou parfois "sans raison", le systeme me sort un "kernel panic" avec comme message d' erreur:

[ 1669.664139] printing eip:
[ 1669.664198] f8473b50
[ 1669.664201] *pde = 00000000
[ 1669.664266] Oops: 0000 [#1]
[ 1669.664323] SMP
[ 1669.664384] Modules linked in: reiserfs parport_pc lp parport sworks_agp i2c_piix4 agpgart pcspkr serio_raw psmouse i2c_core shpchp pci_hotplug ipv6 tsdev evdev ext3 jbd mbcache generic ata_generic sg sd_mod pata_serverworks libata ohci_hcd tg3 r8169 mptsas mptscsih mptbase scsi_transport_sas scsi_mod usbcore e100 mii raid456 md_mod xor dm_mod fbcon tileblit font bitblit softcursor vesafbcapability commoncap
[ 1669.664949] CPU: 1
[ 1669.664951] EIP: 0060:[] Not tainted VLI
[ 1669.664954] EFLAGS: 00010202 (2.6.20-15-server #2)
[ 1669.665151] EIP is at 0xf8473b50
[ 1669.665213] eax: e4ec48d0 ebx: cf79cd40 ecx: e4ec48d0 edx: 00000001
[ 1669.665296] esi: 00001000 edi: c0199bf0 ebp: 00000000 esp: f7f8dd70
[ 1669.665377] ds: 007b es: 007b ss: 0068
[ 1669.665444] Process md1_raid5 (pid: 2518, ti=f7f8c000 task=dff32030 task.ti=f7f8c000)
[ 1669.665527] Stack: c0199c13 cf79cd40 c019b94a 583da418 00000000 df8ecc04 df8ecbf8 0000027c
[ 1669.665677] dfad62c0 00000001 efe152c0 f88504b2 f7821920 00000001 0000001f 00000000
[ 1669.665828] cf79c1a0 00000000 eb790df8 f88506a2 dfcc5000 dfcc7000 f88730c0 dfad62c0
[ 1669.665980] Call Trace:
[ 1669.666080] [] end_bio_bh_io_sync+0x23/0x40
[ 1669.666175] [] bio_endio+0x4a/0x90
[ 1669.666254] [] dec_pending+0xd2/0x1a0 [dm_mod]
[ 1669.666371] [] clone_endio+0x72/0xd0 [dm_mod]
[ 1669.666463] [] handle_stripe+0x1dbe/0x2cf0 [raid456]
[ 1669.666562] [] scsi_io_completion+0xa6/0x3e0 [scsi_mod]
[ 1669.666724] [] sd_rw_intr+0x75/0x2e0 [sd_mod]
[ 1669.666816] [] __next_cpu+0x12/0x30
[ 1669.666892] [] find_busiest_group+0x12e/0x580
[ 1669.666986] [] __switch_to+0xc6/0x1f0
[ 1669.667064] [] __sched_text_start+0x2fb/0xa80
[ 1669.667159] [] __generic_unplug_device+0x14/0x30
[ 1669.667245] [] release_stripe+0x2f/0x50 [raid456]
[ 1669.667329] [] raid5d+0x372/0x420 [raid456]
[ 1669.667416] [] do_IRQ+0x45/0x80
[ 1669.667498] [] md_thread+0x0/0x110 [md_mod]
[ 1669.667622] [] md_thread+0x0/0x110 [md_mod]
[ 1669.667713] [] schedule_timeout+0x75/0xc0
[ 1669.667799] [] md_thread+0x0/0x110 [md_mod]
[ 1669.667895] [] md_thread+0x0/0x110 [md_mod]
[ 1669.667987] [] md_thread+0x30/0x110 [md_mod]
[ 1669.668083] [] autoremove_wake_function+0x0/0x50
[ 1669.668194] [] md_thread+0x0/0x110 [md_mod]
[ 1669.668285] [] kthread+0xba/0xf0
[ 1669.668364] [] kthread+0x0/0xf0
[ 1669.668443] [] kernel_thread_helper+0x7/0x14
[ 1669.668531] =======================
[ 1669.668601] Code: Bad EIP value.
[ 1669.668675] EIP: [] 0xf8473b50 SS:ESP 0068:f7f8dd70
[ 1669.669039]


Si quelqu' un à la moindre idée de comment arreter ce bordel... je suis preneur, je commence à avoir épuisé pas mal de possibilité...

(noyau 2.6.20 avec le smp d' activé (sans le smp, ça bugge plus... mais pas de smp... :'( )

kernel panic

Publié : dim. 29 avr. 2007 22:42
par Ryu_wm
alors je dis tout de suite que je n'ai pas la solution

quand on regarde ce que tu fournis au dessus ça à tout l'air d'un debug concernant le raid
y'aurait il moyen de forcer la gestion raid sur un seul CPU ?

kernel panic

Publié : dim. 29 avr. 2007 23:10
par Tadeus
hélas non... ou du moins, je ne vois pas comment (si vous voyez comment faire, je suis preneur...)
Hélas j' ai également d' autres soucis de bug de kernel:

[47601.169767] BUG: unable to handle kernel paging request at virtual addres s 00400000
[48531.440320] printing eip:
[48531.440380] c0189316
[48531.440436] *pde = 00000000
[48531.440499] Oops: 0000 [#2]
[48531.440556] SMP
[48531.440614] Modules linked in: parport_pc lp parport i2c_piix4 sworks_agp shp chp pci_hotplug i2c_core agpgart serio_raw pcspkr psmouse ipv6 evdev tsdev ext3 jbd mbcache sg sd_mod generic ata_generic ohci_hcd e100 mii usbcore pata_serverw orks libata mptsas mptscsih mptbase scsi_transport_sas scsi_mod tg3 r8169 raid45 6 md_mod xor dm_mod fbcon tileblit font bitblit softcursor vesafb capability com moncap
[48531.441177] CPU: 0
[48531.441179] EIP: 0060:[] Not tainted VLI
[48531.441183] EFLAGS: 00010206 (2.6.20-15-server #2)
[48531.441385] EIP is at __d_lookup+0x66/0x110
[48531.441452] eax: 00400000 ebx: e5c40f20 ecx: 00000011 edx: 088bff59
[48531.441534] esi: cd639f1c edi: c18e563c ebp: 00400000 esp: cd639ebc
[48531.441616] ds: 007b es: 007b ss: 0068
[48531.441686] Process make (pid: 27062, ti=cd638000 task=dfca7580 task.ti=cd638 000)
[48531.441770] Stack: c18e563c 088bff59 00000002 cd639f1c ffffffff 00000005 cd63 9f0f 0000317c
[48531.441922] cd639f1c c18e563c 00000000 c01893db cf5a5560 cf5a5560 0000 0000 c01aca4c
[48531.442074] cd639f0f 0000000d c03705fd 000069ba 32639f24 36363037 cf5a 5500 00000000
[48531.442228] Call Trace:
[48531.442338] [] d_lookup+0x1b/0x40
[48531.442412] [] proc_flush_task+0x4c/0x1f0
[48531.442498] [] release_task+0x1d8/0x2c0
[48531.442582] [] do_wait+0x55d/0xb20
[48531.442660] [] mntput_no_expire+0x24/0xa0
[48531.442738] [] default_wake_function+0x0/0x10
[48531.442819] [] sys_wait4+0x31/0x40
[48531.442893] [] sysenter_past_esp+0x69/0x9d
[48531.442982] =======================
[48531.443045] Code: 81 f2 01 00 37 9e d3 ea 31 d0 8b 15 3c 72 3d c0 23 05 34 72 3d c0 8b 2c 82 85 ed 75 0e eb 45 8d b6 00 00 00 00 85 c0 89 c5 74 39 45 00 0f 18 00 90 8d 5d f0 8b 54 24 04 3b 53 1c 75 e7 8b 34
[48531.443429] EIP: [] __d_lookup+0x66/0x110 SS:ESP 0068:cd639ebc


Ta piste Ryu_wm me semble intéressante mais je ne vois pas comment la mener à bien...

kernel panic

Publié : dim. 29 avr. 2007 23:37
par Ryu_wm
hélas je ne suis pas un expert linux,
il va bien en passser un ici je n'en doute pas ...
l'idée serait d'isoler le pilote raid sur un seul cpu

maintenant, n'y aurait t'il pas un pilote plus recent/adapté à ton matériel disponible chez le constructeur du materiel ou dans la communauté de ton linux ?


il me reste une question : pourquoi relier les deux grappes raid5 en un seul volume logique via LVM ? cela n'est il pas possible uniquement au niveau hard ?

kernel panic

Publié : lun. 30 avr. 2007 10:29
par ZEPsikopat
Non, lvm permet de répartir les volumes comme tu veux

Par contre c'est vrai que ton kernel panic est bizarre, on dirait qu'il se gauffre au moment de chercher la mémoire allouée aux PCI.

T'as testé ta ram à tout hasard ? En smp elle est généralement plus malmenée et peut amener à des erreurs

sinon je penche pour un driver md buggué, tu devrais tester avec un 2.6.19

kernel panic

Publié : mer. 2 mai 2007 09:29
par Tadeus
bon alors, merci pour vos réponses... J' ai relancé le serveur avec 2*256 Mo de ram seulement... et oh miracle, pas de plantage depuis le dernier message, soit environ 36 heures...

Pourtant j' avais laissé memtest tourné pendant 24 heure d' affilé sans résultat négatif... alors bon...

J' ai essayé de torturé la bestiole au maximum, écriture de gros/petit fichiers, reconstruction du raid 5 suite à la perte d' un disque... il ne veut plus planter... (tant mieux... :p )

donc bon, je vais peut etre essayer de trouver un peu plu de ram mais au pire, 2*256 Mo peut etre suffisant pour un serveur de fichier je pense...

Merci à vous encore pour vos réponses rapide...

kernel panic

Publié : mer. 2 mai 2007 10:14
par ZEPsikopat
De rien :p

Par contre si ça se trouve ta ram est OK, mais ton contrôleur mémoire a un coup dans l'aile, alors essaye de vérifier avant pour ne pas acheter pour rien

m'est déjà arrivé d'avoir un chipset avec les dimm1 et dimm4 ok, mais dimm2 et dimm3 hs