잔소리와 관련된 몇 가지 버그 보고서와 질문 (스택 교환 및 기타 장소)을 보았습니다 "BUG: soft lockup - CPU#<n> stuck for <dt>s!"
. 지금까지 나는 무엇을해야할지 또는 시도해야 할 것에 대한 단서를 찾지 못했습니다. 다음과 같은 이유로 더 걱정됩니다.
- 이러한 사건의 빈도는 최근 (월 700 이상) 최근에 천천히 증가한 것으로 보입니다.
yum update
재부팅하면 잠시 동안 속도가 느려지지만 잠금이 다시 발생하는 것을 보았습니다.- 여러 프로세스 (전체 호스트가 아닌 경우 말하기 어렵습니다), 모든 대화 형 셸을 포함하여 확실히 발생하는 경우 일정 시간 동안 동결됩니다.
- 그것이 관련되어 있는지 확실하지 않지만 ntpd와 관련된 많은 로그 / 메시지가 시계를 업데이트 할 수 없다는 것을 알았습니다.
다음은 발췌 한 내용입니다 $(grep 'soft lockup' /var/log/messages*)
.
Mar 22 10:02:35 localhost kernel: BUG: soft lockup - CPU#15 stuck for 10s! [kjournald:1048]
Mar 22 10:02:36 localhost kernel: BUG: soft lockup - CPU#0 stuck for 10s! [postgres:5372]
Mar 22 10:02:36 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [postgres:5368]
Mar 22 10:02:37 localhost kernel: BUG: soft lockup - CPU#0 stuck for 10s! [postgres:5372]
Mar 22 10:02:37 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [postgres:5368]
Mar 22 10:02:38 localhost kernel: BUG: soft lockup - CPU#0 stuck for 10s! [postgres:5372]
Mar 22 10:02:38 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [postgres:5368]
Mar 22 10:02:39 localhost kernel: BUG: soft lockup - CPU#0 stuck for 10s! [postgres:5372]
Mar 22 10:02:39 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [postgres:5368]
Mar 22 10:02:40 localhost kernel: BUG: soft lockup - CPU#15 stuck for 25s! [swapper:0]
Mar 22 15:42:16 localhost kernel: BUG: soft lockup - CPU#8 stuck for 25s! [kjournald:1048]
Mar 22 18:22:13 localhost kernel: BUG: soft lockup - CPU#15 stuck for 10s! [postgres:21356]
Mar 22 18:22:20 localhost kernel: BUG: soft lockup - CPU#7 stuck for 10s! [java:8653]
Mar 22 18:22:20 localhost kernel: BUG: soft lockup - CPU#8 stuck for 72s! [kjournald:1048]
Mar 22 21:21:37 localhost kernel: BUG: soft lockup - CPU#12 stuck for 29s! [kjournald:1048]
Mar 22 21:22:07 localhost kernel: BUG: soft lockup - CPU#12 stuck for 27s! [kjournald:1048]
Mar 23 02:01:47 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [kblockd/8:276]
Mar 23 02:02:22 localhost kernel: BUG: soft lockup - CPU#8 stuck for 34s! [kblockd/8:276]
이것은 임의의 프로세스에서 발생하며 해당 가상 호스트의 16 개 “코어”에 상당히 잘 분산되어있는 것 같습니다.
호스트는 “EC2 CentOS 5.5 GPU HVM AMI (드라이버 260.19.29) (ami-42a2532b)”라는 AMI를 가진 AWS EC2 “cc1.4xlarge”인스턴스입니다. Xen으로 가상화 된 것 같습니다.
cat /etc/redhat-release
수율 CentOS release 5.9 (Final)
. 'free'
RAM의 21G를보고합니다.
의 머리 dmesg
는 :
Linux version 2.6.18-348.3.1.el5 (mockbuild@builder10.centos.org) (gcc version 4.1.2 20080704 (Red Hat 4.1.2-54)) #1 SMP Mon Mar 11 19:39:25 EDT 2013
Command line: ro root=/dev/VolGroup00/LogVol00 rhgb quiet console=tty0 console=ttyS0,115200n8
BIOS-provided physical RAM map:
BIOS-e820: 0000000000010000 - 000000000009fc00 (usable)
BIOS-e820: 000000000009fc00 - 00000000000a0000 (reserved)
BIOS-e820: 00000000000e0000 - 0000000000100000 (reserved)
BIOS-e820: 0000000000100000 - 00000000c0000000 (usable)
BIOS-e820: 00000000fc000000 - 0000000100000000 (reserved)
BIOS-e820: 0000000100000000 - 00000005dd800000 (usable)
DMI 2.4 present.
DMI: Xen HVM domU, BIOS 3.4.3-2.6.18 08/29/2012
ACPI: RSDP (v002 Xen ) @ 0x00000000000ea020
ACPI: XSDT (v001 Xen HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc0062b0
ACPI: FADT (v004 Xen HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc005ee0
ACPI: MADT (v002 Xen HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc005fe0
ACPI: SRAT (v001 Xen HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc0060c0
ACPI: SLIT (v001 Xen HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc006240
ACPI: HPET (v001 Xen HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc006270
ACPI: DSDT (v002 Xen HVM 0x00000000 INTL 0x20090220) @ 0x(null)
다음 쇼 최근 시간이 지남에 따라 이러한 “소프트 잠금 ‘의 누적 카운트 (나는 마지막 한 때 레드 라인은 yum update
다음을 reboot
)
.
다음은 기간의 히스토그램을 보여줍니다 (호스트가 얼마나 오래 멈췄는지)
.
답변
또한 3.6 및 3.8 커널 (AlpineLinux)이있는 Xen 4.2 에서이 문제가 있습니다.
나는 googled하고 clocksource = jiffies를 커널에 추가하여 수정했습니다. 지프 대신 “피트”를 시도 할 수도 있습니다.
BIOS에서 C- 상태 비활성화에 대한 보고서도 있습니다 .
답변
Thinkpad T520에서도 같은 문제가있었습니다. 그러나 커널을 해킹하는 대신 더 간단한 것을했습니다. 우선 Centos7을 사용하고 있습니다. 기본 시스템을 모두 설치했습니다. 그런 다음 나중에 그놈 GUI를 추가했는데 위에서 언급 한 문제가 발생하기 시작했습니다. 많은 제조업체에서 Windows 설치를 설정했습니다. 그래픽 카드는 일반적으로 Win7 (NVIDIA OPTIMUS)에 대해 설정됩니다. 통합 그래픽 모드로 재설정하고 더 이상 정지 / 오류가 발생하지 않습니다. 어떻게합니까? Thinkpad hit F1 또는 blue thinkvantage 버튼을 재부팅하여 BIOS로 들어갑니다. 그래픽으로 이동하여 통합 그래픽을 선택한 다음 F10을 선택하여 저장하고 종료하십시오. 이 카드에는 3 가지 설정이 있습니다 : 통합, 이산 및 NVIDIA OPTIMUS (Win7 만?) 시간이 절약되기를 바랍니다.