[unix] BUG : 소프트 잠금-x 초 동안 CPU #가 멈춤

잔소리와 관련된 몇 가지 버그 보고서와 질문 (스택 교환 및 기타 장소)을 보았습니다 "BUG: soft lockup - CPU#<n> stuck for <dt>s!". 지금까지 나는 무엇을해야할지 또는 시도해야것에 대한 단서를 찾지 못했습니다. 다음과 같은 이유로 더 걱정됩니다.

  1. 이러한 사건의 빈도는 최근 (월 700 이상) 최근에 천천히 증가한 것으로 보입니다.
  2. yum update 재부팅하면 잠시 동안 속도가 느려지지만 잠금이 다시 발생하는 것을 보았습니다.
  3. 여러 프로세스 (전체 호스트가 아닌 경우 말하기 어렵습니다), 모든 대화 형 셸을 포함하여 확실히 발생하는 경우 일정 시간 동안 동결됩니다.
  4. 그것이 관련되어 있는지 확실하지 않지만 ntpd와 관련된 많은 로그 / 메시지가 시계를 업데이트 할 수 없다는 것을 알았습니다.

다음은 발췌 한 내용입니다 $(grep 'soft lockup' /var/log/messages*).

Mar 22 10:02:35 localhost kernel: BUG: soft lockup - CPU#15 stuck for 10s! [kjournald:1048]
Mar 22 10:02:36 localhost kernel: BUG: soft lockup - CPU#0 stuck for 10s! [postgres:5372]
Mar 22 10:02:36 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [postgres:5368]
Mar 22 10:02:37 localhost kernel: BUG: soft lockup - CPU#0 stuck for 10s! [postgres:5372]
Mar 22 10:02:37 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [postgres:5368]
Mar 22 10:02:38 localhost kernel: BUG: soft lockup - CPU#0 stuck for 10s! [postgres:5372]
Mar 22 10:02:38 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [postgres:5368]
Mar 22 10:02:39 localhost kernel: BUG: soft lockup - CPU#0 stuck for 10s! [postgres:5372]
Mar 22 10:02:39 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [postgres:5368]
Mar 22 10:02:40 localhost kernel: BUG: soft lockup - CPU#15 stuck for 25s! [swapper:0]
Mar 22 15:42:16 localhost kernel: BUG: soft lockup - CPU#8 stuck for 25s! [kjournald:1048]
Mar 22 18:22:13 localhost kernel: BUG: soft lockup - CPU#15 stuck for 10s! [postgres:21356]
Mar 22 18:22:20 localhost kernel: BUG: soft lockup - CPU#7 stuck for 10s! [java:8653]
Mar 22 18:22:20 localhost kernel: BUG: soft lockup - CPU#8 stuck for 72s! [kjournald:1048]
Mar 22 21:21:37 localhost kernel: BUG: soft lockup - CPU#12 stuck for 29s! [kjournald:1048]
Mar 22 21:22:07 localhost kernel: BUG: soft lockup - CPU#12 stuck for 27s! [kjournald:1048]
Mar 23 02:01:47 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [kblockd/8:276]
Mar 23 02:02:22 localhost kernel: BUG: soft lockup - CPU#8 stuck for 34s! [kblockd/8:276]

이것은 임의의 프로세스에서 발생하며 해당 가상 호스트의 16 개 “코어”에 상당히 잘 분산되어있는 것 같습니다.

호스트는 “EC2 CentOS 5.5 GPU HVM AMI (드라이버 260.19.29) (ami-42a2532b)”라는 AMI를 가진 AWS EC2 “cc1.4xlarge”인스턴스입니다. Xen으로 가상화 된 것 같습니다.

cat /etc/redhat-release수율 CentOS release 5.9 (Final). 'free'RAM의 21G를보고합니다.

의 머리 dmesg는 :

Linux version 2.6.18-348.3.1.el5 (mockbuild@builder10.centos.org) (gcc version 4.1.2 20080704 (Red Hat 4.1.2-54)) #1 SMP Mon Mar 11 19:39:25 EDT 2013
Command line: ro root=/dev/VolGroup00/LogVol00 rhgb quiet console=tty0 console=ttyS0,115200n8
BIOS-provided physical RAM map:
 BIOS-e820: 0000000000010000 - 000000000009fc00 (usable)
 BIOS-e820: 000000000009fc00 - 00000000000a0000 (reserved)
 BIOS-e820: 00000000000e0000 - 0000000000100000 (reserved)
 BIOS-e820: 0000000000100000 - 00000000c0000000 (usable)
 BIOS-e820: 00000000fc000000 - 0000000100000000 (reserved)
 BIOS-e820: 0000000100000000 - 00000005dd800000 (usable)
DMI 2.4 present.
DMI: Xen HVM domU, BIOS 3.4.3-2.6.18 08/29/2012
ACPI: RSDP (v002    Xen                                ) @ 0x00000000000ea020
ACPI: XSDT (v001    Xen      HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc0062b0
ACPI: FADT (v004    Xen      HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc005ee0
ACPI: MADT (v002    Xen      HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc005fe0
ACPI: SRAT (v001    Xen      HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc0060c0
ACPI: SLIT (v001    Xen      HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc006240
ACPI: HPET (v001    Xen      HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc006270
ACPI: DSDT (v002    Xen      HVM 0x00000000 INTL 0x20090220) @ 0x(null)

다음 쇼 최근 시간이 지남에 따라 이러한 “소프트 잠금 ‘의 누적 카운트 (나는 마지막 한 때 레드 라인은 yum update다음을 reboot)
소프트 잠금의 누적 수.

다음은 기간의 히스토그램을 보여줍니다 (호스트가 얼마나 오래 멈췄는지)
기간 히스토그램.



답변

또한 3.6 및 3.8 커널 (AlpineLinux)이있는 Xen 4.2 에서이 문제가 있습니다.

나는 googled하고 clocksource = jiffies를 커널에 추가하여 수정했습니다. 지프 대신 “피트”를 시도 할 수도 있습니다.

BIOS에서 C- 상태 비활성화에 대한 보고서도 있습니다 .


답변

Thinkpad T520에서도 같은 문제가있었습니다. 그러나 커널을 해킹하는 대신 더 간단한 것을했습니다. 우선 Centos7을 사용하고 있습니다. 기본 시스템을 모두 설치했습니다. 그런 다음 나중에 그놈 GUI를 추가했는데 위에서 언급 한 문제가 발생하기 시작했습니다. 많은 제조업체에서 Windows 설치를 설정했습니다. 그래픽 카드는 일반적으로 Win7 (NVIDIA OPTIMUS)에 대해 설정됩니다. 통합 그래픽 모드로 재설정하고 더 이상 정지 / 오류가 발생하지 않습니다. 어떻게합니까? Thinkpad hit F1 또는 blue thinkvantage 버튼을 재부팅하여 BIOS로 들어갑니다. 그래픽으로 이동하여 통합 그래픽을 선택한 다음 F10을 선택하여 저장하고 종료하십시오. 이 카드에는 3 가지 설정이 있습니다 : 통합, 이산 및 NVIDIA OPTIMUS (Win7 만?) 시간이 절약되기를 바랍니다.


답변