[c++] 스택 샘플링을 넘어서 : C ++ 프로파일 러

해커의 이야기

날짜는 12/02/10입니다. 크리스마스 전날이 흘렀고 저는 Windows 프로그래머로서 주요 도로 블록에 거의 부딪 쳤습니다. 나는 AQTime을 사용하고 있고, 졸리고, 반짝 거리며, 매우 졸려 보았고, VTune이 설치되고 있습니다. VS2008 프로파일 러를 사용하려고 시도했으며 긍정적으로 처벌을 받았으며 종종 무의미했습니다. 무작위 일시 중지 기술을 사용했습니다. 콜 트리를 검사했습니다. 함수 추적을 해고했습니다. 그러나 문제의 슬픈 고통스러운 사실은 내가 작업하는 앱이 백만 줄 이상의 코드이며 아마도 다른 백만 줄의 타사 앱이 있다는 것입니다.

더 나은 도구가 필요합니다. 다른 주제를 읽었습니다. 각 주제에 나열된 각 프로파일 러를 사용해 보았습니다. 이 엉뚱하고 값 비싼 옵션보다 더 나은 것이 있거나, 거의 이득이없는 음란 한 양의 작업이 있어야합니다. 문제를 더 복잡하게하기 위해, 우리 코드는 스레드가 많고, 많은 Qt 이벤트 루프를 실행하는데, 그 중 일부는 너무 약해서 타이밍 지연으로 인해 무거운 계측에서 충돌합니다. 왜 우리가 여러 이벤트 루프를 실행하는지 묻지 마십시오. 아무도 나에게 말할 수 없습니다.

Windows 환경에서 Valgrind 라인을 따라 추가 옵션이 있습니까?
이미 시도한 긴 도구들보다 더 좋은 것이 있습니까?
큐에 이벤트를 유용하게 표시하여 Qt와 통합하도록 설계된 것이 있습니까?

기울임 꼴에 실제로 유용한 도구와 함께 시도한 도구의 전체 목록 :

  • AQTime : 오히려 좋습니다! 깊은 재귀에 문제가 있지만 이러한 경우 호출 그래프가 정확하며 혼란을 제거하는 데 사용할 수 있습니다. 완벽한 도구는 아니지만 시험해 볼 가치가 있습니다. 그것은 당신의 필요에 맞을 수도 있으며, 대부분의 경우 나에게 충분했습니다.
  • 디버그 모드에서 임의 일시 정지 공격 : 충분한 정보가 충분하지 않습니다.
    좋은 도구이지만 완벽한 솔루션은 아닙니다.
  • 병렬 스튜디오 : 핵 옵션. 눈에 거슬 리고 이상하고 미치도록 강력합니다. 나는 당신이 30 일 평가를 치고 그것이 잘 맞는지 알아 내야한다고 생각합니다. 너무 멋지다.
  • AMD Codeanalyst : 훌륭하고 사용하기 쉽고 충돌이 발생하기 쉽지만 환경 문제라고 생각합니다. 무료이므로 시도해 보는 것이 좋습니다.
  • Luke Stackwalker : 소규모 프로젝트에서 잘 작동합니다. 우리 프로젝트에서 약간의 노력을 기울이고 있습니다. 그래도 좋은 결과가 있으며, 개인적 작업으로 슬리피를 대체합니다.
  • PurifyPlus : Win-x64 환경, 가장 두드러진 Windows 7은 지원되지 않습니다. 다른 부서의 많은 동료들이 맹세합니다.
  • VS2008 프로파일 러 : 필요한 분해능에서 기능 추적 모드에서 100+ 기가 범위의 출력을 생성합니다. 긍정적 인면에서 확실한 결과를 만들어냅니다.
  • GProf : GCC가 어느 정도 효과적이어야합니다.
  • VTune : VTune의 W7은 범죄에 대한 국경을 지원합니다. 그렇지 않으면 우수
  • PIN : 내 도구를 해킹해야하므로 최후의 수단입니다.
  • Sleepy \ VerySleepy : 작은 앱에는 유용하지만 여기서 실패합니다.
  • EasyProfiler : 계측 할 위치를 표시하기 위해 수동으로 삽입 된 코드가 마음에 들지 않으면 나쁘지 않습니다.
  • Valgrind : * nix 만 해당 환경에있을 때 매우 좋습니다.
  • OProfile : Linux 전용.
  • Proffy : 그들은 야생마를 쏴요.

내가 시도하지 않은 제안 도구 :

  • XPerf :
  • 글로우 코드 :
  • 개발자 :

참고 : 현재
인텔 환경. VS2008, 부스트 라이브러리. Qt 4+. 트롤 테크를 통한 Qt / MFC 통합.


이제 : 거의 2 주 후에 문제가 해결 된 것 같습니다. 목록에있는 거의 모든 것을 포함한 몇 가지 개인 트릭을 포함한 다양한 도구 덕분에 우리는 주요 병목 현상을 발견했습니다. 그러나 저는 새로운 테크놀러지뿐만 아니라 새로운 프로파일 러를 계속 테스트하고 탐구하고 시도 할 것입니다. 왜? 내가 너희들에게 빚을 졌기 때문에 너희들은 흔들 리기 때문이다. 타임 라인이 약간 느려지지만 새로운 도구를 계속 사용해 봐서 매우 기쁩니다.

개요
많은 다른 문제들 중에서도 최근 많은 구성 요소가 잘못된 스레딩 모델로 전환되어 우리 밑의 코드가 갑자기 더 이상 멀티 스레딩되지 않았기 때문에 심각한 중단을 일으켰습니다. NDA를 위반하기 때문에 더 이상 말할 수는 없지만 이것이 일상적인 검사 또는 정상적인 코드 검토로는 발견되지 않았 음을 알 수 있습니다. 프로파일 러, 콜 그래프 및 임의의 일시 중지가 없으면 하늘의 아름다운 푸른 호에서 우리의 분노가 계속 비명을 질 것입니다. 고맙게도, 내가 만난 최고의 해커들과 함께 일하며, 훌륭한 도구와 훌륭한 사람들로 가득한 놀라운 ‘구절에 접근 할 수 있습니다.

젠틀 포크, 나는 이것을 대단히 감사하며, 당신에게 현상금으로 보상 할 충분한 담당자가 없다는 것을 유감스럽게 생각합니다. 나는 아직도 이것이 지금까지 우리가 얻은 것보다 더 나은 답변을 얻는 데 중요한 질문이라고 생각합니다.

결과적으로, 매주 다음 3 주 동안, 나는 내가 감당할 수있는 가장 큰 현상금을 내놓을 것이며, 그것이 상식이 아니라고 생각하는 가장 멋진 도구로 대답 할 것입니다. 3 주 후, 우리가 내 삐걱 거리는 소리를 용서한다면 프로파일 러에 대한 명확한 프로파일을 축적했으면합니다.

테이크 아웃
프로파일 러를 사용하십시오. Ritchie, Kernighan, Bentley 및 Knuth에 충분합니다. 당신이 누구라고 생각하든 상관 없습니다. 프로파일 러를 사용하십시오. 가지고있는 것이 작동하지 않으면 다른 것을 찾으십시오. 찾을 수 없으면 코드를 작성하십시오. 코드를 작성할 수 없거나 약간 끊어 지거나 막힌 경우 임의 일시 중지를 사용하십시오. 다른 방법으로 모두 실패하면 일부 대학원생을 고용하여 프로파일 러를 강타하십시오.


더 긴 전망
그래서 약간의 회고를 작성하는 것이 좋을 것이라고 생각했습니다. 실제로 PIN 도구 위에 구축되어 있기 때문에 Parallel Studios에서 광범위하게 작업하기로 결정했습니다. 관련된 일부 연구자들과 학문을 다루면서 나는 이것이 아마도 어느 정도의 질이라고 생각했다. 고맙게도 나는 옳았다. GUI가 약간 두려운 반면, IPS는 매우 유용하지만 모든 사람에게 편안하게 추천 할 수는 없습니다. 비판적으로, AQT와 다른 많은 프로파일 러가 제공하는 라인 레벨 적중 횟수를 얻는 확실한 방법은 없으며 다른 것들 중에서 분기 선택 속도를 검사하는 데 매우 유용합니다. 순전히, 나는 AQTime을 사용하는 것을 즐겼으며, 그들의 지원이 실제로 반응하는 것을 발견했습니다. 다시, 나는 나의 추천을 받아야한다. 많은 기능이 제대로 작동하지 않으며 Win7x64에서 충돌이 발생하기 쉽습니다. XPerf도 훌륭하게 수행되었지만 특정 종류의 응용 프로그램에서 좋은 판독을 얻는 데 필요한 샘플링 세부 사항에 대해 고통스럽게 느립니다.

지금 당장은 W7x64 환경에서 C ++ 코드를 프로파일 링하는 결정적인 옵션이 없다고 생각하지만 유용한 서비스를 수행하지 못하는 옵션이 있습니다.



답변

먼저:

시간 샘플링 프로파일 러는 CPU 샘플링 프로파일 러보다 강력합니다. Windows 개발 도구에 익숙하지 않으므로 어떤 도구인지 알 수 없습니다. 대부분의 프로파일 러는 CPU 샘플링입니다.

CPU 샘플링 프로파일 러는 모든 N 명령어마다 스택 추적을받습니다.
이 기술은 코드에서 CPU 바인딩 된 부분을 보여줍니다. 그것이 응용 프로그램의 병목 인 경우 굉장합니다. 애플리케이션 스레드가 대부분의 시간을 뮤텍스를 놓고 싸우는 데 그리 좋지는 않습니다.

시간 샘플링 프로파일 러는 N 마이크로 초마다 스택 추적을 수행합니다.
이 기술은 “느린” 코드에서 시작됩니다. 원인이 CPU 바운드인지, IO 바운드, 뮤텍스 바운드 또는 캐시 스 래싱 섹션 코드인지 여부 간단히 말해서 어떤 코드 조각이 응용 프로그램 속도를 늦추고 있는지 눈에 띄게됩니다.

따라서 스레드 코드를 프로파일 링 할 때 시간 샘플링 프로파일 러를 사용하십시오.

둘째:

샘플링 프로파일 러는 데이터 덩어리를 생성합니다. 데이터는 매우 유용하지만 쉽게 유용하기에는 너무 많습니다. 프로파일 데이터 비주얼 라이저는 여기서 큰 도움이됩니다. 프로필 데이터 시각화를 위해 찾은 최고의 도구는 gprof2dot 입니다. 이름을 속이지 말고 모든 종류의 샘플링 프로파일 러 출력 (AQtime, Sleepy, XPerf 등)을 처리하십시오. 시각화에서 문제가되는 기능을 지적하면 실제 프로필 데이터로 건너 뛰어 실제 원인이 무엇인지 더 잘 알 수 있습니다.

gprof2dot 도구는 도트 그래프 설명 을 생성 한 다음 graphviz 도구에 제공합니다. 출력은 기본적으로 응용 프로그램에 미치는 영향에 따라 색상 코드가 지정된 콜 그래프입니다.
대체 텍스트

gprof2dot가 멋진 출력을 생성하도록하는 몇 가지 힌트입니다.

  • --skew그래프에서 0.001을 사용 하므로 핫 코드 경로를 쉽게 볼 수 있습니다. 그렇지 않으면 int main()그래프 가 지배적입니다.
  • C ++ 템플릿으로 미친 짓을하고 있다면을 추가하고 싶을 것입니다 --strip. 이것은 특히 Boost와 관련이 있습니다.
  • 샘플링 데이터를 생성하기 위해 OProfile을 사용합니다. 좋은 출력을 얻으려면 타사 및 시스템 라이브러리에서 디버그 기호를로드하도록 구성해야합니다. 그렇지 않으면 CRT가 응용 프로그램 시간의 20 %를 차지하고 있다는 사실을 알게 될 것 malloc입니다.

답변

무작위 일시 중지를 시도했을 때 어떤 일이 발생 했습니까? 나는 항상 몬스터 앱에서 사용합니다. 정보가 충분하지 않다고 말했으며 고해상도가 필요하다고 제안했습니다. 때때로 사람들은 그것을 사용하는 방법을 이해하는데 약간의 도움이 필요합니다.

VS에서 내가하는 일은 스택 디스플레이를 완전히 읽을 수 없도록하기 때문에 스택 디스플레이를 구성하여 함수 인수를 표시하지 않는 것입니다.

그런 다음 기다리는 동안 “일시 중지” 를 눌러 약 10 개의 샘플을 가져 옵니다 . ^ A, ^ C 및 ^ V를 사용하여 참조 용으로 메모장에 복사합니다. 그런 다음 각각을 연구하여 당시 달성하려는 과정이 무엇인지 알아 내려고 노력합니다.

2 개 이상의 샘플에서 무언가를 달성하려고했는데 그 것이 엄격하게 필요하지 않은 경우 라이브 문제를 발견했으며 얼마나 많은 수정이 절약되는지 알고 있습니다.

정확한 퍼센트는 중요하지 않습니다, 그리고 당신에 대해 아무것도 할 수 없기 때문에 어떤 내부의 제 3 자 코드에가는 것은 중요하지 않다처럼 당신은 정말 알 필요가 없습니다 일이 있습니다 사람들은 . 당신이 할 수있는 일은 각 스택 샘플에 표시 될 수 있는 코드의 풍부한 콜 포인트 세트입니다 . 그것이 당신의 행복한 사냥터입니다.

내가 찾은 종류의 예 :

  • 시작하는 동안 DLL 리소스에서 국제화 된 문자열을 추출하는 과정에서 약 30 층의 깊이가 될 수 있습니다. 실제 문자열을 검사 하면 사용자가 실제로 보지 못하는 문자열처럼 문자열을 국제화 할 필요 가 없다는 것을 쉽게 알 수 있습니다 .

  • 정상적인 사용 중에 일부 코드는 일부 객체에서 Modified 속성을 무심코 설정합니다. 이 객체는 변경 사항을 캡처하고 전체 데이터 구조에 걸쳐 리플 (ripple)되는 알림을 트리거하는 수퍼 클래스에서 제공됩니다. 이것은 알림의 예기치 않은 결과로 많은 일이 발생할 수 있습니다.

  • 셀 단위로 워크 시트를 작성합니다. 값의 배열에서 한 번에 행을 작성하면 훨씬 빠릅니다.

PS 멀티 스레드 인 경우 일시 중지하면 모든 스레드가 일시 중지됩니다. 각 스레드의 호출 스택을 살펴보십시오. 아마도 그들 중 하나만이 진정한 범인이고 다른 사람들은 유휴 상태 일 것입니다.


답변

나는 AMD CodeAnalyst로 약간의 성공을 거두었 습니다 .


답변

MFC OnIdle 기능이 있습니까? 과거에는 PentiumD가 유지할 수 있었던 19.2K 속도로 설정했을 때 직렬 패킷이 떨어지는 문제를 수정해야했습니다. OnIdle 기능은 사물을 죽이는 것입니다. QT에 해당 개념이 있는지 확실하지 않지만 그 사실도 확인합니다.


답변

VS Profiler를 다시 사용하십시오. 큰 파일을 생성하는 경우 샘플링 간격이 너무 자주 있습니까? 어쨌든 충분한 샘플이있을 수 있으므로 낮추어보십시오.

이상적으로는 실제로 문제 영역을 연습 할 때까지 샘플을 수집하지 않아야합니다. 컬렉션이 일시 중지 된 상태에서 시작하여 프로그램이 “느린 활동”을 수행하도록 한 다음 컬렉션을 시작하십시오. 최대 20 초의 수집 만 필요합니다. 이 후 수집을 중지하십시오.

이를 통해 샘플 파일 크기를 줄이고 분석에 필요한 것만 캡처 할 수 있습니다.


답변

PurifyPlus for Windows를 성공적으로 사용했습니다 . 저렴하지는 않지만 IBM은 약간 구겨진 평가판을 제공합니다. 수량화 로 프로파일 링하는 필요한 것은 pdb 파일과 / FIXED : NO와의 링크입니다. 단점 : Win7 / 64는 지원하지 않습니다.


답변

이지 프로파일 러 여기에 아직 언급되지 않았으므로 이미 살펴 보았는지 확실하지 않습니다. 메트릭 데이터를 수집하는 방법에는 약간 다른 접근 방식이 필요합니다. 컴파일 타임 프로파일 접근 방식을 사용하는 데 따른 단점은 코드 기반을 변경해야한다는 것입니다. 따라서 느린 위치에 대한 아이디어가 있고 프로파일 링 코드를 삽입해야합니다.

당신이 만드는 적어도 것처럼 최신 의견으로가는 것은 그러나, 그것은 소리가 일부 진전을. 이 도구는 유용한 메트릭을 제공 할 수 있습니다. 다른 것이 없다면 정말 순수한 차트와 그림이 있습니다 : P