나는 몇 가지 문서와 질문 / 답변을 탐색하면서 언급 된 것을 보았습니다. 기본적으로 프로그래머가 포인터가 다른 곳을 가리키는 데 사용되지 않는다는 약속이라고 간략히 설명했습니다.
누구나 실제로 이것을 사용할 가치가있는 현실적인 사례를 제공 할 수 있습니까?
답변
restrict
포인터는 기본 객체에 액세스하는 유일한 것입니다. 포인터 앨리어싱의 가능성을 제거하여 컴파일러의 최적화를 향상시킵니다.
예를 들어 메모리에 숫자 벡터를 곱할 수있는 특수 명령이있는 머신이 있고 다음 코드가 있다고 가정합니다.
void MultiplyArrays(int* dest, int* src1, int* src2, int n)
{
for(int i = 0; i < n; i++)
{
dest[i] = src1[i]*src2[i];
}
}
컴파일러는 if dest
, src1
및 src2
겹침 을 올바르게 처리 해야합니다. 즉, 처음부터 끝까지 한 번에 하나씩 곱해야합니다. 를 가짐 restrict
으로써 컴파일러는 벡터 명령어를 사용하여이 코드를 자유롭게 최적화 할 수 있습니다.
Wikipedia에는에 대한 항목이 있으며 여기restrict
에는 다른 예가 있습니다 .
답변
위키 백과의 예 입니다 매우 조명.
하나의 조립 명령을 저장 하는 방법을 명확하게 보여줍니다. .
제한없이 :
void f(int *a, int *b, int *x) {
*a += *x;
*b += *x;
}
의사 어셈블리 :
load R1 ← *x ; Load the value of x pointer
load R2 ← *a ; Load the value of a pointer
add R2 += R1 ; Perform Addition
set R2 → *a ; Update the value of a pointer
; Similarly for b, note that x is loaded twice,
; because x may point to a (a aliased by x) thus
; the value of x will change when the value of a
; changes.
load R1 ← *x
load R2 ← *b
add R2 += R1
set R2 → *b
제한으로 :
void fr(int *restrict a, int *restrict b, int *restrict x);
의사 어셈블리 :
load R1 ← *x
load R2 ← *a
add R2 += R1
set R2 → *a
; Note that x is not reloaded,
; because the compiler knows it is unchanged
; "load R1 ← *x" is no longer needed.
load R2 ← *b
add R2 += R1
set R2 → *b
GCC가 실제로합니까?
GCC 4.8 Linux x86-64 :
gcc -g -std=c99 -O0 -c main.c
objdump -S main.o
와 -O0
동일합니다.
로 -O3
:
void f(int *a, int *b, int *x) {
*a += *x;
0: 8b 02 mov (%rdx),%eax
2: 01 07 add %eax,(%rdi)
*b += *x;
4: 8b 02 mov (%rdx),%eax
6: 01 06 add %eax,(%rsi)
void fr(int *restrict a, int *restrict b, int *restrict x) {
*a += *x;
10: 8b 02 mov (%rdx),%eax
12: 01 07 add %eax,(%rdi)
*b += *x;
14: 01 06 add %eax,(%rsi)
시작하지 않은 경우 호출 규칙 은 다음과 같습니다.
rdi
= 첫 번째 매개 변수rsi
= 두 번째 매개 변수rdx
= 세번째 매개 변수
GCC 출력은 Wiki 기사보다 훨씬 명확했습니다. 4 가지 명령어와 3 개의 명령어.
배열
지금까지 단일 명령 절감 효과가 있지만 포인터가 반복되는 배열, 일반적인 사용 사례를 나타내는 경우 supercat에서 언급 한 것처럼 많은 명령을 저장할 수 있습니다 .
예를 들면 다음과 같습니다.
void f(char *restrict p1, char *restrict p2) {
for (int i = 0; i < 50; i++) {
p1[i] = 4;
p2[i] = 9;
}
}
때문에 restrict
스마트 컴파일러 (또는 사람)는 다음과 같이 최적화 할 수 있습니다.
memset(p1, 4, 50);
memset(p2, 9, 50);
glibc와 같은 괜찮은 libc 구현에서 어셈블리 최적화 될 수 있기 때문에 잠재적으로 훨씬 효율적입니다. 성능 측면에서 std :: memcpy () 또는 std :: copy ()를 사용하는 것이 더 낫습니까?
GCC가 실제로합니까?
GCC 5.2.1. 리눅스 x86-64 우분투 15.10 :
gcc -g -std=c99 -O0 -c main.c
objdump -dr main.o
와 -O0
하면 둘 다 동일합니다.
로 -O3
:
-
제한으로 :
3f0: 48 85 d2 test %rdx,%rdx 3f3: 74 33 je 428 <fr+0x38> 3f5: 55 push %rbp 3f6: 53 push %rbx 3f7: 48 89 f5 mov %rsi,%rbp 3fa: be 04 00 00 00 mov $0x4,%esi 3ff: 48 89 d3 mov %rdx,%rbx 402: 48 83 ec 08 sub $0x8,%rsp 406: e8 00 00 00 00 callq 40b <fr+0x1b> 407: R_X86_64_PC32 memset-0x4 40b: 48 83 c4 08 add $0x8,%rsp 40f: 48 89 da mov %rbx,%rdx 412: 48 89 ef mov %rbp,%rdi 415: 5b pop %rbx 416: 5d pop %rbp 417: be 09 00 00 00 mov $0x9,%esi 41c: e9 00 00 00 00 jmpq 421 <fr+0x31> 41d: R_X86_64_PC32 memset-0x4 421: 0f 1f 80 00 00 00 00 nopl 0x0(%rax) 428: f3 c3 repz retq
memset
예상대로 두 번의 통화. -
제한없이 : stdlib 호출 없음, 여기에서 재현하지 않으려 는 16 개의 반복 너비 루프 언 롤링 🙂
나는 그것들을 벤치마킹 할 인내가 없었지만 제한 버전이 더 빠를 것이라고 믿습니다.
C99
완전성을위한 표준을 살펴 보자.
restrict
두 포인터가 겹치는 메모리 영역을 가리킬 수 없다고 말합니다. 가장 일반적인 사용법은 함수 인수입니다.
이것은 함수 호출 방법을 제한하지만 더 많은 컴파일 타임 최적화를 허용합니다.
발신자가 restrict
계약을 따르지 않으면 정의되지 않은 동작입니다.
C99 N1256 초안 6.7.3 / 7 “형식 한정자”말한다 :
제한 규정 자 (레지스터 저장 클래스와 같은)의 의도 된 사용은 최적화를 촉진하는 것이며, 규정을 준수하는 프로그램을 구성하는 모든 사전 처리 변환 단위에서 규정 자의 모든 인스턴스를 삭제해도 의미가 변경되지 않습니다 (즉, 관찰 가능한 동작).
그리고 6.7.3.1 “제한의 공식적 정의”는 세부 사항을 제공한다.
엄격한 앨리어싱 규칙
restrict
키워드는 호환 가능한 유형의 포인터 (예 : 두에 영향을 미치는 int*
엄격한 앨리어싱 규칙이 호환되지 않는 유형의 별명을하는 것은 기본적으로 정의되지 않은 동작이라고 말한다 때문에), 그리고 컴파일러는 가정 할 수 있도록 멀리 일어날 최적화하지 않습니다.
참조 : 엄격한 앨리어싱 규칙은 무엇입니까?
또한보십시오
- C ++ 14에는 아직 아날로그가
restrict
없지만 GCC에는__restrict__
확장 기능이 있습니다. C ++에서 제한 키워드는 무엇을 의미합니까? - 많은 질문 : gory 세부 사항에 따르면이 코드는 UB입니까?
- “사용시기”질문 : 제한 사용시기 및 사용하지 않을시기
- 관련 GCC
__attribute__((malloc))
는 함수의 반환 값이 별칭이 아니라고 말합니다. GCC : __attribute __ ((malloc))