메모리 파트 5: 프로그래머가 할 수 있는 일

이전 지시는 무시하세요; 오늘 LWN을 구독하세요 LWN.net의 모든 기사는 사람에 의해, 사람을 위해 쓰입니다. 이 글을 흥미롭게 읽으셨고 비슷한 글을 더 보고 싶다면, 여러분의 구독은 로봇을 멀리하는 데 큰 도움이 됩니다. 시작을 돕기 위해 1개월 무료 체험 구독을 제공하고 있습니다(신용카드 불필요).

[편집자 주: Ulrich Drepper의 "What every programmer should know about memory" 5부에 오신 것을 환영합니다. 이 파트는 6장의 전반부로, 프로그래머가 자신의 코드의 메모리 성능을 개선하기 위해 할 수 있는 일들을 다룹니다. 아직 읽지 않은 분들을 위해 1부, 2부, 3부, 4부도 온라인에 남아 있습니다.]

6 프로그래머가 할 수 있는 일

이전 절에서의 설명을 통해, 프로그래머가 프로그램의 성능에(긍정적이든 부정적이든) 영향을 미칠 수 있는 기회가 정말로 많다는 것이 분명해졌습니다. 그리고 이는 오직 메모리 관련 동작에 대해서만입니다. 우리는 물리적 RAM 접근과 L1 캐시라는 가장 낮은 수준에서 시작해, 메모리 처리를 좌우하는 OS 기능까지 포함하여, 기회들을 아래로부터 차례로 살펴보겠습니다.

6.1 캐시 우회

데이터가 생성되고 (곧바로) 다시 소비되지 않는 경우, 메모리 저장 연산이 먼저 전체 캐시 라인을 읽은 뒤 캐시된 데이터를 수정한다는 사실은 성능에 해롭습니다. 이 동작은 곧 사용하지 않을 데이터를 위해, 나중에 다시 필요할 수도 있는 데이터를 캐시 밖으로 밀어냅니다. 행렬처럼 큰 데이터 구조를 채운 후 나중에 사용하는 경우 특히 그러합니다. 행렬의 마지막 원소를 채우기 전에, 방대한 크기 때문에 처음 원소들이 이미 축출(evict)되어, 쓰기 캐싱이 비효율적이 됩니다.

이런 상황을 위해, 프로세서는 비일시적(non-temporal) 쓰기 연산을 지원합니다. 여기서 비일시적이란 데이터가 곧 다시 재사용되지 않음을 의미하며, 따라서 그것을 캐시에 넣을 이유가 없다는 뜻입니다. 이러한 비일시적 쓰기 연산은 캐시 라인을 읽은 뒤 수정하는 대신, 새로운 내용을 직접 메모리에 씁니다.

이는 비싸게 들릴 수 있지만 반드시 그런 것은 아닙니다. 프로세서는 전체 캐시 라인을 채우기 위해 쓰기 결합(write-combining, 3.3.3절 참고)을 시도합니다. 이것이 성공하면 메모리 읽기 연산은 전혀 필요하지 않습니다. x86 및 x86-64 아키텍처에 대해 gcc는 다음과 같은 인트린식을 제공합니다:

#include <emmintrin.h>
void _mm_stream_si32(int *p, int a);
void _mm_stream_si128(int *p, __m128i a);
void _mm_stream_pd(double *p, __m128d a);

#include <xmmintrin.h>
void _mm_stream_pi(__m64 *p, __m64 a);
void _mm_stream_ps(float *p, __m128 a);

#include <ammintrin.h>
void _mm_stream_sd(double *p, __m128d a);
void _mm_stream_ss(float *p, __m128 a);

이들 명령은 한 번에 많은 양의 데이터를 처리할 때 가장 효율적입니다. 데이터는 메모리에서 로드되어 하나 이상의 단계로 처리된 뒤 다시 메모리에 기록됩니다. 데이터는 프로세서를 "스트리밍"으로 통과하며, 그래서 인트린식의 이름도 그렇습니다.

메모리 주소는 각각 8바이트 또는 16바이트 정렬이어야 합니다. 멀티미디어 확장을 사용하는 코드에서는 일반적인 mm_store* 인트린식을 이러한 비일시적 버전으로 대체할 수 있습니다. 9.1절의 행렬 곱셈 코드에서는, 기록된 값이 짧은 시간 안에 다시 사용되므로 이를 사용하지 않습니다. 이는 스트림 명령을 사용해도 소용이 없는 예입니다. 이 코드는 6.2.1절에서 더 다룹니다.

프로세서의 쓰기 결합 버퍼는 캐시 라인에 대한 부분 쓰기 요청을 오래 보관할 수 없습니다. 일반적으로, 하나의 캐시 라인을 수정하는 모든 명령을 연속으로 발행해야 쓰기 결합이 실제로 일어납니다. 이를 수행하는 예시는 다음과 같습니다:

#include <emmintrin.h>
void setbytes(char *p, int c)
{
  __m128i i = _mm_set_epi8(c, c, c, c,
                           c, c, c, c,
                           c, c, c, c,
                           c, c, c, c);
  _mm_stream_si128((__m128i *)&p[0], i);
  _mm_stream_si128((__m128i *)&p[16], i);
  _mm_stream_si128((__m128i *)&p[32], i);
  _mm_stream_si128((__m128i *)&p[48], i);
}

포인터 p가 적절히 정렬되어 있다고 가정하면, 이 함수를 호출하면 주소가 가리키는 캐시 라인의 모든 바이트를 c로 설정합니다. 쓰기 결합 로직은 생성된 네 개의 movntdq 명령을 인지하고, 마지막 명령이 실행된 후에야 메모리 쓰기 명령을 발행합니다. 요약하면, 이 코드 시퀀스는 캐시 라인을 쓰기 전에 읽는 것을 피할 뿐 아니라, 곧 필요하지 않을 데이터로 캐시를 오염시키는 것도 피합니다. 이는 특정 상황에서 큰 이점이 있을 수 있습니다. 이 기술을 사용하는 일상적인 코드의 예로는 C 런타임의 memset 함수가 있으며, 큰 블록에 대해서는 위와 같은 코드 시퀀스를 사용해야 합니다.

일부 아키텍처는 특화된 해결책을 제공합니다. PowerPC 아키텍처는 전체 캐시 라인을 지우는 데 사용할 수 있는 dcbz 명령을 정의합니다. 이 명령은 실제로 캐시를 우회하지는 않습니다. 결과를 위한 캐시 라인이 할당되지만 메모리에서 데이터를 읽지 않습니다. 캐시 라인을 전부 0으로만 설정할 수 있고(비일시적 데이터인 경우에는) 캐시를 오염시키므로, 비일시적 저장 명령보다 제약이 많지만, 원하는 결과를 얻기 위해 쓰기 결합 로직이 필요하지는 않습니다.

비일시적 명령이 실제로 어떻게 동작하는지 보기 위해, 2차원 배열로 구성된 행렬에 쓰기를 측정하는 새로운 테스트를 살펴봅니다. 컴파일러는 행렬을 메모리에 배치할 때, 가장 왼쪽(첫 번째) 인덱스가 행을 가리키도록 하고, 그 행의 모든 원소가 메모리에 연속되게 놓이도록 합니다. 오른쪽(두 번째) 인덱스는 행 내 원소를 가리킵니다. 테스트 프로그램은 두 가지 방식으로 행렬을 순회합니다: 먼저 안쪽 루프에서 열 번호를 증가시키고, 다음으로 안쪽 루프에서 행 인덱스를 증가시킵니다. 이는 그림 6.1의 동작을 의미합니다.

그림 6.1: 행렬 접근 패턴

3000×3000 행렬을 초기화하는 데 걸리는 시간을 측정합니다. 메모리 동작을 살펴보기 위해 캐시를 사용하지 않는 저장 명령을 사용합니다. IA-32 프로세서에서는 이를 위해 "비일시적 힌트"가 사용됩니다. 비교를 위해 일반 저장 연산도 측정합니다. 결과는 표 6.1과 같습니다.

	안쪽 루프 증가 방향
	행
일반	0.048s
비일시적	0.048s

표 6.1: 행렬 초기화 소요 시간

캐시를 사용하는 일반 쓰기의 경우 예상대로의 결과가 나옵니다. 메모리를 순차적으로 사용하면 훨씬 더 좋은 결과(전체 연산에 0.048초, 약 750MB/s)가 나오고, 사실상 무작위 접근에서는 0.127초(약 280MB/s)가 걸립니다. 행렬이 충분히 커서 캐시는 사실상 비효과적입니다.

여기서 주로 관심 있는 부분은 캐시를 우회하는 쓰기입니다. 순차 접근이 캐시를 사용하는 경우만큼 빠르다는 점은 놀라울 수 있습니다. 그 이유는 앞서 설명했듯이 프로세서가 쓰기 결합을 수행하기 때문입니다. 추가로, 비일시적 쓰기에 대해서는 메모리 순서 규칙이 완화됩니다. 프로그램은 메모리 배리어(예: x86/x86-64의 sfence 명령)를 명시적으로 삽입해야 합니다. 이는 프로세서가 데이터를 더 자유롭게 메모리에 쓰게 해주며, 그 결과 사용 가능한 대역폭을 최대한 활용할 수 있게 됩니다.

안쪽 루프에서 열 방향으로 접근하는 경우는 다릅니다. 결과가 캐시된 접근보다 눈에 띄게 느립니다(0.16초, 약 225MB/s). 여기서는 쓰기 결합이 불가능하고 메모리 셀마다 개별적으로 접근해야 함을 볼 수 있습니다. 이는 RAM 칩에서 매번 새로운 행을 선택해야 하고, 그에 따른 모든 지연이 필요하다는 뜻입니다. 결과적으로 캐시된 실행보다 25% 나쁜 결과가 나옵니다.

읽기 측면에서, 최근까지 프로세서에는 비일시적 접근(NTA) 프리페치 명령을 통한 약한 힌트 외에는 지원이 거의 없었습니다. 쓰기 결합에 대응하는 읽기 측 기능은 없는데, 이는 메모리 매핑 I/O처럼 캐시 불가능한 메모리에서는 특히 나쁩니다. Intel은 SSE4.1 확장에서 NTA 로드를 도입했습니다. 이는 소수의 스트리밍 로드 버퍼로 구현되며, 각 버퍼는 한 개의 캐시 라인을 담습니다. 특정 캐시 라인에 대한 첫 movntdqa 명령은 캐시 라인을 버퍼로 로드하며, 이는 다른 캐시 라인을 대체할 수 있습니다. 이후 그 캐시 라인에 대한 16바이트 정렬 접근은 거의 비용 없이 로드 버퍼에서 서비스됩니다. 다른 이유가 없다면, 캐시 라인은 캐시에 로드되지 않아, 캐시를 오염시키지 않고 대량의 메모리를 로드할 수 있습니다. 컴파일러는 이 명령을 위한 인트린식을 제공합니다:

#include <smmintrin.h>
__m128i _mm_stream_load_si128 (__m128i *p);

이 인트린식은 각 캐시 라인이 읽힐 때까지 16바이트 블록의 주소를 파라미터로 넘겨 여러 번 사용해야 합니다. 그 다음에야 다음 캐시 라인을 시작해야 합니다. 소수의 스트리밍 읽기 버퍼가 있으므로, 동시에 두 메모리 위치에서 읽는 것도 가능할 수 있습니다.

이 실험에서 얻을 수 있는 결론은, 현대 CPU는 순차적인 경우에 한해 비캐시(write/read) 접근을 매우 잘 최적화한다는 것입니다. 이 지식은 한 번만 사용하는 큰 데이터 구조를 다룰 때 매우 유용합니다. 둘째, 캐시는 무작위 메모리 접근 비용의 일부—하지만 전부는 아님—를 가려줄 수 있습니다. 이 예시에서 무작위 접근은 RAM 접근 구현 방식 때문에 70% 더 느립니다. 구현이 바뀌기 전까지는, 무작위 접근을 가능한 한 피해야 합니다.

프리페치 절에서 비일시적 플래그를 다시 살펴보겠습니다.

6.2 캐시 접근

프로그래머가 캐시와 관련해 할 수 있는 가장 중요한 개선은 L1 캐시에 영향을 주는 것입니다. 다른 레벨을 포함하기 전에 먼저 L1을 논의하겠습니다. 분명히 L1 캐시에 대한 모든 최적화는 다른 캐시에도 영향을 줍니다. 모든 메모리 접근의 주제는 동일합니다: 지역성(공간적/시간적)을 개선하고 코드와 데이터를 정렬하라.

6.2.1 L1 데이터 캐시 접근 최적화

3.3절에서 이미 L1d 캐시를 효과적으로 사용하는 것이 성능을 얼마나 향상시킬 수 있는지 보았습니다. 이 절에서는 그 성능을 개선하는 데 도움이 되는 코드 변경의 종류를 보여줍니다. 이전 절에서 이어서, 먼저 메모리를 순차적으로 접근하는 최적화에 집중하겠습니다. 3.3절의 수치에서 보았듯이, 프로세서는 메모리를 순차적으로 접근할 때 데이터를 자동으로 프리페치합니다.

예제로 사용하는 코드는 행렬 곱셈입니다. 1000×1000의 double 원소를 갖는 두 개의 정사각 행렬을 사용합니다. 수학을 잊으셨다면, 두 행렬 A, B의 원소 a_ij, b_ij(0≤i,j<N)에 대해 곱은 다음과 같습니다.

이를 직관적으로 C로 구현하면 다음과 같을 수 있습니다:

for (i = 0; i < N; ++i)
    for (j = 0; j < N; ++j)
      for (k = 0; k < N; ++k)
        res[i][j] += mul1[i][k] * mul2[k][j];

두 입력 행렬은 mul1과 mul2입니다. 결과 행렬 res는 모두 0으로 초기화되어 있다고 가정합니다. 깔끔하고 단순한 구현입니다. 하지만 그림 6.1에서 설명한 문제를 그대로 갖고 있음은 명백합니다. mul1은 순차적으로 접근되지만, 안쪽 루프는 mul2의 행 번호를 진행시킵니다. 즉, mul1은 그림 6.1의 왼쪽 행렬처럼, mul2는 오른쪽 행렬처럼 다뤄집니다. 좋을 리 없습니다.

쉽게 시도할 수 있는 해결책이 하나 있습니다. 각 행렬의 원소가 여러 번 접근되므로, 두 번째 행렬 mul2를 사용 전에 재배열(수학적으로는 "전치")하는 것이 가치가 있을 수 있습니다.

전치(전통적으로 위첨자 ‘T’로 표시) 후에는 두 행렬을 모두 순차적으로 순회합니다. C 코드 관점에서 보면 다음과 같습니다:

double tmp[N][N];
  for (i = 0; i < N; ++i)
    for (j = 0; j < N; ++j)
      tmp[i][j] = mul2[j][i];
  for (i = 0; i < N; ++i)
    for (j = 0; j < N; ++j)
      for (k = 0; k < N; ++k)
        res[i][j] += mul1[i][k] * tmp[j][k];

전치된 행렬을 담을 임시 변수를 만듭니다. 더 많은 메모리를 건드려야 하지만, 그 비용은(현대 하드웨어에서는 최소한) 열당 1000번의 비순차 접근이 더 비싸므로 만회될 것입니다. 성능 테스트를 해 봅니다. 2666MHz의 Intel Core 2에서의 결과(클록 사이클)는 다음과 같습니다:

	원본	전치
사이클	16,765,297,870	3,922,373,010
상대값	100%	23.4%

행렬을 단순히 변환하는 것만으로도 76.6%의 속도 향상을 얻을 수 있습니다! 복사 연산의 비용은 완전히 만회됩니다. 1000번의 비순차 접근은 정말 아픕니다.

다음 질문은 이것이 최선인가 하는 것입니다. 복사 없이도 가능한 대안이 필요합니다. 항상 복사를 수행할 여유가 있는 것은 아닙니다. 행렬이 너무 크거나 사용 가능한 메모리가 너무 작을 수 있습니다.

대안 구현을 찾는 작업은 관련 수학과 원래 구현이 수행하는 연산을 자세히 살펴보는 것에서 시작해야 합니다. 사소한 수학적 사실로, 결과 행렬의 각 원소에 대한 덧셈의 순서는, 각 피가산이 정확히 한 번씩 등장하기만 하면 무관하다는 것을 알 수 있습니다. {여기서는 오버플로, 언더플로, 반올림의 발생 등으로 결과가 달라질 수 있는 산술 효과는 무시합니다.} 이 이해를 통해 원래 코드의 안쪽 루프에서 수행되는 덧셈의 순서를 재배열하는 해결책을 찾아볼 수 있습니다.

이제 원본 코드 실행에서의 실제 문제를 살펴봅시다. mul2의 원소 접근 순서는 (0,0), (1,0), …, (N-1,0), (0,1), (1,1), …입니다. (0,0)과 (0,1)은 같은 캐시 라인에 있지만, 안쪽 루프가 한 바퀴 도는 동안 그 캐시 라인은 오래전에 축출되었습니다. 이 예에서는, 안쪽 루프의 각 회전마다 세 행렬 각각에 대해 1000개의 캐시 라인이 필요합니다(Core 2 프로세서의 캐시 라인 64바이트). 이는 L1d 32k를 훨씬 넘습니다.

그렇다면, 안쪽 루프를 실행하면서 중간 루프의 두 반복을 함께 처리하면 어떨까요? 이 경우 L1d에 존재함이 보장된 캐시 라인에서 double 값 2개를 사용합니다. L1d 미스율이 절반으로 줄어듭니다. 확실한 개선이지만, 캐시 라인 크기에 따라 여전히 최선이 아닐 수 있습니다. Core 2 프로세서의 L1d 캐시 라인 크기는 64바이트입니다. 실제 값은 런타임에 다음으로 질의할 수 있습니다:

sysconf (_SC_LEVEL1_DCACHE_LINESIZE)

또는 커맨드라인에서 getconf 유틸리티를 사용하여, 프로그램을 특정 캐시 라인 크기에 맞춰 컴파일할 수 있습니다. sizeof(double)이 8이므로, 캐시 라인을 완전히 활용하려면 중간 루프를 8번 언롤해야 합니다. 더 나아가, res 행렬도 효과적으로 사용하기 위해(즉, 8개의 결과를 동시에 쓰기 위해) 바깥 루프도 8번 언롤해야 합니다. 여기서는 캐시 라인 크기를 64로 가정하지만, 32바이트 캐시 라인을 가진 시스템에서도 두 캐시 라인은 100% 활용되므로 코드가 잘 동작합니다. 일반적으로는 getconf 유틸리티를 사용해 컴파일 시 캐시 라인 크기를 하드코딩하는 것이 가장 좋습니다:

gcc -DCLS=$(getconf LEVEL1_DCACHE_LINESIZE) ...

바이너리를 범용으로 만들려면 가장 큰 캐시 라인 크기를 사용해야 합니다. 매우 작은 L1d에서는 모든 데이터가 캐시에 맞지 않을 수 있지만, 그런 프로세서는 애초에 고성능 프로그램에 적합하지 않습니다. 결과적으로 다음과 같은 코드가 됩니다:

#define SM (CLS / sizeof (double))

  for (i = 0; i < N; i += SM)
      for (j = 0; j < N; j += SM)
          for (k = 0; k < N; k += SM)
              for (i2 = 0, rres = &res[i][j],
                   rmul1 = &mul1[i][k]; i2 < SM;
                   ++i2, rres += N, rmul1 += N)
                  for (k2 = 0, rmul2 = &mul2[k][j];
                       k2 < SM; ++k2, rmul2 += N)
                      for (j2 = 0; j2 < SM; ++j2)
                          rres[j2] += rmul1[k2] * rmul2[j2];

보기엔 꽤 무섭습니다. 어느 정도는 트릭을 포함하기 때문입니다. 가장 눈에 띄는 변화는 이제 여섯 개의 중첩 루프가 있다는 점입니다. 바깥쪽 루프는 SM 간격(캐시 라인 크기를 sizeof(double)로 나눈 값)으로 반복합니다. 이는 곱셈을 더 작은 문제들로 나누어, 캐시 지역성을 더 살릴 수 있게 합니다. 안쪽 루프는 바깥 루프에서 누락된 인덱스들을 반복합니다. 역시 세 개의 루프입니다. 여기서 유일한 트릭은 k2와 j2 루프의 순서가 다르다는 것입니다. 실제 계산에서 k2에만 의존하는 식은 하나지만, j2에 의존하는 식은 둘이기 때문입니다.

나머지 복잡성은 gcc가 배열 인덱싱 최적화에 썩 영리하지 않다는 사실에서 옵니다. rres, rmul1, rmul2와 같은 추가 변수를 도입해, 공통식을 안쪽 루프에서 가능한 한 바깥으로 끌어내려 코드가 최적화됩니다. C/C++의 기본 별칭 규칙은 컴파일러가 이러한 결정을 내리는 데 도움을 주지 않습니다(restrict를 쓰지 않는 한, 모든 포인터 접근은 잠재적 별칭 소스입니다). 이 때문에 수치 계산에는 아직도 Fortran이 선호됩니다. 더 빠른 코드를 작성하기가 쉽기 때문입니다. {이론적으로는 C 언어의 1999년 개정에 도입된 restrict 키워드가 문제를 풀어야 하지만, 컴파일러가 아직 따라잡지 못했습니다. 주된 이유는, 너무 많은 잘못된 코드가 존재하여, 컴파일러를 오도하고 잘못된 오브젝트 코드를 생성하게 만들 수 있기 때문입니다.}

이 모든 작업의 보상은 표 6.2에서 볼 수 있습니다.

	원본	전치	서브-매트릭스	벡터화
사이클	16,765,297,870	3,922,373,010	2,895,041,480	1,588,711,750
상대값	100%	23.4%	17.3%	9.47%

표 6.2: 행렬 곱셈 소요 시간

복사를 피함으로써 6.1%의 성능을 추가로 얻습니다. 게다가 추가 메모리도 필요 없습니다. 입력 행렬은, 결과 행렬이 메모리에 맞기만 하면, 임의로 커도 됩니다. 이는 일반 해법에 필요한 조건이며, 이제 달성했습니다.

표 6.2에는 아직 설명하지 않은 열이 하나 더 있습니다. 대부분의 최신 프로세서는 요즘 벡터화를 위한 특수 지원을 포함합니다. 흔히 멀티미디어 확장으로 상표화된 이러한 특수 명령은 한 번에 2, 4, 8개 이상의 값을 처리할 수 있습니다. 보통 SIMD(Single Instruction, Multiple Data) 연산이며, 데이터를 적절한 형태로 만들기 위한 다른 연산으로 보강됩니다. Intel 프로세서가 제공하는 SSE2 명령은 한 번의 연산에서 double 값 2개를 처리할 수 있습니다. 명령어 참조 매뉴얼에는 SSE2 명령에 접근하는 인트린식 함수가 나열되어 있습니다. 이 인트린식을 사용하면 프로그램은 원본 대비 7.3%(상대값) 더 빨라집니다. 결과적으로, 원래 코드 시간의 10%에 실행되는 프로그램이 됩니다. 익숙한 수치로 번역하면 318 MFLOPS에서 3.35 GFLOPS로 올랐습니다. 여기서는 메모리 효과에만 관심이 있으므로, 프로그램 코드는 9.1절로 미룹니다.

마지막 버전의 코드에서도 mul2에 일부 캐시 문제가 남아 있고; 프리페치는 여전히 잘 듣지 않습니다. 하지만 전치를 하지 않고는 해결할 수 없습니다. 언젠가 캐시 프리페치 유닛이 패턴을 인식할 정도로 더 똑똑해질지도 모릅니다. 그때는 추가 변경이 필요 없을 것입니다. 그래도 단일 스레드 코드로 2.66GHz 프로세서에서 3.19 GFLOPS면 나쁘지 않습니다.

행렬 곱셈 예에서 최적화한 것은 로드된 캐시 라인의 사용입니다. 캐시 라인의 모든 바이트가 언제나 사용됩니다. 우리는 캐시 라인이 밀려나기 전에 사용되도록 보장했을 뿐입니다. 이는 분명 특수한 경우입니다.

실제로는 하나 이상의 캐시 라인을 채우는 데이터 구조에서, 프로그램이 한 번에 소수의 멤버만 사용하는 경우가 훨씬 더 흔합니다. 그림 3.11에서, 배열 요소 중 사용되지 않는 데이터가 증가하면 어떤 일이 벌어지는지 이미 보았습니다.

그림 6.2: 여러 캐시 라인에 걸쳐 퍼짐

그림 6.2는 이제 익숙한 프로그램으로 수행한 또 다른 벤치마크 결과를 보여줍니다. 이번에는 같은 리스트 요소의 두 값을 더합니다. 한 경우에는 두 요소가 같은 캐시 라인에 있고, 다른 경우에는 하나는 리스트 요소의 첫 캐시 라인에, 다른 하나는 마지막 캐시 라인에 있습니다. 그래프는 우리가 겪는 감속을 보여줍니다.

예상대로, 워킹셋이 L1d에 맞는 모든 경우에는 부정적 효과가 없습니다. L1d가 더 이상 충분하지 않으면, 하나 대신 두 개의 캐시 라인을 사용하는 탓에 페널티를 치르게 됩니다. 빨간 선은 리스트가 메모리에 순차적으로 배치된 경우의 데이터를 보여줍니다. 익숙한 두 단계 패턴이 보입니다: L2 캐시가 충분한 경우 약 17%의 페널티, 메인 메모리를 사용해야 하는 경우 약 27%의 페널티입니다.

무작위 메모리 접근의 경우 상대 데이터는 조금 다릅니다. L2에 맞는 워킹셋에서 감속은 25~35% 사이입니다. 그 이상에서는 약 10%로 내려갑니다. 이는 페널티가 작아져서가 아니라, 실제 메모리 접근 비용이 불균형적으로 더 비싸지기 때문입니다. 데이터는 어떤 경우에는 요소들 사이의 거리도 중요함을 보여줍니다. Random 4 CLs 곡선은 첫 번째와 네 번째 캐시 라인을 사용하기 때문에 더 높은 페널티를 보입니다.

데이터 구조의 레이아웃을 캐시 라인과 비교해 쉽게 보는 방법은 pahole 프로그램을 사용하는 것입니다([dwarves] 참고). 이 프로그램은 바이너리에 정의된 데이터 구조를 검사합니다. 다음 정의를 포함하는 프로그램을 보겠습니다:

struct foo {
  int a;
  long fill[7];
  int b;
};

64비트 머신에서 컴파일하면, pahole의 출력에는(다른 정보와 함께) 그림 6.3에 보인 정보가 포함됩니다.

struct foo {
        int                        a;                    /*     0     4 */

        /* XXX 4 bytes hole, try to pack */

        long int                   fill[7];              /*     8    56 */
        /* --- cacheline 1 boundary (64 bytes) --- */
        int                        b;                    /*    64     4 */
}; /* size: 72, cachelines: 2 */
   /* sum members: 64, holes: 1, sum holes: 4 */
   /* padding: 4 */
   /* last cacheline: 8 bytes */

그림 6.3: pahole 실행 출력

이 출력은 많은 것을 알려줍니다. 우선, 이 데이터 구조가 여러 캐시 라인을 사용함을 보여줍니다. 도구는 현재 사용 중인 프로세서의 캐시 라인 크기를 가정하지만, 이 값은 커맨드라인 파라미터로 덮어쓸 수 있습니다. 특히 구조체 크기가 캐시 라인 경계보다 턱걸이로 큰 경우, 그리고 이 타입의 객체가 많이 할당되는 경우에는 구조체를 압축할 방법을 찾는 것이 타당합니다. 몇몇 요소는 더 작은 타입을 써도 될지도 모르고, 몇몇 필드는 사실 플래그라서 개별 비트로 표현할 수 있을지도 모릅니다.

이 예에서는 압축이 쉽고, 프로그램이 힌트를 줍니다. 출력은 첫 번째 요소 뒤에 4바이트의 구멍(hole)이 있음을 보여줍니다. 이 구멍은 구조체와 fill 요소의 정렬 요구 때문에 생깁니다. 크기가 4바이트인(b 라인의 끝의 4가 그것을 뜻합니다) 요소 b가 그 틈에 정확히 맞습니다. 결과적으로 구멍이 사라지고 데이터 구조가 하나의 캐시 라인에 맞게 됩니다. pahole 도구는 이 최적화를 자체 수행할 수 있습니다. —reorganize 파라미터를 사용하고 구조체 이름을 커맨드라인 끝에 추가하면, 도구의 출력은 최적화된 구조체와 캐시 라인 사용을 보여줍니다. 요소 이동으로 구멍을 메우는 것 외에도, 도구는 비트필드를 최적화하고 패딩과 구멍을 결합할 수 있습니다. 자세한 내용은 [dwarves]를 보세요.

맨 끝 요소에 딱 맞는 크기의 구멍이 있는 것은 물론 이상적 상황입니다. 이 최적화가 유용하려면 객체 자체가 캐시 라인에 정렬되어야 합니다. 이에 대해서는 곧 다룹니다.

pahole 출력은 또한, 함께 사용되는 요소들이 함께 저장되도록 요소를 재배열해야 하는지도 더 쉽게 판단할 수 있게 해줍니다. pahole 도구를 사용하면, 어떤 요소들이 같은 캐시 라인에 있는지, 그렇지 않다면 그것을 달성하기 위해 요소들을 어떻게 뒤섞어야 하는지를 쉽게 알 수 있습니다. 자동 과정은 아니지만, 도구가 상당히 도와줍니다.

개별 구조체 요소의 위치와 사용 방식도 중요합니다. 3.5.2절에서 보았듯이, 캐시 라인 늦은 부분에 임계 단어(critical word)가 있는 코드는 성능이 나쁩니다. 이는 프로그래머가 다음 두 규칙을 항상 따라야 함을 의미합니다:

구조체에서 임계 단어가 될 가능성이 가장 높은 요소를 구조체의 시작 부분으로 옮겨라.
데이터 구조를 접근할 때, 접근 순서가 상황에 의해 결정되지 않는 한, 구조체에 정의된 순서대로 요소를 접근하라.

작은 구조체의 경우, 요소들이 접근될 가능성이 높은 순서로 요소를 배치해야 합니다. 이는 구멍 메우기 같은 다른 최적화를 적용할 수 있도록 유연하게 처리되어야 합니다. 더 큰 데이터 구조의 경우, 캐시 라인 크기의 각 블록이 이 규칙을 따르도록 배치해야 합니다.

하지만 객체 자체가 정렬되지 않았다면, 요소 재배열은 시간 낭비입니다. 객체의 정렬은 데이터 타입의 정렬 요구에 의해 결정됩니다. 각 기본 타입은 자체 정렬 요구가 있습니다. 구조체 타입의 경우, 그 요소들 중 가장 큰 정렬 요구가 구조체의 정렬을 결정합니다. 이는 거의 항상 캐시 라인 크기보다 작습니다. 즉, 구조체의 멤버들을 같은 캐시 라인에 맞춰 배치하더라도, 할당된 객체가 캐시 라인 크기에 맞춰 정렬되지 않을 수 있습니다. 객체가 설계된 레이아웃대로 정렬되도록 보장하는 방법은 두 가지입니다:

객체를 명시적 정렬 요구와 함께 할당한다. 동적 할당에서 malloc은, 가장 요구가 큰 표준 타입(보통 long double)의 정렬에만 맞춰 할당합니다. 하지만 posix_memalign을 사용해 더 높은 정렬을 요청할 수 있습니다.

#include <stdlib.h>
int posix_memalign(void **memptr,
                   size_t align,
                   size_t size);

이 함수는 새로 할당된 메모리의 포인터를 memptr가 가리키는 포인터 변수에 저장합니다. 메모리 블록은 size 바이트 크기이며 align 바이트 경계에 정렬됩니다.

컴파일러가 할당한 객체(.data, .bss 등 또는 스택)에 대해서는 변수 속성을 사용할 수 있습니다:

struct strtype variable
     __attribute((aligned(64)));

이 경우 strtype 구조체의 정렬 요구와 무관하게, 해당 변수는 64바이트 경계에 정렬됩니다. 전역 변수와 자동 변수 모두에 적용됩니다.

이 방법은 배열에는 통하지 않습니다. 각 배열 요소의 크기가 정렬 값의 배수가 아닌 한, 배열의 첫 번째 요소만 정렬됩니다. 또한 모든 변수마다 적절히 주석을 달아야 합니다. posix_memalign의 사용도 완전히 공짜는 아닌데, 정렬 요구 때문에 조각화 및/또는 더 많은 메모리 소비를 초래하는 경우가 흔하기 때문입니다.

타입 속성으로 타입의 정렬 요구를 변경한다:

struct strtype {
    ...members...
  } __attribute((aligned(64)));

이렇게 하면, 배열을 포함해 해당 타입의 모든 객체가 적절히 정렬됩니다. 다만 동적으로 할당되는 객체에 대해서는 프로그래머가 적절한 정렬을 요청해야 합니다. 여기서도 posix_memalign을 사용해야 합니다. gcc가 제공하는 alignof 연산자를 사용해 그 값을 posix_memalign의 두 번째 인자로 넘기는 것은 어렵지 않습니다.

앞서 언급한 멀티미디어 확장은 거의 항상 메모리 접근의 정렬을 요구합니다. 예를 들어 16바이트 메모리 접근의 경우, 주소는 16바이트 정렬이어야 합니다. x86 및 x86-64 프로세서에는 정렬되지 않은 접근을 처리하는 특수 변형이 있지만, 더 느립니다. 이런 강한 정렬 요구는 대부분의 RISC 아키텍처에서는 새로운 일이 아닙니다. 이들은 모든 메모리 접근에 완전한 정렬을 요구합니다. 어떤 아키텍처는 정렬되지 않은 접근을 지원하더라도, 특히 잘못된 정렬이 로드/스토어가 하나 대신 두 개의 캐시 라인을 사용하도록 만드는 경우에는 적절한 정렬을 사용하는 것보다 느릴 때가 있습니다.

그림 6.4: 비정렬 접근의 오버헤드

그림 6.4는 비정렬 메모리 접근의 효과를 보여줍니다. 이제 익숙한 테스트(메모리를 순차/무작위로 방문하면서 데이터 요소를 증가시키는)를, 정렬된 리스트 요소와 고의로 비정렬된 요소에 대해 한 번씩 측정합니다. 그래프는 비정렬 접근 때문에 프로그램이 겪는 감속을 보여줍니다. 무작위 경우보다 순차 접근에서 효과가 더 극적입니다. 후자의 경우에는, 일반적으로 더 높은 메모리 접근 비용이 비정렬 접근의 비용을 일부 가리기 때문입니다. 순차 경우, L2 캐시에 맞는 워킹셋 크기에서는 감속이 약 300%입니다. 이는 L1 캐시의 유효성이 낮아진 것으로 설명할 수 있습니다. 일부 증가 연산이 이제 두 개의 캐시 라인을 건드리며, 리스트 요소에 대해 작업을 시작할 때 두 개의 캐시 라인을 읽어야 하는 경우가 잦아졌기 때문입니다. L1과 L2 사이의 연결이 과도하게 혼잡해진 것입니다.

아주 큰 워킹셋 크기의 경우에도 비정렬 접근의 효과는 여전히 20~30%입니다—정렬 접근 시간도 이미 길다는 점을 생각하면 큰 수치입니다. 이 그래프는 정렬을 진지하게 고려해야 함을 보여줍니다. 아키텍처가 비정렬 접근을 지원하더라도, 이를 "정렬 접근만큼 좋다"고 받아들여서는 안 됩니다.

이러한 정렬 요구사항에는 파급 효과가 있습니다. 자동 변수에 정렬 요구가 있으면, 컴파일러는 모든 상황에서 그것이 충족되도록 보장해야 합니다. 이는 쉽지 않습니다. 컴파일러가 호출 지점과 스택 처리 방식을 제어할 수 없기 때문입니다. 이 문제를 처리하는 방법은 두 가지입니다:

생성된 코드가 스택을 능동적으로 정렬하여, 필요시 틈(gap)을 삽입한다. 정렬을 확인하고, 정렬을 만들고, 나중에 정렬을 되돌리는 코드가 필요합니다.
모든 호출자가 스택 정렬을 유지하도록 요구한다.

일반적으로 쓰이는 ABI는 모두 두 번째 경로를 따릅니다. 호출자가 이 규칙을 위반했고 피호출자에게 정렬이 필요하면, 프로그램은 실패할 가능성이 큽니다. 정렬을 유지하는 것도 공짜는 아닙니다.

한 함수에서 사용하는 스택 프레임의 크기가 정렬 배수일 필요는 없습니다. 이는 그 스택 프레임에서 다른 함수를 호출할 때 패딩이 필요함을 의미합니다. 큰 차이는 스택 프레임의 크기가 대부분의 경우 컴파일러에 알려져 있고, 따라서 해당 스택 프레임에서 호출되는 모든 함수에 대해 정렬을 보장하도록 스택 포인터를 어떻게 조정할지 컴파일러가 알 수 있다는 점입니다. 실제로 대부분의 컴파일러는 스택 프레임 크기를 단순히 올림(라운드업)하여 끝냅니다.

이 간단한 정렬 방식은 가변 길이 배열(VLA)이나 alloca를 사용할 때는 불가능합니다. 이 경우에는 스택 프레임의 총 크기가 런타임에만 알려집니다. 이 경우 능동적인 정렬 제어가 필요할 수 있으며, 생성된 코드가(약간) 느려집니다.

일부 아키텍처에서는 멀티미디어 확장만 엄격한 정렬을 요구합니다. 해당 아키텍처의 스택은 항상 일반 데이터 타입에 대해 최소한으로 정렬됩니다(보통 32/64비트 아키텍처에서 각각 4/8바이트 정렬). 이런 시스템에서는 정렬을 강제하면 불필요한 비용이 듭니다. 즉, 해당 경우, 정렬에 의존하지 않는다는 것을 알고 있다면 엄격한 정렬 요구를 제거하는 것이 좋을 수 있습니다. 꼬리 함수(다른 함수를 호출하지 않는 함수)로서 멀티미디어 연산을 하지 않는 함수는 정렬을 필요로 하지 않습니다. 정렬이 필요 없는 함수만을 호출하는 함수도 마찬가지입니다. 충분히 큰 함수 집합을 식별할 수 있다면, 프로그램은 정렬 요구를 완화할 수 있습니다. x86 바이너리의 경우 gcc는 완화된 스택 정렬 요구를 지원합니다:

-mpreferred-stack-boundary=2

이 옵션에 값 N을 주면, 스택 정렬 요구가 2^N 바이트로 설정됩니다. 따라서 값 2를 사용하면, 스택 정렬 요구는 기본값(16바이트)에서 4바이트로 줄어듭니다. 대부분의 경우, 일반적인 스택 push/pop이 어차피 4바이트 경계에서 동작하므로 추가 정렬 작업이 필요 없다는 뜻입니다. 이 머신 종속 옵션은 코드 크기를 줄이고 실행 속도를 개선하는 데 도움이 될 수 있습니다. 하지만 많은 다른 아키텍처에는 적용할 수 없습니다. x86-64의 경우에도 일반적으로 적용할 수 없습니다. x86-64 ABI는 부동소수점 파라미터를 SSE 레지스터로 전달하도록 요구하며, SSE 명령은 완전한 16바이트 정렬이 필요하기 때문입니다. 그럼에도 이 옵션을 사용할 수 있는 경우에는 눈에 띄는 차이를 낼 수 있습니다.

구조체 요소의 효율적 배치와 정렬만이 캐시 효율에 영향을 미치는 유일한 요소는 아닙니다. 구조체 배열을 사용하는 경우, 전체 구조 정의가 성능에 영향을 줍니다. 그림 3.11의 결과를 기억하십시오: 그 경우 배열 요소의 사용되지 않는 데이터가 증가했습니다. 결과적으로 프리페치의 효율이 점점 떨어지고, 데이터 셋이 커질수록 프로그램의 효율이 낮아졌습니다.

큰 워킹셋에서는 사용 가능한 캐시를 최대한 잘 사용하는 것이 중요합니다. 이를 달성하려면 데이터 구조를 재배열해야 할 수도 있습니다. 프로그래머에게는 개념적으로 함께 속하는 데이터를 하나의 구조체에 모두 넣는 것이 더 쉽지만, 최대 성능 측면에서는 최선이 아닐 수 있습니다. 다음과 같은 데이터 구조를 가정해 봅시다:

struct order {
    double price;
    bool paid;
    const char *buyer[5];
    long buyer_id;
  };

이 기록이 큰 배열에 저장되어 있고, 자주 실행되는 작업이 미지급 청구서의 예상 납부액을 합산한다고 가정해 봅시다. 이 시나리오에서는 buyer와 buyer_id 필드의 메모리가 캐시에 불필요하게 로드됩니다. 그림 3.11의 데이터로 보건대, 프로그램은 가능한 것보다 최대 5배 느리게 수행됩니다.

order 데이터 구조를 둘로 나누어, 처음 두 필드를 한 구조체에, 다른 필드를 다른 곳에 저장하는 것이 훨씬 낫습니다. 이 변경은 프로그램의 복잡성을 확실히 증가시키지만, 성능 향상이 이 비용을 정당화할 수 있습니다.

마지막으로, 다른 캐시에도 적용되긴 하지만 주로 L1d 접근에서 체감되는 또 다른 캐시 사용 최적화를 고려합시다. 그림 3.8에서 보았듯이, 캐시의 연관도가 높아지면 일반적인 동작에서 이점이 있습니다. 캐시가 클수록, 보통 연관도도 높습니다. L1d 캐시는 완전 연관으로 만들기에는 너무 크지만, L2 캐시만큼의 연관도를 갖기에는 충분히 크지 않습니다. 워킹셋의 많은 객체가 같은 캐시 세트에 떨어지는 경우 문제일 수 있습니다. 세트 남용으로 축출이 발생하면, 캐시의 많은 부분이 미사용임에도 프로그램이 지연을 겪을 수 있습니다. 이러한 캐시 미스는 때때로 충돌 미스(conflict miss)라고 합니다. L1d 주소 지정은 가상 주소를 사용하므로, 이는 프로그래머가 제어할 수 있는 영역입니다. 함께 사용하는 변수를 함께 저장하면, 같은 세트에 떨어질 가능성을 최소화할 수 있습니다. 그림 6.5는 이 문제가 얼마나 빨리 닥칠 수 있는지 보여줍니다.

그림 6.5: 캐시 연관도 효과

그림에서, 이제 익숙한 Follow {테스트는 32비트 머신에서 수행되었고, 따라서 NPAD=15는 리스트 요소당 하나의 64바이트 캐시 라인을 의미합니다.} with NPAD=15 테스트를 특별한 설정으로 측정했습니다. X축은 두 리스트 요소 사이의 거리(빈 리스트 요소 개수)입니다. 즉, 거리 2는 다음 요소의 주소가 이전 요소의 128바이트 뒤라는 뜻입니다. 모든 요소는 동일한 간격으로 가상 주소 공간에 배치됩니다. Y축은 리스트의 전체 길이입니다. 요소는 1~16개만 사용되며, 이는 총 워킹셋 크기가 64~1024바이트라는 뜻입니다. z축은 리스트 요소 하나를 순회하는 데 필요한 평균 사이클 수를 보여줍니다.

그림의 결과는 놀랍지 않습니다. 요소가 적으면 모든 데이터가 L1d에 맞고, 리스트 요소당 접근 시간은 3사이클입니다. 리스트 요소 배치의 거의 모든 경우도 마찬가지입니다. 가상 주소가 L1d 슬롯에 거의 충돌 없이 잘 매핑됩니다. 그래프에는 두 개의 특별한 거리 값이 있습니다. 거리 값이 4096바이트의 배수(즉, 요소 64개 간격)이고 리스트 길이가 8을 넘으면, 리스트 요소당 평균 사이클 수가 급격히 증가합니다. 이러한 상황에서는 모든 엔트리가 같은 세트에 있고, 리스트 길이가 연관도보다 커지면, L1d에서 엔트리가 축출되어 다음 라운드에서 L2에서 다시 읽어야 합니다. 이는 리스트 요소당 약 10사이클의 비용을 초래합니다.

이 그래프를 통해 사용된 프로세서의 L1d 캐시가 연관도 8, 총 크기 32kB임을 알 수 있습니다. 즉, 필요하다면 이 테스트로 이러한 값을 추정할 수 있습니다. 같은 효과를 L2 캐시에 대해서도 측정할 수 있지만, L2 캐시는 물리 주소를 사용하고 더 크므로 더 복잡합니다.

프로그래머에게 이는 연관도가 주의할 가치가 있음을 의미합니다. 2의 거듭제곱 경계에 데이터를 배치하는 일은 현실 세계에서 충분히 자주 일어납니다. 하지만 이는 바로 위의 효과와 성능 저하로 쉽게 이어질 수 있는 상황입니다. 비정렬 접근은 충돌 미스의 확률을 높일 수 있습니다. 각 접근이 하나 대신 두 개의 캐시 라인을 요구할 수 있기 때문입니다.

그림 6.6: AMD에서의 L1d 뱅크 주소

이 최적화를 수행한다면, 관련된 최적화를 하나 더 할 수 있습니다. AMD의 프로세서(최소한)는 L1d를 여러 개의 개별 뱅크로 구현합니다. L1d는 사이클당 두 데이터 워드를 받을 수 있지만, 두 워드가 서로 다른 뱅크에 있거나 같은 인덱스의 같은 뱅크에 있어야 합니다. 뱅크 주소는 그림 6.6에 보인 것처럼 가상 주소의 하위 비트에 인코딩됩니다. 함께 사용하는 변수를 함께 저장하면 서로 다른 뱅크(또는 같은 인덱스의 같은 뱅크)에 있을 가능성이 높아집니다.

6.2.2 L1 명령 캐시 접근 최적화

좋은 L1i 사용을 위한 코드 준비는 좋은 L1d 사용을 위한 기법과 유사합니다. 문제는, 어셈블리를 쓰지 않는 한, 프로그래머가 보통 L1i 사용 방식에 직접 영향을 미치지 않는다는 점입니다. 컴파일러를 사용하는 경우, 프로그래머는 컴파일러가 더 나은 코드 레이아웃을 만들도록 유도하여 간접적으로 L1i 사용을 좌우할 수 있습니다.

코드는 점프 사이에서는 선형이라는 이점이 있습니다. 이 기간 동안 프로세서는 메모리를 효율적으로 프리페치할 수 있습니다. 점프는 이 멋진 그림을 깨뜨립니다. 왜냐하면

점프 대상이 정적으로 결정되지 않을 수 있고;
설령 정적이라 해도, 메모리 페치가 모든 캐시를 놓치면 오래 걸릴 수 있기 때문입니다.

이러한 문제는 실행에서 정지(stall)를 만들며, 성능에 심각한 영향을 줄 수 있습니다. 이것이 오늘날 프로세서가 분기 예측(BP)에 크게 투자하는 이유입니다. 고도로 특화된 BP 유닛은 가능한 한 점프보다 앞서 점프 대상을 결정하여, 프로세서가 새 위치의 명령을 캐시에 적재하기를 시작할 수 있도록 시도합니다. 그들은 정적/동적 규칙을 사용하며, 실행 패턴을 파악하는 데 점점 능숙해지고 있습니다.

명령 캐시에 데이터를 최대한 빨리 넣는 것은 더 중요합니다. 3.1절에서 언급했듯이, 명령은 실행 전에 디코드되어야 하고, 이를 빠르게 하기 위해(특히 x86/x86-64에서 중요) 명령은 실제로 디코드된 형태로 캐시됩니다. 메모리에서 읽은 바이트/워드 형태가 아닙니다.

최선의 L1i 사용을 달성하기 위해, 프로그래머는 적어도 다음과 같은 코드 생성 측면에 주목해야 합니다:

코드 풋프린트를 가능한 한 줄여라. 이는 루프 언롤링, 인라이닝 같은 최적화와 균형을 맞춰야 한다.
코드 실행은 거품(bubble) 없이 선형적이어야 한다. {버블은 프로세서 파이프라인에서, 실행이 자원을 기다리느라 비는 구멍을 도식적으로 표현한 것입니다. 자세한 내용은 프로세서 설계 문헌을 참고하세요.}
의미가 있을 때 코드를 정렬하라.

이제 이러한 측면에 맞게 프로그램을 최적화하는 데 도움을 주는 몇 가지 컴파일러 기법을 살펴봅니다.

컴파일러에는 최적화 레벨을 켜는 옵션이 있으며, 특정 최적화를 개별적으로 켤 수도 있습니다. 높은 최적화 레벨(-O2, -O3; gcc)의 많은 최적화는 루프 최적화와 함수 인라이닝을 다룹니다. 일반적으로 이는 좋은 최적화입니다. 이렇게 최적화된 코드가 프로그램 총 실행 시간의 상당 부분을 차지한다면, 전체 성능이 향상될 수 있습니다. 특히 함수 인라이닝은 컴파일러가 한 번에 더 큰 코드 조각을 최적화할 수 있게 해주며, 이는 다시 프로세서의 파이프라인 아키텍처를 더 잘 활용하는 기계어 생성을 가능하게 합니다. 죽은 코드 제거, 값 범위 전파 등으로 코드와 데이터 모두의 처리가, 프로그램의 더 큰 부분을 하나의 단위로 고려할 수 있을 때 더 잘 동작합니다.

더 큰 코드 크기는 L1i(그리고 L2 및 더 높은 레벨) 캐시에 더 큰 압력을 가합니다. 이는 성능 저하로 이어질 수 있습니다. 작은 코드가 더 빠를 수 있습니다. 다행히 gcc에는 이를 지정하는 최적화 옵션이 있습니다. -Os를 사용하면 컴파일러는 코드 크기를 최적화합니다. 코드 크기를 증가시키는 것으로 알려진 최적화를 비활성화합니다. 이 옵션은 종종 놀라운 결과를 냅니다. 특히 컴파일러가 루프 언롤링과 인라이닝의 이점을 제대로 살리지 못하는 경우에 큰 승리입니다.

인라이닝은 개별적으로도 제어할 수 있습니다. 컴파일러에는 인라이닝을 유도하는 휴리스틱과 제한이 있으며, 이 제한은 프로그래머가 제어할 수 있습니다. -finline-limit 옵션은 함수가 인라이닝하기에 너무 큰 것으로 간주되는 크기를 지정합니다. 함수가 여러 곳에서 호출되면, 모든 곳에 인라인하면 코드 크기가 폭증합니다. 하지만 더 있습니다. 함수 inlcand가 두 함수 f1, f2에서 호출된다고 가정합시다. f1과 f2는 자신이 연달아 호출됩니다.

인라이닝 있을 때		인라이닝 없을 때
start f1 code f1 inlined inlcand more code f1 end f1 start f2 code f2 inlined inlcand more code f2 end f2		start inlcand code inlcand end inlcand start f1 code f1 end f1 start f2 code f2 end f2

표 6.3: 인라이닝 vs 비인라이닝

표 6.3은 인라이닝 없음과 두 함수에 인라이닝된 경우 생성된 코드가 어떻게 보일 수 있는지를 보여줍니다. inlcand가 f1과 f2 모두에 인라인되면, 생성된 코드의 총 크기는:

size f1 + size f2 + 2 × size inlcand

인라이닝이 없으면, 총 크기는 size inlcand만큼 더 작습니다. 이는 f1과 f2가 연달아 호출될 때 L1i와 L2 캐시에 추가로 필요한 양입니다. 게다가, inlcand가 인라인되지 않으면, 그 코드는 여전히 L1i에 있을 수 있고 다시 디코드할 필요가 없습니다. 게다가, 분기 예측 유닛은 이미 코드를 보았으므로 점프를 더 잘 예측할 수 있습니다. 컴파일러의 인라인 함수 크기 상한이 프로그램에 최선이 아니라면, 낮춰야 합니다.

하지만 인라이닝이 항상 말이 되는 경우도 있습니다. 함수가 한 번만 호출된다면 인라인해도 됩니다. 이렇게 하면 컴파일러에게 더 많은 최적화 기회를 제공합니다(예: 값 범위 전파는 코드를 크게 개선할 수 있습니다). 하지만 인라이닝은 선택 상한에 의해 좌절될 수 있습니다. gcc에는 이런 경우 항상 인라인되도록 지정하는 함수 속성 옵션이 있습니다. always_inline 함수 속성을 추가하면, 컴파일러는 이름 그대로 하도록 지시됩니다.

반대로, 함수가 충분히 작더라도 결코 인라인되지 않도록 해야 할 경우 noinline 함수 속성을 사용할 수 있습니다. 이 속성은 여러 장소에서 자주 호출되는 작은 함수에도 의미가 있습니다. L1i 내용을 재사용할 수 있고 전체 풋프린트를 줄일 수 있다면, 추가 함수 호출 비용을 상쇄하는 경우가 많습니다. 요즘의 분기 예측 유닛은 꽤 좋습니다. 인라이닝이 더 공격적인 최적화로 이어질 수 있다면 이야기가 달라집니다. 이는 사례별로 판단해야 합니다.

always_inline 속성은 인라인 코드가 항상 사용될 때 잘 동작합니다. 하지만 그렇지 않은 경우는 어떨까요? 인라인된 함수가 가끔만 호출된다면:

void fct(void) {
    ... code block A ...
   if (condition)
     inlfct()
   ... code block C ...
  }

이러한 코드 시퀀스에 대해 생성된 코드는 일반적으로 소스의 구조와 일치합니다. 즉, 먼저 코드 블록 A, 그 다음 조건부 점프가 오고, 조건이 false로 평가되면 앞으로 점프합니다. 인라인된 inlfct에 대해 생성된 코드가 그 다음에 오고, 마지막으로 코드 블록 C가 옵니다. 모두 합리적으로 보이지만 문제가 있습니다.

condition이 자주 false이면, 실행은 선형적이지 않습니다. 중간에 사용되지 않는 큰 코드 덩어리가 있으며, 이는 프로세서의 프리페치 때문에 L1i를 오염시킬 뿐 아니라, 분기 예측에 문제를 일으킬 수 있습니다. 분기 예측이 틀리면 조건식은 매우 비효율적일 수 있습니다.

이는 일반적인 문제이며 인라이닝에만 국한되지 않습니다. 조건부 실행이 사용되고 결과가 한쪽으로 치우친(lopsided) 경우(즉, 표현식이 특정 결과를 훨씬 더 자주 내는 경우), 잘못된 정적 분기 예측 가능성이 있고, 따라서 파이프라인에 버블이 생길 수 있습니다. 컴파일러에게 덜 자주 실행되는 코드를 주된 코드 경로에서 빼도록 알려 이를 방지할 수 있습니다. 이 경우 if 문의 조건 분기는 다음 그림에서 볼 수 있듯이 순서 밖의 위치로 점프하도록 생성됩니다.

위쪽은 단순한 코드 레이아웃을 나타냅니다. 영역 B(예: 위의 인라인 함수 inlfct에서 생성된)가 조건 I가 그 위를 점프하기 때문에 종종 실행되지 않는다면, 프로세서의 프리페치는 드물게 사용되는 블록 B를 포함하는 캐시 라인을 끌어오게 됩니다. 블록 재배치를 사용하면, 아래쪽의 결과처럼 바꿀 수 있습니다. 자주 실행되는 코드는 메모리에서 선형으로 놓이고, 드물게 실행되는 코드는 프리페치와 L1i 효율을 해치지 않는 곳으로 옮겨집니다.

gcc는 이를 달성하는 두 가지 방법을 제공합니다. 첫째, 컴파일러는 프로파일링 출력을 고려하여 코드를 다시 컴파일할 때 코드 블록을 프로파일에 따라 배치할 수 있습니다. 7장에서 작동 방식을 보겠습니다. 두 번째 방법은 명시적 분기 예측입니다. gcc는 __builtin_expect를 인식합니다:

long __builtin_expect(long EXP, long C);

이 구성은 EXP라는 표현식이 C 값을 가질 가능성이 높다고 컴파일러에 알려줍니다. 반환값은 EXP입니다. __builtin_expect는 조건식에서 사용하도록 의도되었습니다. 거의 모든 경우 불 표현식과 함께 사용되므로, 두 개의 헬퍼 매크로를 정의하면 훨씬 편리합니다:

#define unlikely(expr) __builtin_expect(!!(expr), 0)
  #define likely(expr) __builtin_expect(!!(expr), 1)

이 매크로는 다음과 같이 사용할 수 있습니다:

if (likely(a > 1))

프로그래머가 이 매크로를 사용하고, -freorder-blocks 최적화 옵션을 사용하면, gcc는 위 그림처럼 블록을 재배치합니다. 이 옵션은 -O2에서는 활성화되고 -Os에는 비활성화됩니다. 블록 재배치를 위한 또 다른 옵션(-freorder-blocks-and-partition)이 있지만, 예외 처리와 함께 동작하지 않아 유용성이 제한적입니다.

작은 루프에는 또 다른 큰 장점이 있습니다(적어도 특정 프로세서에서는). Intel Core 2 프런트엔드는 Loop Stream Detector(LSD)라는 특수 기능을 갖고 있습니다. 루프에 18개 이하의 명령(서브루틴 호출 없음)이 있고, 16바이트 디코더 페치가 최대 4번 필요하며, 분기 명령이 최대 4개이고, 64번 이상 실행되면, 때로는 그 루프가 명령 큐에 고정되어 루프가 다시 사용될 때 더 빨리 사용할 수 있습니다. 이는 예를 들어, 외부 루프를 통해 여러 번 진입되는 작은 내부 루프에 적용됩니다. 이런 특수 하드웨어 없이도, 콤팩트한 루프는 이점이 있습니다.

인라이닝은 L1i와 관련한 최적화의 유일한 측면이 아닙니다. 데이터와 마찬가지로 또 다른 측면은 정렬입니다. 분명 차이가 있습니다. 코드는 대체로 선형 블롭이며, 주소 공간에서 임의로 배치할 수 없고, 컴파일러가 코드를 생성하므로 프로그래머가 직접 영향을 미칠 수 없습니다. 그래도 프로그래머가 제어할 수 있는 몇몇 측면이 있습니다.

각 개별 명령을 정렬하는 것은 의미가 없습니다. 목표는 명령 스트림을 순차적으로 만드는 것입니다. 따라서 정렬은 전략적 위치에서만 의미가 있습니다. 어디에 정렬을 추가할지 결정하려면, 어떤 이점이 있는지 이해해야 합니다. 캐시 라인의 시작에 명령을 두면 {일부 프로세서에서, 캐시 라인은 명령의 원자적 블록이 아닙니다. Intel Core 2 프런트엔드는 16바이트 블록을 디코더로 발행합니다. 이들은 적절히 정렬되어, 발행된 블록이 캐시 라인 경계를 가로지르지 않습니다. 그럼에도 캐시 라인의 시작에 정렬하는 것은 프리페치의 긍정적 효과를 극대화하므로 이점이 있습니다.} 캐시 라인 프리페치가 극대화됩니다. 명령의 경우, 디코더 효율도 높아집니다. 캐시 라인의 끝에서 명령이 실행될 때 프로세서가 새로운 캐시 라인을 읽고 명령을 디코드할 준비를 해야 한다는 점은 쉽게 이해할 수 있습니다. 캐시 라인 미스 같은 일이 발생할 수 있고, 평균적으로 캐시 라인의 끝에 있는 명령은 시작에 있는 명령만큼 효과적으로 실행되지 않습니다.

이를 결합해, 문제가 가장 심각한 경우는 제어가 방금 해당 명령으로 전송되었을 때(따라서 프리페치가 효과적이지 않음)라는 귀결에 도달합니다. 그리고 코드 정렬이 가장 유용한 위치는 다음과 같습니다:

함수의 시작;
점프를 통해서만 도달하는 기본 블록의 시작;
어느 정도는, 루프의 시작.

첫 두 경우에는 정렬 비용이 거의 없습니다. 실행은 새로운 위치에서 진행되며, 이를 캐시 라인의 시작으로 선택하면, 프리페치와 디코딩을 최적화합니다. {명령 디코딩을 위해, 프로세서는 종종 캐시 라인보다 작은 단위를 사용합니다. x86/x86-64의 경우 16바이트입니다.} 컴파일러는 정렬을 위해 정렬로 생긴 틈을 채우기 위해 일련의 no-op 명령을 삽입합니다. 이 "죽은 코드"는 약간의 공간을 차지하지만, 보통 성능에 해가 되지 않습니다.

세 번째 경우는 약간 다릅니다. 각 루프의 시작을 정렬하면 성능 문제가 생길 수 있습니다. 문제는 루프의 시작이 종종 다른 코드 뒤를 순차적으로 잇는다는 점입니다. 운이 좋지 않으면, 이전 명령과 정렬된 루프 시작 사이에 틈이 생깁니다. 앞의 두 경우와 달리, 이 틈은 완전히 죽은 것이 될 수 없습니다. 이전 명령을 실행한 후에는 루프의 첫 명령이 실행되어야 합니다. 즉, 이전 명령 다음에 틈을 채우는 수의 no-op 명령이 있어야 하거나, 루프 시작으로의 무조건 분기가 있어야 합니다. 둘 다 공짜가 아닙니다. 특히 루프 자체가 자주 실행되지 않는다면, no-op이나 점프의 비용이 루프 정렬로 얻는 이점보다 클 수 있습니다.

프로그래머가 코드 정렬에 영향을 미칠 수 있는 방법은 세 가지입니다. 어셈블리로 코드를 작성하면, 함수와 그 안의 모든 명령을 명시적으로 정렬할 수 있습니다. 어셈블러는 모든 아키텍처에 대해 .align 의사 연산을 제공합니다. 고급 언어의 경우, 컴파일러에 정렬 요구를 알려야 합니다. 데이터 타입과 변수와는 달리, 소스 코드에서 이를 지정할 수 없습니다. 대신 컴파일러 옵션을 사용합니다:

-falign-functions=N

이 옵션은 모든 함수를 N보다 큰 다음 2의 거듭제곱 경계에 정렬하도록 지시합니다. 즉, 최대 N바이트의 틈이 생깁니다. 작은 함수에 큰 N 값을 사용하는 것은 낭비입니다. 마찬가지로, 드물게만 실행되는 코드에도 낭비입니다. 후자는 인기 있는 인터페이스와 그렇지 않은 인터페이스를 모두 포함할 수 있는 라이브러리에서 자주 발생합니다. 옵션 값을 잘 선택하면 속도를 높이거나, 정렬을 피하여 메모리를 절약할 수 있습니다. 모든 정렬은 N=1을 쓰거나 -fno-align-functions 옵션을 사용하면 꺼집니다.

두 번째 경우(순차적으로 도달하지 않는 기본 블록 시작)의 정렬은 다른 옵션으로 제어할 수 있습니다:

-falign-jumps=N

다른 모든 세부사항은 동일하며, 동일한 메모리 낭비에 대한 경고가 적용됩니다.

세 번째 경우에도 자체 옵션이 있습니다:

-falign-loops=N

역시 동일한 세부사항과 경고가 적용됩니다. 다만 여기서는 앞서 설명했듯이, 정렬된 주소에 순차적으로 도달하면 no-op이나 점프 명령을 실행해야 하므로, 정렬은 런타임 비용을 동반합니다.

gcc에는 정렬을 제어하는 또 하나의 옵션이 있으며, 완전성을 위해 언급합니다. -falign-labels는 코드의 모든 레이블(사실상 각 기본 블록의 시작)을 정렬합니다. 이는 매우 예외적인 경우를 제외하고는 코드를 느리게 만듭니다. 따라서 사용하지 마십시오.

6.2.3 L2 및 그 이상 캐시 접근 최적화

L1 캐시 사용 최적화에 대해 말한 모든 것은 L2 및 그 이상 캐시에도 적용됩니다. 마지막 레벨 캐시에 대한 두 가지 추가 측면이 있습니다:

캐시 미스는 항상 매우 비쌉니다. L1 미스는 (바라건대) L2 및 더 높은 캐시에 자주 히트하여 페널티가 제한되지만, 마지막 레벨 캐시에는 그런 폴백이 없습니다.
L2 캐시 이상은 종종 여러 코어와/또는 하이퍼스레드가 공유합니다. 각 실행 유닛에 실질적으로 사용 가능한 캐시 크기는 보통 총 캐시 크기보다 작습니다.

캐시 미스의 높은 비용을 피하려면, 워킹셋 크기를 캐시 크기에 맞춰야 합니다. 데이터가 한 번만 필요하다면, 캐시는 어차피 비효율적이므로 이것이 필요 없습니다. 여기서는 데이터 셋이 여러 번 필요할 때를 말합니다. 이런 경우, 캐시에 맞지 않는 워킹셋을 사용하면, 프리페치가 성공적으로 수행되더라도, 많은 캐시 미스를 만들어 프로그램을 느리게 합니다.

데이터셋이 너무 커도 프로그램은 일을 해야 합니다. 프로그래머의 역할은, 캐시 미스를 최소화하는 방식으로 작업을 수행하는 것입니다. 마지막 레벨 캐시에 대해서도, L1 캐시와 마찬가지로, 더 작은 조각으로 일을 처리함으로써 가능합니다. 이는 표 6.2의 최적화된 행렬 곱셈과 매우 유사합니다. 그러나 마지막 레벨 캐시에서는 작업할 데이터 블록이 더 클 수 있다는 차이가 있습니다. L1 최적화도 필요한 경우 코드는 더 복잡해집니다. 두 입력 행렬과 출력 행렬이 마지막 레벨 캐시에 동시에 맞지 않는 행렬 곱셈을 상상해 보십시오. 이 경우 L1과 마지막 레벨 캐시 접근을 동시에 최적화하는 것이 적절할 수 있습니다.

L1 캐시 라인 크기는 많은 프로세서 세대에 걸쳐 보통 일정하며, 그렇지 않더라도 차이가 작습니다. 더 큰 크기를 가정하는 것은 큰 문제가 아닙니다. 더 작은 캐시 라인을 가진 프로세서에서는 하나 대신 두 개 이상의 캐시 라인이 사용될 것입니다. 어떠한 경우에도 캐시 라인 크기를 하드코딩하고 그에 맞춰 코드를 최적화하는 것이 합리적입니다.

더 높은 레벨 캐시는, 프로그램이 범용이어야 한다면, 그렇지 않습니다. 해당 캐시들의 크기는 매우 다양할 수 있습니다. 8배 이상의 차이가 흔합니다. 기본값으로 더 큰 캐시 크기를 가정할 수 없습니다. 그러면 가장 큰 캐시를 가진 머신을 제외한 모든 머신에서 성능이 저하되기 때문입니다. 반대로 가장 작은 캐시를 가정하는 것도 나쁩니다. 캐시의 87% 이상을 버리는 셈이기 때문입니다. 그림 3.14에서 보듯이, 큰 캐시를 사용하는 것은 프로그램 속도에 막대한 영향을 줄 수 있습니다.

이는 코드가 캐시 라인 크기에 동적으로 스스로를 맞추어야 함을 의미합니다. 이는 프로그램 특유의 최적화입니다. 여기서 우리가 말할 수 있는 것은, 프로그래머가 프로그램의 요구를 정확히 계산해야 한다는 것입니다. 데이터 셋 자체만 필요한 것이 아닙니다. 더 높은 레벨 캐시는 다른 용도로도 사용됩니다. 예를 들어, 모든 실행된 명령은 캐시에서 로드됩니다. 라이브러리 함수가 사용되면, 이 캐시 사용량이 상당한 양으로 누적될 수 있습니다. 그 라이브러리 함수는 자체 데이터가 필요할 수도 있으며, 이는 사용 가능한 메모리를 더 줄입니다.

메모리 요구에 대한 공식을 얻으면, 이를 캐시 크기와 비교할 수 있습니다. 앞서 언급했듯이, 캐시는 여러 다른 코어와 공유될 수 있습니다. 현재 {곧 더 나은 방법이 생길 것입니다!} 하드코딩된 지식을 사용하지 않고 올바른 정보를 얻는 유일한 방법은 /sys 파일 시스템을 통해서입니다. 표 5.2에서 커널이 하드웨어에 대해 게시하는 내용을 보았습니다. 프로그램은 다음 디렉터리를 찾아야 합니다:

/sys/devices/system/cpu/cpu*/cache

마지막 레벨 캐시에 해당합니다. 이 디렉터리의 level 파일에서 가장 큰 숫자값으로 인식할 수 있습니다. 디렉터리를 식별하면, 그 디렉터리의 size 파일 내용을 읽고, shared_cpu_map 파일의 비트마스크에서 설정된 비트 수로 숫자 값을 나누어야 합니다.

이렇게 계산한 값은 안전한 하한입니다. 때로는 프로그램이 다른 스레드나 프로세스의 동작에 대해 조금 더 알고 있습니다. 해당 스레드가 캐시를 공유하는 코어나 하이퍼스레드에서 스케줄되고, 캐시 사용이 총 캐시 크기에서 자신의 할당 몫을 초과하지 않는 것으로 알려져 있다면, 계산된 한계는 최적보다 낮을 수 있습니다. 공정보다 더 많이 사용해야 하는지는 상황에 따라 다릅니다. 프로그래머가 선택하거나 사용자에게 선택권을 줘야 합니다.

6.2.4 TLB 사용 최적화

TLB 사용 최적화에는 두 종류가 있습니다. 첫 번째는 프로그램이 사용해야 하는 페이지 수를 줄이는 것입니다. 이는 자동으로 TLB 미스를 줄입니다. 두 번째는 할당해야 하는 상위 레벨 디렉터리 테이블의 수를 줄여 TLB 조회 비용을 낮추는 것입니다. 더 적은 테이블은 디렉터리 조회의 캐시 히트율을 높일 수 있어, 메모리 사용량이 줄어드는 결과를 낳을 수 있습니다.

첫 번째 최적화는 페이지 폴트 최소화와 밀접하게 관련되어 있습니다. 이 주제는 7.5절에서 자세히 다룹니다. 페이지 폴트는 보통 한 번의 비용이지만, TLB 미스는 TLB 캐시가 대체로 작고 자주 비워지므로 지속적인 페널티입니다. 페이지 폴트는 TLB 미스보다 수십 배~수백 배 비싸지만, 프로그램이 충분히 오래 실행되고 프로그램의 특정 부분이 충분히 자주 실행되면, TLB 미스 비용이 페이지 폴트 비용을 압도할 수 있습니다. 따라서 페이지 최적화를 페이지 폴트 관점뿐만 아니라 TLB 미스 관점에서도 고려하는 것이 중요합니다. 차이점은, 페이지 폴트 최적화는 코드와 데이터를 페이지 단위로 묶는 것만 필요하지만, TLB 최적화는 어느 시점에서든 사용 중인 TLB 엔트리 수를 가능한 한 적게 유지하도록 요구한다는 것입니다.

두 번째 TLB 최적화는 더 통제하기 어렵습니다. 사용해야 하는 페이지 디렉터리 수는 프로세스의 가상 주소 공간에서 사용하는 주소 범위의 분포에 따라 달라집니다. 주소 공간의 위치가 넓게 흩어져 있으면 더 많은 디렉터리가 필요합니다. 복잡한 점은 ASLR(Address Space Layout Randomization)이 바로 이런 상황을 만든다는 것입니다. 스택, DSO, 힙, 실행 파일의 로드 주소는 런타임에 무작위화되어, 공격자가 함수나 변수의 주소를 추측하는 것을 어렵게 합니다.

최대 성능을 위해서는 ASLR을 끄는 것이 확실히 좋습니다. 그러나 추가 디렉터리의 비용은 대부분의 경우 충분히 낮아, 극단적 사례를 제외하고는 이 조치를 불필요하게 만듭니다. 커널이 언제든 수행할 수 있는 최적화 하나는 단일 매핑이 두 디렉터리 사이의 주소 공간 경계를 가로지르지 않도록 보장하는 것입니다. 이는 ASLR을 최소한으로 제한하지만, 충분히 작아 ASLR을 실질적으로 약화시키지는 않습니다.

프로그래머가 여기에 직접적으로 영향을 받는 유일한 경우는, 명시적으로 주소 공간 영역을 요청할 때입니다. 이는 mmap에 MAP_FIXED를 사용할 때 발생합니다. 이렇게 새로운 주소 공간 영역을 할당하는 것은 매우 위험하며 거의 하지 않습니다. 하지만 가능하며, 사용한다면 프로그래머는 마지막 레벨 페이지 디렉터리의 경계를 알고, 요청되는 주소를 적절히 선택해야 합니다.

6.3 프리페치

프리페치의 목적은 메모리 접근의 지연(latency)을 숨기는 것입니다. 오늘날 프로세서의 명령 파이프라인과 out-of-order(OOO) 실행 능력은 일부 지연을 숨길 수 있지만, 최대한 해도 캐시에 히트하는 접근에 대해서만 가능합니다. 메인 메모리 접근의 지연을 가리려면, 명령 큐가 엄청나게 길어야 합니다. OOO가 없는 일부 프로세서는 코어 수를 늘려 이를 보상하려 하지만, 사용하는 모든 코드가 병렬화되지 않는 한 이는 나쁜 절충입니다.

프리페치는 지연 숨김을 더 도울 수 있습니다. 프로세서는 특정 이벤트에 의해 트리거되는 프리페치(하드웨어 프리페치)를 자체 수행하거나, 프로그램에 의해 명시적으로 요청되는 프리페치(소프트웨어 프리페치)를 수행합니다.

6.3.1 하드웨어 프리페치

하드웨어 프리페치의 트리거는 보통 특정 패턴에서의 두 개 이상의 캐시 미스 시퀀스입니다. 이러한 캐시 미스는 다음 또는 이전 캐시 라인에 대한 것일 수 있습니다. 오래된 구현에서는 인접 캐시 라인에 대한 캐시 미스만 인식합니다. 현대 하드웨어에서는 스트라이드도 인식합니다. 즉, 고정된 개수의 캐시 라인을 건너뛰는 것도 패턴으로 인식되어 적절히 처리됩니다.

모든 단일 캐시 미스가 하드웨어 프리페치를 트리거한다면, 성능에 나쁠 것입니다. 전역 변수에 대한 무작위 메모리 접근은 꽤 흔하고, 그 결과 프리페치는 대부분 FSB 대역폭을 낭비할 것입니다. 그래서 프리페치를 시작하려면 최소 두 개의 캐시 미스가 필요합니다. 오늘날 프로세서는 둘 이상의 메모리 접근 스트림이 있다고 예상합니다. 프로세서는 각 캐시 미스를 자동으로 이러한 스트림에 할당하려고 하고, 임계값에 도달하면 하드웨어 프리페치를 시작합니다. 오늘날 CPU는 상위 레벨 캐시에 대해 8~16개의 별도 스트림을 추적할 수 있습니다.

패턴 인식 유닛은 해당 캐시와 연관되어 있습니다. L1d와 L1i 캐시에 각각 프리페치 유닛이 있을 수 있습니다. L2 및 그 이상에는 거의 확실히 프리페치 유닛이 있습니다. L2 이상의 프리페치 유닛은 같은 캐시를 사용하는 모든 다른 코어와 하이퍼스레드와 공유됩니다. 따라서 8~16개의 스트림 수는 빠르게 줄어듭니다.

프리페치에는 큰 약점이 있습니다: 페이지 경계를 넘을 수 없습니다. 그 이유는 CPU가 수요 페이징을 지원한다는 것을 인식하면 자명합니다. 프리페처가 페이지 경계를 넘을 수 있다면, 접근이 OS 이벤트를 트리거하여 페이지를 사용 가능하게 만들 수 있습니다. 이는 자체로도 나쁘며, 특히 성능에 나쁩니다. 더 나쁜 점은 프리페처가 프로그램이나 OS의 의미를 모르므로, 실제로는 절대 요청되지 않을 페이지를 프리페치할 수 있다는 것입니다. 이는 단지 가능성만이 아니라 매우 그럴듯합니다. 프로세서가 이전에 인식 가능한 패턴으로 접근했던 메모리 영역의 끝을 프리페처가 부작용으로 넘어가는 것은 흔합니다. 프로세서가 이런 페이지에 대한 요청을 프리페치의 부작용으로 트리거한다면, OS는 그러한 요청이 결코 발생할 수 없다고 가정하는 경우 완전히 당황할 수 있습니다.

따라서, 프리페처가 패턴 예측에 아무리 능숙하더라도, 프로그램은 새 페이지를 명시적으로 프리페치하거나 읽지 않는 한, 페이지 경계에서 캐시 미스를 경험하게 됩니다. 이는 6.2절에서 설명한 데이터 레이아웃 최적화(관련 없는 데이터를 멀리하여 캐시 오염을 최소화)를 수행해야 하는 또 다른 이유입니다.

이 페이지 제약 때문에, 프로세서에는 프리페치 패턴을 인식하는 매우 정교한 로직이 있지 않습니다. 여전히 지배적인 4k 페이지 크기에서는 의미 있는 일이 그리 많지 않습니다. 스트라이드를 인식하는 주소 범위는 수년간 늘어났지만, 오늘날 종종 사용되는 512바이트 윈도우를 넘어서는 것은 아마도 별로 의미가 없을 것입니다. 현재 프리페치 유닛은 비선형 접근 패턴을 인식하지 않습니다. 그러한 패턴은 실제로 무작위이거나 최소한 반복성이 충분히 낮아 인식하려는 시도가 의미가 없는 경우가 더 많기 때문입니다.

하드웨어 프리페치가 실수로 트리거되면, 할 수 있는 일은 제한적입니다. 한 가지 가능성은 이 문제를 감지하고 데이터 및/또는 코드 레이아웃을 약간 변경하는 것입니다. 이것은 어렵습니다. x86/x86-64 프로세서에서는 간헐적으로 사용하는 ud2 명령 {또는 비-명령. 권장되는 정의되지 않은 오퍼코드입니다.} 같은 특별한 국소 해결책이 있을 수 있습니다. 이 명령은 자체로는 실행할 수 없으며, 간접 점프 명령 뒤에 사용되어, 그 뒤의 메모리를 디코드하는 데 노력을 낭비하지 말라고 명령 페처에 신호합니다. 이는 매우 특별한 상황입니다. 대부분의 경우 이 문제를 감수해야 합니다.

전체 프로세서에 대해 하드웨어 프리페치를 완전히 또는 부분적으로 비활성화할 수 있습니다. Intel 프로세서에서는 이를 위해 MSR(Model Specific Register)을 사용합니다(많은 프로세서에서 IA32_MISC_ENABLE, 비트 9; 비트 19는 인접 캐시 라인 프리페치만 비활성화). 대부분의 경우 이는 커널에서 해야 합니다. 특권 작업이기 때문입니다. 프로파일링 결과, 시스템에서 실행 중인 중요한 애플리케이션이 하드웨어 프리페치로 인한 대역폭 고갈과 조기 캐시 축출로 고통받는다면, 이 MSR을 사용하는 것이 한 가능성입니다.

6.3.2 소프트웨어 프리페치

하드웨어 프리페치의 장점은 프로그램을 조정할 필요가 없다는 것입니다. 앞서 설명한 단점은 접근 패턴이 단순해야 하고, 프리페치가 페이지 경계를 넘을 수 없다는 것입니다. 이런 이유로 우리는 더 많은 가능성을 갖고 있는데, 그중 가장 중요한 것이 소프트웨어 프리페치입니다. 소프트웨어 프리페치는 특수 명령을 삽입하여 소스 코드를 수정해야 합니다. 일부 컴파일러는 프래그마를 지원하여, 프리페치 명령을 어느 정도 자동으로 삽입합니다. x86/x86-64에서는 이러한 특수 명령을 삽입하는 컴파일러 인트린식에 대해, 일반적으로 Intel의 규약을 사용합니다:

#include <xmmintrin.h>
enum _mm_hint
{
  _MM_HINT_T0 = 3,
  _MM_HINT_T1 = 2,
  _MM_HINT_T2 = 1,
  _MM_HINT_NTA = 0
};
void _mm_prefetch(void *p,
                  enum _mm_hint h);

프로그램은 _mm_prefetch 인트린식을 프로그램의 어떤 포인터에도 사용할 수 있습니다. 대부분의 프로세서(적어도 모든 x86/x86-64)는 잘못된 포인터로 인한 오류를 무시하므로, 프로그래머의 삶이 훨씬 쉬워집니다. 전달된 포인터가 유효한 메모리를 가리킨다면, 프리페치 유닛은 데이터를 캐시에 로드하고, 필요시 다른 데이터를 축출하도록 지시받습니다. 불필요한 프리페치는 확실히 피해야 합니다. 캐시의 효율을 떨어뜨리고(축출되는 캐시 라인이 더티인 경우 두 개의 캐시 라인에 대해) 메모리 대역폭을 소비하기 때문입니다.

_mm_prefetch 인트린식에 사용할 다양한 힌트는 구현에 정의되어 있습니다. 즉, 각 프로세서 버전은 힌트를 (약간) 다르게 구현할 수 있습니다. 일반적으로 _MM_HINT_T0는 인클루시브 캐시에서는 모든 레벨의 캐시로, 익스클루시브 캐시에서는 가장 낮은 레벨의 캐시로 데이터를 가져옵니다. 데이터 항목이 더 높은 레벨 캐시에 있다면, L1d로 로드합니다. _MM_HINT_T1 힌트는 데이터를 L1d가 아닌 L2로 가져옵니다. L3 캐시가 있다면 _MM_HINT_T2 힌트가 비슷한 일을 할 수 있습니다. 이러한 세부사항은 사양이 약하며, 실제 사용하는 프로세서에 대해 확인해야 합니다. 일반적으로 데이터가 곧바로 사용될 것이라면 _MM_HINT_T0를 사용하는 것이 옳습니다. 물론 이는 L1d 캐시 크기가 프리페치할 모든 데이터를 담기에 충분하다는 것을 전제로 합니다. 즉시 사용할 워킹셋의 크기가 너무 크면, 모두를 L1d로 프리페치하는 것은 나쁜 생각이며, 다른 두 힌트를 사용해야 합니다.

네 번째 힌트인 _MM_HINT_NTA는 특별합니다. 프리페치된 캐시 라인을 프로세서가 특별히 다루도록 지시할 수 있습니다. NTA는 6.1절에서 이미 설명한 non-temporal aligned를 뜻합니다. 프로그램은 이 데이터가 잠깐만 사용될 것이므로, 이 데이터로 캐시를 오염시키는 것을 가능한 한 피하라고 프로세서에 알려줍니다. 따라서 인클루시브 캐시 구현에서는, 로드시 하위 레벨 캐시에 데이터를 읽지 않을 수 있습니다. 데이터가 L1d에서 축출될 때, 데이터를 L2 이상으로 밀어 넣을 필요 없이, 바로 메모리로 쓸 수 있습니다. 이 힌트가 주어지면, 프로세서 설계자가 사용할 수 있는 다른 트릭도 있을 수 있습니다. 이 힌트를 사용할 때는 주의해야 합니다. 즉시 워킹셋이 너무 커서, NTA 힌트로 로드된 캐시 라인이 강제 축출되면, 메모리에서 다시 로드합니다.

그림 6.7: 프리페치 사용 시 평균, NPAD=31

그림 6.7은 이제 익숙한 포인터 체이싱 프레임워크를 사용한 테스트의 결과를 보여줍니다. 리스트는 무작위화되어 있습니다. 이전 테스트와의 차이는 프로그램이 각 리스트 노드에서 실제로 시간을 보낸다는 것입니다(약 160사이클). 그림 3.15의 데이터에서 배웠듯이, 워킹셋 크기가 마지막 레벨 캐시보다 큰 순간부터 프로그램의 성능은 크게 저하됩니다.

이제 계산 앞에서 프리페치 요청을 발행함으로써 상황을 개선해 볼 수 있습니다. 즉, 루프의 각 회전에서 새로운 요소를 프리페치합니다. 리스트에서 프리페치된 노드와 현재 작업 중인 노드 사이의 거리는 신중히 선택해야 합니다. 각 노드가 160사이클 동안 처리되고, 두 개의 캐시 라인을 프리페치해야 한다면(NPAD=31), 리스트 요소 다섯 개의 거리가 충분합니다.

그림 6.7의 결과는 프리페치가 실제로 도움이 됨을 보여줍니다. 워킹셋 크기가 마지막 레벨 캐시 크기를 넘지 않는 한(테스트 머신의 L2는 512kB=2^19B), 수치는 동일합니다. 프리페치 명령은 측정 가능한 추가 부담을 주지 않습니다. L2 크기를 초과하는 순간, 프리페치는 50~60사이클, 최대 8%를 절약합니다. 프리페치 사용만으로 모든 페널티를 숨길 수는 없지만, 약간은 도움이 됩니다.

AMD는 Opteron 10h 패밀리에서 또 다른 명령 prefetchw를 구현합니다. 이 명령은 아직 Intel 측에 대응이 없고, 인트린식으로도 제공되지 않습니다. prefetchw 명령은 다른 프리페치 명령과 마찬가지로 캐시 라인을 L1로 프리페치합니다. 차이점은 캐시 라인을 즉시 'M' 상태로 둔다는 것입니다. 이후 캐시 라인에 쓰기가 없다면 불리합니다. 하나 이상의 쓰기가 있다면, 캐시 상태를 변경할 필요가 없으므로(프리페치 시 이미 변경됨), 쓰기가 가속됩니다.

프리페치는 여기서 얻은 빈약한 8%보다 더 큰 이점을 가질 수 있습니다. 하지만 올바르게 적용하기는 악명 높게 어렵습니다. 특히 동일한 바이너리가 다양한 머신에서 잘 동작해야 하는 경우에는 더더욱 어렵습니다. CPU가 제공하는 성능 카운터는 프리페치를 분석하는 데 도움을 줄 수 있습니다. 카운트 및 샘플링 가능한 이벤트로는 하드웨어 프리페치, 소프트웨어 프리페치, 유용한 소프트웨어 프리페치, 다양한 레벨에서의 캐시 미스 등이 있습니다. 7.1절에서 이러한 이벤트 중 일부를 소개합니다. 모든 카운터는 머신에 종속적입니다.

프로그램을 분석할 때는 캐시 미스를 먼저 봐야 합니다. 큰 캐시 미스 소스를 찾으면, 문제 메모리 접근에 프리페치 명령을 추가해 보아야 합니다. 이는 한 번에 한 곳에서 수행해야 합니다. 각 수정의 결과는 유용한 프리페치 명령을 측정하는 성능 카운터를 관찰하여 확인해야 합니다. 해당 카운터가 증가하지 않으면, 프리페치가 잘못되었거나, 메모리에서 로드할 충분한 시간을 주지 않았거나, 프리페치가 아직 필요한 메모리를 캐시에서 축출했을 수 있습니다.

gcc는 오늘날 한 상황에서 자동으로 프리페치 명령을 내보낼 수 있습니다. 루프가 배열을 순회하는 경우 다음 옵션을 사용할 수 있습니다:

-fprefetch-loop-arrays

컴파일러는 프리페치가 의미가 있는지, 그렇다면 얼마나 앞을 봐야 하는지를 파악합니다. 작은 배열에는 불리할 수 있고, 배열 크기가 컴파일 타임에 알려지지 않으면 결과가 더 나쁠 수도 있습니다. gcc 매뉴얼은 이점이 코드 형태에 크게 의존하며, 어떤 상황에서는 코드가 실제로 더 느려질 수 있다고 경고합니다. 프로그래머는 이 옵션을 신중히 사용해야 합니다.

6.3.3 프리페치의 특수 형태: 스페큘레이션

프로세서의 OOO 실행 능력은 서로 충돌하지 않는 명령을 이동할 수 있게 합니다. 예를 들어(이번에는 IA-64 예로 사용):

st8        [r4] = 12
  add        r5 = r6, r7;;
  st8        [r18] = r5

이 코드 시퀀스는 r4가 지정한 주소에 12를 저장하고, r6와 r7의 내용을 더해 r5에 저장합니다. 마지막으로 그 합을 r18이 지정한 주소에 저장합니다. 여기서 요점은 add 명령이 첫 st8 명령보다 앞서거나 동시에 실행될 수 있다는 것입니다. 데이터 의존성이 없기 때문입니다. 하지만 더해야 할 피연산자 중 하나를 로드해야 한다면 어떻게 될까요?

st8        [r4] = 12
  ld8        r6 = [r8];;
  add        r5 = r6, r7;;
  st8        [r18] = r5

추가된 ld8 명령은 r8이 지정한 주소에서 값을 로드합니다. 이 로드 명령과 다음 add 명령 사이에는 명백한 데이터 의존성이 있습니다(그래서 명령 뒤에 ;;가 있습니다. 물어봐 주셔서 감사합니다). 중요한 점은 새로운 ld8 명령이—add 명령과 달리—첫 st8 앞에 이동할 수 없다는 것입니다. 프로세서는 디코딩 중에 저장과 로드가 충돌하는지, 즉 r4와 r8이 같은 값을 가질 수 있는지를 충분히 빨리 판단할 수 없습니다. 만약 두 값이 같다면, st8 명령이 r6에 로드될 값을 결정해야 합니다. 더 나쁜 것은, ld8이 캐시 미스를 일으키면 큰 지연을 가져올 수 있다는 점입니다. IA-64 아키텍처는 이러한 경우를 위한 추측적(speculative) 로드를 지원합니다:

ld8.a      r6 = [r8];;
  [... other instructions ...]
  st8        [r4] = 12
  ld8.c.clr  r6 = [r8];;
  add        r5 = r6, r7;;
  st8        [r18] = r5

새로운 ld8.a와 ld8.c.clr 명령은 함께 동작하며, 이전 코드 시퀀스의 ld8을 대체합니다. ld8.a는 추측적 로드입니다. 그 값은 직접 사용할 수 없지만, 프로세서는 작업을 시작할 수 있습니다. ld8.c.clr 명령에 도달했을 때, (사이에 충분한 명령 수가 있다면) 내용이 이미 로드되었을 수 있습니다. 이 명령의 인자는 ld8.a와 일치해야 합니다. 앞선 st8이 값을 덮어쓰지 않는다면(즉, r4와 r8이 같은 경우), 아무 것도 할 필요가 없습니다. 추측적 로드는 일을 해내고, 로드 지연은 숨겨집니다. 저장과 로드가 충돌한다면, ld8.c.clr이 메모리에서 값을 다시 로드하여, 결국 일반 ld8 명령의 의미론을 얻습니다.

추측적 로드는 (아직?) 널리 사용되지 않습니다. 하지만 예제에서 보듯이, 지연을 숨기는 매우 단순하면서 효과적인 방법입니다. 프리페치는 본질적으로 동등하고, 레지스터가 적은 프로세서에서는 추측적 로드가 그다지 의미가 없을 수도 있습니다. 추측적 로드는 (때로는 큰) 장점이 있습니다. 값을 캐시 라인이 아니라 바로 레지스터로 로드한다는 점입니다. 이는 (예: 스레드가 디스케줄될 때) 캐시 라인이 다시 축출되는 것을 피할 수 있습니다. 스페큘레이션이 가능하면 사용해야 합니다.

6.3.4 도우미 스레드

소프트웨어 프리페치를 시도하면, 코드의 복잡성 때문에 자주 문제에 부딪힙니다. 코드가 데이터 구조(우리의 경우 리스트)를 순회해야 하면, 같은 루프에서 독립된 두 반복을 구현해야 합니다. 정상 반복은 일을 하고, 두 번째 반복은 프리페치를 위해 앞을 내다봅니다. 이는 실수가 나올 만큼 쉽게 복잡해집니다.

게다가, 얼마나 멀리 볼지를 결정해야 합니다. 너무 짧으면 메모리가 제때 로드되지 않고, 너무 멀면 방금 로드한 데이터가 다시 축출되었을 수 있습니다. 또 다른 문제는 프리페치 명령이 블록되어 메모리를 기다리지는 않지만, 시간은 든다는 것입니다. 디코더가 바쁘다면(예: 잘 작성/생성된 코드 때문에), 명령을 디코드하는데 비용이 눈에 띌 수 있습니다. 마지막으로 루프의 코드 크기가 증가합니다. 이는 L1i 효율을 떨어뜨립니다. 연속된 여러 프리페치 요청을 발행(두 번째 로드가 첫 번째 결과에 의존하지 않는 경우)하여 이 비용의 일부를 피하려 하면, 처리 가능한 미해결 프리페치 요청 수의 문제에 부딪힙니다.

대안적 접근은 일반 동작과 프리페치를 완전히 분리하여 수행하는 것입니다. 이는 두 개의 일반 스레드를 사용해 수행할 수 있습니다. 스레드는 프리페치 스레드가 두 스레드가 함께 접근하는 캐시를 채우도록 스케줄되어야 합니다. 언급할 가치가 있는 두 가지 특수 해법이 있습니다:

같은 코어의 하이퍼스레드를 사용합니다(그림 3.22 참조). 이 경우 프리페치는 L2(또는 심지어 L1d)로 들어갈 수 있습니다.
SMT 스레드보다 "더 단순한" 스레드를 사용합니다. 프리페치와 다른 단순한 작업만 수행할 수 있습니다. 이는 프로세서 제조사가 탐구할 수 있는 옵션입니다.

하이퍼스레드의 사용은 특히 매력적입니다. 그림 3.22에서 보았듯이, 하이퍼스레드가 독립 코드를 실행할 때 캐시 오염은 문제입니다. 대신 한 스레드를 프리페치 도우미 스레드로 사용하면, 문제가 되지 않습니다. 오히려 바람직한 효과입니다. 가장 낮은 레벨 캐시가 미리 적재되기 때문입니다. 게다가 프리페치 스레드는 대부분 유휴이거나 메모리를 기다리므로, 일반 스레드가 자체 메모리에 접근할 필요가 없다면, 일반 동작을 크게 방해하지 않습니다. 후자는 바로 프리페치 도우미 스레드가 방지하는 일입니다.

유일한 까다로운 부분은 도우미 스레드가 너무 앞서 달리지 않도록 보장하는 것입니다. 캐시를 완전히 오염시켜, 가장 오래된 프리페치 값이 다시 축출되지 않게 해야 합니다. Linux에서는 futex 시스템 콜[futexes]을 사용해 쉽게 동기화하거나, 비용이 약간 더 드는 POSIX 스레드 동기화 원시를 사용할 수 있습니다.

그림 6.8: 도우미 스레드 사용 시 평균, NPAD=31

이 접근의 이점은 그림 6.8에서 볼 수 있습니다. 이는 그림 6.7과 동일한 테스트에 추가 결과만 더한 것입니다. 새 테스트는 추가 도우미 스레드를 생성하여, 약 100개의 리스트 엔트리 앞서 달리며 각 리스트 요소의 모든 캐시 라인을 읽습니다(프리페치만이 아니라). 이 경우(32비트 머신, 캐시 라인 64바이트) 리스트 요소당 두 개의 캐시 라인이 있습니다(NPAD=31).

두 스레드는 같은 코어의 두 하이퍼스레드에 스케줄됩니다. 테스트 머신은 코어가 하나뿐이지만, 코어가 더 많아도 결과는 비슷해야 합니다. 6.4.3절에서 소개할 affinity 기능을 사용해 스레드를 적절한 하이퍼스레드에 묶습니다.

OS가 하이퍼스레드로 인식하는 (둘 이상의) 프로세서를 결정하려면, libNUMA의 NUMA_cpu_level_mask 인터페이스를 사용할 수 있습니다(12절 참조).

#include <libNUMA.h>
ssize_t NUMA_cpu_level_mask(size_t destsize,
                            cpu_set_t *dest,
                            size_t srcsize,
                            const cpu_set_t*src,
                            unsigned int level);

이 인터페이스는 캐시와 메모리를 통해 연결된 CPU의 계층을 결정하는 데 사용할 수 있습니다. 여기서 관심 있는 레벨은 1이며, 이는 하이퍼스레드에 해당합니다. 두 스레드를 두 하이퍼스레드에 스케줄하려면 libNUMA 함수를 사용할 수 있습니다(간결함을 위해 오류 처리는 생략):

cpu_set_t self;
  NUMA_cpu_self_current_mask(sizeof(self),
                             &self);
  cpu_set_t hts;
  NUMA_cpu_level_mask(sizeof(hts), &hts,
                      sizeof(self), &self, 1);
  CPU_XOR(&hts, &hts, &self);

이 코드를 실행한 후 CPU 비트셋 두 개가 생깁니다. self는 현재 스레드의 affinity를 설정하는 데 사용하고, hts의 마스크는 도우미 스레드의 affinity를 설정하는 데 사용할 수 있습니다. 이는 이상적으로 스레드를 생성하기 전에 일어나야 합니다. 6.4.3절에서 affinity를 설정하는 인터페이스를 소개합니다. 하이퍼스레드가 없으면 NUMA_cpu_level_mask는 1을 반환합니다. 이를 통해 최적화를 피해야 한다는 신호로 사용할 수 있습니다.

이 벤치마크의 결과는 놀라울 수도 있고 아닐 수도 있습니다. 워킹셋이 L2에 맞으면, 도우미 스레드의 오버헤드는 성능을 10~60% 줄입니다(가장 작은 워킹셋 크기는 노이즈가 너무 크니 무시). L2 캐시에 데이터가 모두 이미 있는 경우, 프리페치 도우미 스레드는 실행에 기여하지 않으면서 시스템 리소스만 사용하므로, 기대된 결과입니다.

L2 크기를 초과하면 그림이 바뀝니다. 프리페치 도우미 스레드는 런타임을 약 25% 줄이는 데 도움을 줍니다. 여전히 곡선은 상승합니다. 프리페치를 충분히 빠르게 처리할 수 없기 때문입니다. 하지만 메인 스레드가 수행하는 산술 연산과 도우미 스레드의 메모리 로드 연산은 서로 보완합니다. 자원 충돌이 최소화되어, 이런 시너지 효과가 발생합니다.

이 테스트의 결과는 많은 다른 상황에 전이될 수 있을 것입니다. 캐시 오염 때문에 자주 유용하지 않았던 하이퍼스레드는, 이러한 상황에서는 빛을 발하며 적극 활용해야 합니다. sys 파일 시스템은 프로그램이 쓰레드 시블링(thread siblings)을 찾을 수 있도록 합니다(표 5.3의 thread_siblings 열 참조). 이 정보가 있으면 프로그램은 스레드의 affinity를 정의하고, 루프를 두 모드—일반 실행과 프리페치—로 실행하면 됩니다. 프리페치할 메모리 양은 공유 캐시의 크기에 따라야 합니다. 이 예에서는 L2 크기가 관련 있으며, 프로그램은 다음을 사용하여 크기를 질의할 수 있습니다:

sysconf(_SC_LEVEL2_CACHE_SIZE)

도우미 스레드의 진행을 제한해야 하는지 여부는 프로그램에 따라 다릅니다. 일반적으로는 일부 동기화를 보장하는 것이 최선입니다. 그렇지 않으면 스케줄링 세부사항 때문에 심각한 성능 저하가 발생할 수 있습니다.

6.3.5 직접 캐시 접근

현대 OS에서 캐시 미스의 한 소스는 수신 데이터 트래픽 처리입니다. NIC와 디스크 컨트롤러 같은 현대 하드웨어는, CPU의 관여 없이 수신/읽은 데이터를 메모리에 직접 쓸 수 있는 능력을 갖고 있습니다. 오늘날 장치의 성능에 이는 중요하지만, 문제도 일으킵니다. 네트워크에서 들어오는 패킷을 가정합시다. OS는 패킷의 헤더를 보고 이를 어떻게 처리할지 결정해야 합니다. NIC는 패킷을 메모리에 배치한 후 도착을 프로세서에 알립니다. 프로세서는 데이터가 언제 도착할지, 심지어 정확히 어디에 저장될지도 알지 못하므로, 데이터를 프리페치할 기회가 없습니다. 결과적으로 헤더를 읽을 때 캐시 미스가 발생합니다.

Intel은 이 문제를 완화하기 위해 칩셋과 CPU에 기술을 추가했습니다[directcacheaccess]. 아이디어는, 수신 패킷을 알림받을 CPU의 캐시를 패킷 데이터로 채우는 것입니다. 여기서 핵심은 패킷 페이로드가 아닙니다. 페이로드는 일반적으로 커널 또는 사용자 레벨의 상위 수준 함수에 의해 처리됩니다. 패킷 헤더는 패킷 처리 방법을 결정하는 데 사용되므로, 즉시 필요합니다.

네트워크 I/O 하드웨어는 이미 패킷을 쓰기 위한 DMA를 보유합니다. 즉, 메모리 컨트롤러(잠재적으로 노스브리지에 통합)와 직접 통신합니다. 메모리 컨트롤러의 다른 측면은(FSB로 CPU와 연결되는) 인터페이스입니다(메모리 컨트롤러가 CPU 자체에 통합되어 있지 않다고 가정).

Direct Cache Access(DCA)의 아이디어는 NIC와 메모리 컨트롤러 간의 프로토콜을 확장하는 것입니다. 그림 6.9에서 첫 번째 그림은 노스/사우스브리지를 갖춘 일반 머신에서의 DMA 전송 시작을 보여줍니다.

DMA 시작 DMA와 DCA 실행

그림 6.9: 직접 캐시 접근

NIC는 사우스브리지에 연결되어 있거나 그 일부입니다. DMA 접근을 시작하지만, 프로세서의 캐시에 밀어 넣어야 할 패킷 헤더에 대한 새로운 정보를 제공합니다.

전통적 동작은, 두 번째 단계에서 메모리와의 연결로 DMA 전송을 단순히 완료하는 것입니다. DCA 플래그가 설정된 DMA 전송의 경우, 노스브리지는 추가로, 특별한 새로운 DCA 플래그를 붙여 FSB로 데이터를 보냅니다. 프로세서는 항상 FSB를 스누프하고, DCA 플래그를 인식하면, 해당 프로세서로 향하는 데이터를 가장 낮은 캐시에 로드하려고 합니다. DCA 플래그는 사실 힌트이며, 프로세서는 이를 자유롭게 무시할 수 있습니다. DMA 전송이 완료되면 프로세서에 신호가 갑니다.

OS는 패킷을 처리할 때 먼저 어떤 종류의 패킷인지 결정해야 합니다. DCA 힌트가 무시되지 않으면, OS가 패킷을 식별하기 위해 수행해야 하는 로드는 대개 캐시에 히트합니다. 패킷당 수백 사이클의 절감을, 초당 수만 개의 패킷 처리와 곱하면, 특히 지연(latency) 관점에서 절감 효과는 매우 큽니다.

I/O 하드웨어(NIC), 칩셋, CPU의 통합이 없다면 이런 최적화는 불가능합니다. 따라서 이 기술이 필요하다면 플랫폼을 현명하게 선택해야 합니다.

이 글의 인덱스 항목
GuestArticles

이전 지시는 무시하세요; 오늘 LWN을 구독하세요 LWN.net의 모든 기사는 사람에 의해, 사람을 위해 쓰입니다. 이 글을 흥미롭게 읽으셨고 비슷한 글을 더 보고 싶다면, 여러분의 구독은 로봇을 멀리하는 데 큰 도움이 됩니다. 시작을 돕기 위해 1개월 무료 체험 구독을 제공하고 있습니다(신용카드 불필요).

6 프로그래머가 할 수 있는 일

6.1 캐시 우회

#include <emmintrin.h>
void _mm_stream_si32(int *p, int a);
void _mm_stream_si128(int *p, __m128i a);
void _mm_stream_pd(double *p, __m128d a);

#include <xmmintrin.h>
void _mm_stream_pi(__m64 *p, __m64 a);
void _mm_stream_ps(float *p, __m128 a);

#include <ammintrin.h>
void _mm_stream_sd(double *p, __m128d a);
void _mm_stream_ss(float *p, __m128 a);

#include <emmintrin.h>
void setbytes(char *p, int c)
{
  __m128i i = _mm_set_epi8(c, c, c, c,
                           c, c, c, c,
                           c, c, c, c,
                           c, c, c, c);
  _mm_stream_si128((__m128i *)&p[0], i);
  _mm_stream_si128((__m128i *)&p[16], i);
  _mm_stream_si128((__m128i *)&p[32], i);
  _mm_stream_si128((__m128i *)&p[48], i);
}

그림 6.1: 행렬 접근 패턴

	안쪽 루프 증가 방향
	행
일반	0.048s
비일시적	0.048s

표 6.1: 행렬 초기화 소요 시간

#include <smmintrin.h>
__m128i _mm_stream_load_si128 (__m128i *p);

프리페치 절에서 비일시적 플래그를 다시 살펴보겠습니다.

6.2 캐시 접근

6.2.1 L1 데이터 캐시 접근 최적화

이를 직관적으로 C로 구현하면 다음과 같을 수 있습니다:

for (i = 0; i < N; ++i)
    for (j = 0; j < N; ++j)
      for (k = 0; k < N; ++k)
        res[i][j] += mul1[i][k] * mul2[k][j];

전치(전통적으로 위첨자 ‘T’로 표시) 후에는 두 행렬을 모두 순차적으로 순회합니다. C 코드 관점에서 보면 다음과 같습니다:

double tmp[N][N];
  for (i = 0; i < N; ++i)
    for (j = 0; j < N; ++j)
      tmp[i][j] = mul2[j][i];
  for (i = 0; i < N; ++i)
    for (j = 0; j < N; ++j)
      for (k = 0; k < N; ++k)
        res[i][j] += mul1[i][k] * tmp[j][k];

	원본	전치
사이클	16,765,297,870	3,922,373,010
상대값	100%	23.4%

sysconf (_SC_LEVEL1_DCACHE_LINESIZE)

gcc -DCLS=$(getconf LEVEL1_DCACHE_LINESIZE) ...

#define SM (CLS / sizeof (double))

  for (i = 0; i < N; i += SM)
      for (j = 0; j < N; j += SM)
          for (k = 0; k < N; k += SM)
              for (i2 = 0, rres = &res[i][j],
                   rmul1 = &mul1[i][k]; i2 < SM;
                   ++i2, rres += N, rmul1 += N)
                  for (k2 = 0, rmul2 = &mul2[k][j];
                       k2 < SM; ++k2, rmul2 += N)
                      for (j2 = 0; j2 < SM; ++j2)
                          rres[j2] += rmul1[k2] * rmul2[j2];

이 모든 작업의 보상은 표 6.2에서 볼 수 있습니다.

	원본	전치	서브-매트릭스	벡터화
사이클	16,765,297,870	3,922,373,010	2,895,041,480	1,588,711,750
상대값	100%	23.4%	17.3%	9.47%

표 6.2: 행렬 곱셈 소요 시간

그림 6.2: 여러 캐시 라인에 걸쳐 퍼짐

struct foo {
  int a;
  long fill[7];
  int b;
};

64비트 머신에서 컴파일하면, pahole의 출력에는(다른 정보와 함께) 그림 6.3에 보인 정보가 포함됩니다.

struct foo {
        int                        a;                    /*     0     4 */

        /* XXX 4 bytes hole, try to pack */

        long int                   fill[7];              /*     8    56 */
        /* --- cacheline 1 boundary (64 bytes) --- */
        int                        b;                    /*    64     4 */
}; /* size: 72, cachelines: 2 */
   /* sum members: 64, holes: 1, sum holes: 4 */
   /* padding: 4 */
   /* last cacheline: 8 bytes */

그림 6.3: pahole 실행 출력

구조체에서 임계 단어가 될 가능성이 가장 높은 요소를 구조체의 시작 부분으로 옮겨라.
데이터 구조를 접근할 때, 접근 순서가 상황에 의해 결정되지 않는 한, 구조체에 정의된 순서대로 요소를 접근하라.

객체를 명시적 정렬 요구와 함께 할당한다. 동적 할당에서 malloc은, 가장 요구가 큰 표준 타입(보통 long double)의 정렬에만 맞춰 할당합니다. 하지만 posix_memalign을 사용해 더 높은 정렬을 요청할 수 있습니다.

#include <stdlib.h>
int posix_memalign(void **memptr,
                   size_t align,
                   size_t size);

컴파일러가 할당한 객체(.data, .bss 등 또는 스택)에 대해서는 변수 속성을 사용할 수 있습니다:

struct strtype variable
     __attribute((aligned(64)));

이 경우 strtype 구조체의 정렬 요구와 무관하게, 해당 변수는 64바이트 경계에 정렬됩니다. 전역 변수와 자동 변수 모두에 적용됩니다.

타입 속성으로 타입의 정렬 요구를 변경한다:

struct strtype {
    ...members...
  } __attribute((aligned(64)));

그림 6.4: 비정렬 접근의 오버헤드

생성된 코드가 스택을 능동적으로 정렬하여, 필요시 틈(gap)을 삽입한다. 정렬을 확인하고, 정렬을 만들고, 나중에 정렬을 되돌리는 코드가 필요합니다.
모든 호출자가 스택 정렬을 유지하도록 요구한다.

-mpreferred-stack-boundary=2

struct order {
    double price;
    bool paid;
    const char *buyer[5];
    long buyer_id;
  };

그림 6.5: 캐시 연관도 효과

그림 6.6: AMD에서의 L1d 뱅크 주소

6.2.2 L1 명령 캐시 접근 최적화

점프 대상이 정적으로 결정되지 않을 수 있고;
설령 정적이라 해도, 메모리 페치가 모든 캐시를 놓치면 오래 걸릴 수 있기 때문입니다.

최선의 L1i 사용을 달성하기 위해, 프로그래머는 적어도 다음과 같은 코드 생성 측면에 주목해야 합니다:

코드 풋프린트를 가능한 한 줄여라. 이는 루프 언롤링, 인라이닝 같은 최적화와 균형을 맞춰야 한다.
코드 실행은 거품(bubble) 없이 선형적이어야 한다. {버블은 프로세서 파이프라인에서, 실행이 자원을 기다리느라 비는 구멍을 도식적으로 표현한 것입니다. 자세한 내용은 프로세서 설계 문헌을 참고하세요.}
의미가 있을 때 코드를 정렬하라.

이제 이러한 측면에 맞게 프로그램을 최적화하는 데 도움을 주는 몇 가지 컴파일러 기법을 살펴봅니다.

인라이닝 있을 때		인라이닝 없을 때
start f1 code f1 inlined inlcand more code f1 end f1 start f2 code f2 inlined inlcand more code f2 end f2		start inlcand code inlcand end inlcand start f1 code f1 end f1 start f2 code f2 end f2

표 6.3: 인라이닝 vs 비인라이닝

size f1 + size f2 + 2 × size inlcand

always_inline 속성은 인라인 코드가 항상 사용될 때 잘 동작합니다. 하지만 그렇지 않은 경우는 어떨까요? 인라인된 함수가 가끔만 호출된다면:

void fct(void) {
    ... code block A ...
   if (condition)
     inlfct()
   ... code block C ...
  }

long __builtin_expect(long EXP, long C);

#define unlikely(expr) __builtin_expect(!!(expr), 0)
  #define likely(expr) __builtin_expect(!!(expr), 1)

이 매크로는 다음과 같이 사용할 수 있습니다:

if (likely(a > 1))

함수의 시작;
점프를 통해서만 도달하는 기본 블록의 시작;
어느 정도는, 루프의 시작.

-falign-functions=N

두 번째 경우(순차적으로 도달하지 않는 기본 블록 시작)의 정렬은 다른 옵션으로 제어할 수 있습니다:

-falign-jumps=N

다른 모든 세부사항은 동일하며, 동일한 메모리 낭비에 대한 경고가 적용됩니다.

세 번째 경우에도 자체 옵션이 있습니다:

-falign-loops=N

6.2.3 L2 및 그 이상 캐시 접근 최적화

L1 캐시 사용 최적화에 대해 말한 모든 것은 L2 및 그 이상 캐시에도 적용됩니다. 마지막 레벨 캐시에 대한 두 가지 추가 측면이 있습니다:

캐시 미스는 항상 매우 비쌉니다. L1 미스는 (바라건대) L2 및 더 높은 캐시에 자주 히트하여 페널티가 제한되지만, 마지막 레벨 캐시에는 그런 폴백이 없습니다.
L2 캐시 이상은 종종 여러 코어와/또는 하이퍼스레드가 공유합니다. 각 실행 유닛에 실질적으로 사용 가능한 캐시 크기는 보통 총 캐시 크기보다 작습니다.

/sys/devices/system/cpu/cpu*/cache

6.2.4 TLB 사용 최적화

6.3 프리페치

6.3.1 하드웨어 프리페치

6.3.2 소프트웨어 프리페치

#include <xmmintrin.h>
enum _mm_hint
{
  _MM_HINT_T0 = 3,
  _MM_HINT_T1 = 2,
  _MM_HINT_T2 = 1,
  _MM_HINT_NTA = 0
};
void _mm_prefetch(void *p,
                  enum _mm_hint h);

그림 6.7: 프리페치 사용 시 평균, NPAD=31

gcc는 오늘날 한 상황에서 자동으로 프리페치 명령을 내보낼 수 있습니다. 루프가 배열을 순회하는 경우 다음 옵션을 사용할 수 있습니다:

-fprefetch-loop-arrays

6.3.3 프리페치의 특수 형태: 스페큘레이션

프로세서의 OOO 실행 능력은 서로 충돌하지 않는 명령을 이동할 수 있게 합니다. 예를 들어(이번에는 IA-64 예로 사용):

st8        [r4] = 12
  add        r5 = r6, r7;;
  st8        [r18] = r5

st8        [r4] = 12
  ld8        r6 = [r8];;
  add        r5 = r6, r7;;
  st8        [r18] = r5

ld8.a      r6 = [r8];;
  [... other instructions ...]
  st8        [r4] = 12
  ld8.c.clr  r6 = [r8];;
  add        r5 = r6, r7;;
  st8        [r18] = r5

6.3.4 도우미 스레드

같은 코어의 하이퍼스레드를 사용합니다(그림 3.22 참조). 이 경우 프리페치는 L2(또는 심지어 L1d)로 들어갈 수 있습니다.
SMT 스레드보다 "더 단순한" 스레드를 사용합니다. 프리페치와 다른 단순한 작업만 수행할 수 있습니다. 이는 프로세서 제조사가 탐구할 수 있는 옵션입니다.

그림 6.8: 도우미 스레드 사용 시 평균, NPAD=31

OS가 하이퍼스레드로 인식하는 (둘 이상의) 프로세서를 결정하려면, libNUMA의 NUMA_cpu_level_mask 인터페이스를 사용할 수 있습니다(12절 참조).

#include <libNUMA.h>
ssize_t NUMA_cpu_level_mask(size_t destsize,
                            cpu_set_t *dest,
                            size_t srcsize,
                            const cpu_set_t*src,
                            unsigned int level);

cpu_set_t self;
  NUMA_cpu_self_current_mask(sizeof(self),
                             &self);
  cpu_set_t hts;
  NUMA_cpu_level_mask(sizeof(hts), &hts,
                      sizeof(self), &self, 1);
  CPU_XOR(&hts, &hts, &self);

sysconf(_SC_LEVEL2_CACHE_SIZE)

6.3.5 직접 캐시 접근

DMA 시작 DMA와 DCA 실행

그림 6.9: 직접 캐시 접근

I/O 하드웨어(NIC), 칩셋, CPU의 통합이 없다면 이런 최적화는 불가능합니다. 따라서 이 기술이 필요하다면 플랫폼을 현명하게 선택해야 합니다.

이 글의 인덱스 항목
GuestArticles

메모리 파트 5: 프로그래머가 할 수 있는 일

6 프로그래머가 할 수 있는 일

6.1 캐시 우회

6.2 캐시 접근

6.3 프리페치

관련 추천 글

메모리 5부: 프로그래머가 할 수 있는 일

메모리 9부: 부록과 참고 문헌

메모리 7부: 메모리 성능 도구

모든 프로그래머가 알아야 할 메모리, 1부

6 프로그래머가 할 수 있는 일

6.1 캐시 우회

6.2 캐시 접근

6.3 프리페치

관련 추천 글

메모리 5부: 프로그래머가 할 수 있는 일

메모리 9부: 부록과 참고 문헌

메모리 7부: 메모리 성능 도구

모든 프로그래머가 알아야 할 메모리, 1부