사전적 의미론 일괄 이지만, 유니티에서는 단순 사전적 의미로 간주하지 않는다.

 

최적화 포스팅 에서도 다루었지만, CPU와 GPU간 통신을 줄일수록 시간과 자원이 절약된다.

 

통신이라 함은 CPU가 GPU에게 명령을 내리는 DrawCall 로 간주할 수 있는데 (엄밀히는 DrawCalls + SetPass Calls) 

 

예를 들어 큐브 10개를 그리는데 GPU한테 10번을 명령하는 것과, 10개를 하나로 묶어 1번을 명령하는 방식이 있다면,

일반적인 경우에선 후자가 더 좋다는 것이다.

 

그렇다고 너무 많은 큐브 (이 기준은 GPU마다 다르다) 를 한꺼번에 묶으면 GPU의 대역폭 (BandWidth) 에 따라 메모리가 터질 수도 있다.

 

어쨋든, 이렇게 여러 드로우콜을 하나로 묶는 일련의 행위를 유니티에서는 (배칭)batching 이라고 표현하며,

방법은 또 여러가지가 있다.

 

그 중 유니티에서 지원하는 배칭은 현재 4가지인데 그 종류와 특징에 대해 짚고 넘어가보자

 

Dynamic Batching

작은 메시들 몇개를 큰 메시 하나로 합쳐서 드로우콜을 줄이는 방법으로, 별도의 작업없이 자동으로 수행된다.

단 수행될 조건이 몇가지가 있는데, 버텍스 갯수가 180 ~ 300 개 미만인 메시여야 하고, 같은 메테리얼일 경우에만 배칭해준다.

유념해야 할 점은 큰 메시를 하나로 합치는 과정을 CPU 에서 하는데, 이 작업이 GPU한테 드로우콜을 수행하는 것보다 비용이 더 적을 경우에만 유리하다는 것이다.

풀어서 쓰자면,

 

[옛날]

CPU : 야, GPU! 너한테 맡길일을 CPU인 내가 대신 해줄께 너 이거 하는데 오래 걸리잖아.

GPU : 응 고마워!

 

[지금 (Metal, Vulkan)]

CPU : 야, GPU! 너한테 맡길일을 CPU인 내가 대신 해줄께 너 이거 하는데 오래 걸리잖아.

GPU : 너가 해주는게 시간 더 걸릴껄?

 

최신 API 일 경우 Dynamic Batching이 전혀 유리하지 않을 수 있다.

 

Static Batching

다이나믹 배칭과 달리 크기에 관계없이 하나로 합쳐주고 그 과정에서 CPU 자원이 소모되는 것도 아니어서 장점만 있는 것 같지만, 움직이지 않는 메시에만 적용되며, (인스펙터에서 static 체크) 또한 과도하게 메모리를 사용할 수 있는 것이 단점이다.

 

예를 들어 동일한 나무 메시를 다수 배치한 숲 같은 배경일 경우 스태틱 배칭을 켤 경우 자칫 합쳐진 메시가 너무 비대해져 메모리가 뻗어버릴 수 있다.

 

GPU Instancing

동일 메시, 동일 메테리얼 오브젝트들을 하나의 배열에 모아서 GPU에 제공하는 방법으로, Graphics.DrawXXX API를 통해 수동으로 전달할 수 도 있고, 지원가능한 쉐이더의 Inspector를 통해서도 설정이 가능하다.

또 하나의 장점은 MaterialPropertyBlock을 통해 인스턴스별 (오브젝트별) 외형 변화를 줄 수 있다는 것

단점은 메시랑 메테리얼이 모두 같을때만 동작한다는 것과 SkinnedMeshRenderer 미지원 이 있다.

 

SRP Batcher

비교적 최근에 지원하기 시작한 배칭 방법으로 동일 쉐이더를 사용하되 다른 메테리얼을 쓰는 오브젝트들도 모두 배칭해주기 때문에 범용적으로 쓸 수 있지만, 셰이더 배리언트 에 대해 일정한 규칙을 고수할 경우에만 작동하며, 그 외에도 배칭 조건이 다소 까다롭다.

예를 들어 GPU Instancing의 인스턴스별 외형 변화는 지원하지 않는 것 등..

 

작동방식은 이전 URP 포스팅에서 다루었으므로 참고하시기 바랍니다.

 

배칭 우선순위는 SRP Batcher > GPU Instancing > Dynamic Batching 이다.

 

'Unity > 최적화' 카테고리의 다른 글

병렬처리 기법 2  (0) 2021.02.05
병렬처리 기법 1  (0) 2021.02.04

이전 포스팅에서는 CPU의 작업을 GPU로 전환하는 과정을 설명했었다.

 

여기서 이제 좀 더 효율적으로 GPU 에게 작업을 맡겨보자

 

현재 CubeShader.shader 에서 회전 행렬과 이동 행렬을 연산하고 있는데,

GPU를 이용해 이를 병렬로 처리해볼 것이다.

 

어떻게 GPU에게 병렬처리를 맡기죠?

 

바로 컴퓨트 셰이더 를 이용하는 것이다.

 

https://docs.unity3d.com/kr/2018.4/Manual/class-ComputeShader.html

 

컴퓨트 셰이더 - Unity 매뉴얼

컴퓨트 셰이더는 일반 렌더링 파이프라인과 별도로 그래픽 카드에서 실행되는 프로그램입니다. 컴퓨트 셰이더는 대량 병렬 GPGPU 알고리즘 또는 게임 렌더링의 일부를 가속시키기 위해 사용할

docs.unity3d.com

메뉴얼에 설명되어 있지만 좀처럼 개념이 와닿지 않는다.

 

요약하자면, GPU는 대량의 병렬 알고리즘 처리에 특화되어 있는데, 우리는 컴퓨트 셰이더를 이용해 이를 이용할 수 있다는 것

 

쓰기 전에 GPU가 작업을 처리하는 방식과 구조에 대해 간단히 짚고 넘어가보자.

그래야 각각의 코드가 어떤 의미인지 이해할 수 있으니 말이다.

 

먼저 GPU에서는 하나의 작업을 쓰레드라고 명시한다.

위에 말한 병렬 이라는 것도 결국 여러 쓰레드를 병렬로 처리할 수 있다는 뜻이며, 우리는 이 스레드 하나가 어떤 일을 할지 명시해주면 되는 것이다.

 

단 이 스레드는 우리가 어떤 변수를 저장할때 다차원 배열을 선언해서 쓸 수 있듯, (arr[][] 같은 형태) 스레드도 3차원 배열까지 선언할 수 있다.

  • c++ 에서 3차원 배열 선언하는 형태 : float arr[][][]
  • 컴퓨트 셰이더에서 3차원 배열 선언하는 형태 : numthreads(int, int, int)

만약 numthreads(8,8,1) 이라면 8 * 8 * 1 = 64 개의 스레드를 병렬로 돌리겠다 라는 의미이다.

 

c++ 함수 처럼 GPU도 함수라는 개념을 가지고 있는데 이는 커널 이라는 용어를 사용한다.

요 하나의 커널이 여러개의 스레드를 한꺼번에 (병렬로) 돌릴 수 있으며 위에 명시한 numthreads 크기만큼의 스레드들을 가질 수 있다.

여기에 추가로 이 커널 하나를 실행하는 단위를 그룹이라고 명명하기도 하며, 이 그룹까지도 병렬로 처리가 가능하다는 것이다.

 

결국 여러 스레드를 가진 커널 하나가 있고, 커널을 실행하는 그룹들을 동시에 돌릴 수 있는게 바로 다이렉트 컴퓨트 이다.

CPU가 할일을 GPU에게 맡기고, GPU는 이를 다이렉트 컴퓨트를 통해 연산하는 이러한 기술을 GPGPU 라고 명명한다

 

CUDA 의 Direct Compute 모델. Block 은 그룹으로 간주할 수 있다

개념도 알았으니, 실제 스크립팅을 통해 구현해보자 

 

먼저 Unity 에서 다음 메뉴를 실행해 Compute Shader 파일을 생성하자.

하고 나면 .compute 확장자를 가진 파일이 생성될 것이다.

Assets / Create / Shader / Compute Shader

아래 코드를 파일에 붙여넣기 한 후 한줄 한줄 살펴보도록 하자

#pragma kernel MyKernel

uint _Resolution;

float _Time;

RWStructuredBuffer<float4x4> _Positions;

float4x4 RotateYMatrix(float r)
{
    float sina, cosa;
    sincos(r, sina, cosa);
                
    float4x4 m;

    m[0] = float4(cosa, 0, -sina, 0);
    m[1] = float4(0, 1, 0, 0);
    m[2] = float4(sina, 0, cosa, 0);
    m[3] = float4(0, 0, 0, 1);

    return m;
}

float4x4 PositionMatrix(float3 pos)
{
    float4x4 m;

    m[0] = float4(1,0,0,pos.x);
    m[1] = float4(0,1,0,pos.y);
    m[2] = float4(0,0,1,pos.z);
    m[3] = float4(0,0,0,1);

    return m;
}

[numthreads(8,8,1)]
void MyKernel(uint3 id : SV_DispatchThreadID)
{
    float x = (-(_Resolution * 0.5f) + id.x) * 2;
    float z = (-(_Resolution * 0.5f) + id.y) * 2;

    float4x4 tfM = mul(PositionMatrix(float3(x,0,z)), RotateYMatrix(_Time));
    
    if (id.x <_Resolution && id.y <_Resolution) {
        _Positions [id.x * _Resolution + id.y] = tfM;
    }
}

 

 

더보기

#pragma kernel 커널이름

컴퓨트 쉐이더는 최소 하나의 커널(함수)를 선언하고 정의해야 한다

쓰레드 하나가 실행할 작업을 이 함수 안에 구현해야 하는 것이다.

여기서는 MyKernel 이라는 이름으로 커널을 선언

 

더보기

uint _Resolution, float _Time

쉐이더에 변수를 전달하는 것과 같은 방식으로, 스크립트에서 해당 변수에 값을 설정할 수 있다.

 

더보기

RWStructuredBuffer<float4x4> _Positions;

우리는 지금 컴퓨트 쉐이더를 통해 큐브의 위치와 회전값을 처리해서 넘겨줘야 한다.

이를 위해 나는 4x4 행렬을 통째로 CubeShader.shader 에 전달할 것이고, vertex 셰이더에서 해당 행렬을 통해 정점 위치를 변환할 예정이다.

 

StructuredBuffer는 스크립트에서 썼던 ComputeBuffer를 전달받기 위한 자료형인데, 앞에 RW가 붙어있다.

이는 ComputeBuffer를 읽기만 하는게 아니라 쓰기도 하겠다는 의미로서, 밑에서 설명하겠지만, 커널 함수 내부에서 위치를 계산한 후 이 RWStructuredBuffer 에 값을 셋팅할 것이다.

 

만약 앞에 RW를 붙이지 않는다면, 읽기만 하겠다는 의미

 

더보기

RotateYMatrix, PositionMatrix 함수

CubeShader.shader 에서 썼던 함수를 그대로 들고 왔다.

다시 한번 짚고 넘어가지만, 우리는 렌더 쉐이더 (CubeShader.shader) 가 하던 일을 Compute Shader를 통해 병렬로 처리하기 위해 이런 일련의 작업을 하고 있다.

그렇기 때문에 함수를 그대로 가져온 것

 

더보기

[numthreads(8, 8, 1)]

중요한 한줄이다.

위에서 설명한 대로 커널 하나가 처리할 스레드의 갯수를 3차원으로 설정하는 곳으로 꼭 커널함수의 윗줄에 선언되어야 한다.

각각의 숫자를 어느정도까지 쓸 수 있는지는 GPU의 종류에 따라 다르다고 한다.

또한 스레드의 최소 갯수 또한 효율에 영향이 있다고 하는데, 여기서는 x, y 각각 8 총 64개의 스레드를 설정하겠다.

 

더보기

void MyKernel(uint3 id : SV_DispatchThreadID)

실질적인 쓰레드가 처리할 일을 선언하는 곳

매개변수로서 SV_DispatchThreadID 를 받고 있는데, 쓰레드 하나가 실행될때마다 고유한 아이디가 발급되고, 저 매개변수를 통해 우리는 쓰레드별 고유한 인덱스를 받아올 수 있는 것이다.

 

만약 내가 64개의 스레드를 실행하라고 명령하면, id 에 0~63까지의 값이 전달된다는 것

스레드별 고유한 아이디를 이용해 각 큐브의 위치를 미리 계산할수 있다.

나는 여기서 이동행렬, 회전행렬을 미리 다 계산해서 렌더 셰이더에 넘겨줄 것이므로 행렬을 생성해서 RWStructuredBuffer 에 셋팅하고 있는 걸 확인할 수 있다.

여기까지 Compute Shader 의 코드설명이 끝났다.

 

요약하자면, 쓰레드가 처리할 일을 커널 함수에 구현하되, 이를 위해 외부로부터 변수를 전달받아야 하기 때문에 몇가지의 변수와 버퍼를 설정했다는 것

 

남은건 이제 이 컴퓨트 셰이더에 변수를 전달하고, 실행하라는 명령을 내리는 것뿐

이를 위해 InstancedProcedural.cs 파일을 몇군데 수정하자.

 

public class InstancedProcedural : MonoBehaviour
{
    [SerializeField] private ComputeShader computeShader;
    [SerializeField] private Material material;

    [SerializeField] private Mesh mesh;

    [SerializeField] private int count;
    
    private ComputeBuffer positionBuffer;
    
    private static readonly int PositionID = Shader.PropertyToID("_Positions");
    private static readonly int ResolutionID = Shader.PropertyToID("_Resolution");
    private static readonly int TimeID = Shader.PropertyToID("_Time");
    

    private void Update()
    {
        positionBuffer?.Release();
        positionBuffer = new ComputeBuffer(count * count, 4 * 16);
        
        computeShader.SetInt(ResolutionID, count);
        computeShader.SetFloat(TimeID, Time.time);
        computeShader.SetBuffer(0, PositionID, positionBuffer);
        
        int groups = Mathf.CeilToInt(count / 8f);
        computeShader.Dispatch(0, groups, groups, 1);
        
        material.SetBuffer(PositionID, positionBuffer);
        Graphics.DrawMeshInstancedProcedural(
            mesh, 0, material, new Bounds(Vector3.zero, Vector3.one), count * count
        );
    }
    
    private void OnDisable()
    {
        positionBuffer?.Release();
        positionBuffer = null;
    }
}

일단 코드량이 더 줄었다. 왜냐하면 위치계산을 하던 부분이 컴퓨트 셰이더로 빠졌기 때문

 

변경된 부분만 살펴보자면,

[SerializeField] private ComputeShader computeShader;

//시리얼라이즈를 통해 위에서 만든 Compute Shader 를 연결해주고
positionBuffer = new ComputeBuffer(count * count, 4 * 16);

//기존에는 x,y,z 의 float 값 3개를 전달하기 위해 4 * 3 = 12 를 썼다면,
//지금은 4x4 행렬을 전달하기 위해 4 * 16 크기로 바꾸었다.
computeShader.SetInt(ResolutionID, count);
computeShader.SetFloat(TimeID, Time.time);
computeShader.SetBuffer(0, PositionID, positionBuffer);

//컴퓨트 셰이더에서 위치와 회전 계산을 위해 변수를 전달하고 있으며,
//계산한 결과를 받기 위해 ComputeBuffer 도 전달한다.
int groups = Mathf.CeilToInt(count / 8f);
computeShader.Dispatch(0, groups, groups, 1);



중요한 부분이다

컴퓨트 셰이더를 실행시키는 함수는 Dispatch인데
첫번째 인자에는 커널의 인덱스를 넣는다
미리 언질하지 않았지만, 하나의 컴퓨트 셰이더는 여러개의 커널을 가질 수 있다.
우리는 현재 커널을 하나만 선언했으므로 0을 넣는다.

이하 매개변수에는 그룹의 갯수를 설정해야 하는데,
아까 위에서 커널을 실행하는 단위는 그룹이라고 했었다.
이 그룹 또한 3차원으로 설정 가능한데, 저 세 매개변수를 모두 곱한게 총 그룹의 갯수가 된다.

자 현재 우리는 컴퓨트 셰이더에 총 64개의 스레드가 병렬 처리되도록 설정했었다 [numthreads(8,8,1)]
하지만 큐브를 count * count 만큼 그려야 하기 때문에 count * count 만큼의 스레드가 필요하단 얘기인데,
count / 8 을 하게 되면 1차원의 그룹 갯수가 도출되고, 이를 x, y 그룹 갯수에 설정하면, 총 돌려야 할 그룹 갯수를 산출할 수 있다.

예를 들어 설명해보자

만약 count 가 128 이라면, 큐브를 총 128 * 128 그려야 하므로 16,384 개의 스레드가 필요하다.
여기서 하나의 커널이 현재 8 * 8 * 1 = 64개의 스레드를 병렬처리 할 수 있으므로
16,384 / 64 하면 필요한 그룹의 갯수가 256개가 나온다.

여기서 Dispatch 함수에 256, 1, 1 로 전달할 수 있지만, 3차원으로도 그룹을 전달 할 수 있기 때문에
x와 y에다가 균일하게 분배하면 16, 16, 1 이렇게도 전달이 가능하다.
결국 요 16 이라는 숫자는 128 / 8 과 같으므로

int groups = count / 8 과 같다

추가적으로 count가 8의 배수가 아닐 경우도 있으므로 올림처리를 해서 그룹이 부족하지 않도록 넉넉히 잡아준 것
material.SetBuffer(PositionID, positionBuffer);

//이제 CubeShader.shader 에는 float3 형태가 아닌 float4x4 형태의 버퍼가 전달된다.

여기까지가 코드 변경부분이다.

 

렌더 셰이더 (CubeShader.shader) 에서는 전달받은 행렬을 통해 정점을 변환 시켜주면 되기 때문에 코드량도 확 줄게 된다.

CubeShader.shader 를 살펴보자

StructuredBuffer<float4x4> _Positions;

...

v2f vert (Input v, uint instanceID : SV_InstanceID)
{
    float4 worldPos = mul(_Positions[instanceID], v.positionOS);
    v2f o;
    o.pos = mul(unity_MatrixVP, worldPos);
    o.normal = mul(v.normalOS, (float3x3)Inverse(_Positions[instanceID]));
    return o;
}

StructuredBuffer는 이제 float4x4 를 받아야 하므로 자료형을 바꿔주었고,

 

버텍스 셰이더 내부에서 정점 위치에 월드 행렬을 곱한 게 전부

추가적으로 행렬을 전달받았기 때문에 노멀 연산도 문제 없다 :)

 

이제 다시 유니티를 실행해보면!! 더욱더 부드러워진 당신의 큐브세상을 볼 수 있을 것이다.

(큐브가 귀여워 보인다면 이미 당신은 프ㅊ...)

 

이로서 컴퓨트 셰이더를 어떤 상황에 어떻게 쓰는지 살펴보았다.

예제 코드는 https://github.com/SeonHwan/ComputeShaderSample/tree/9558675375a04b8e82e5b1498849db03fc51fd6c 를 통해 확인할 수 있다.

 

프로젝트의 퍼포먼스가 떨어져 병렬처리를 고려하고 계신 분에게 조금이나마 도움이 되었으면 하는 바램이다.

다음 포스팅에서는 Job System 을 통해 CPU 작업을 Worker Thread 에게 어떻게 분산시킬 수 있는지를 다뤄보겠다.

'Unity > 최적화' 카테고리의 다른 글

Batch 개념 및 종류  (0) 2021.02.16
병렬처리 기법 1  (0) 2021.02.04

이번 포스팅에서는 유니티 최적화 중 병렬처리 기법에 대해 다루고자 한다.

 

유니티의 약점 중 하나가 싱글 스레드 라는 점인데, (엄밀히 말하면 듀얼 스레드다)

 

씬 로딩화면을 구현할때 ResourceManager.LoadSceneAsync 같은 비동기 함수를 쓰더라도 로딩 중 화면이 끊기는 현상을 자주 접해봤을 것이다.

 

하지만 로딩화면이야 뭐 사용자가 조작도 할 수 없고 현상도 도드라져 보이지 않게끔 움직이는 UI를 최대한 안쓴다던지 하는 방법으로 타협이 가능한데, 조작 중 끊기는 건 그냥 넘어갈 수가 없다. 

 

FPS 나 액션 게임같은 경우 렉 한방에 파티가 전멸하거나 내 케릭터가 사망하는 경험을 한번이라도 해보았다면, 그 중요성을 실감할 수 있을 것이다.

 

그래서 우리는 멀티 스레딩을 대신할 방법을 동원해 이를 해결해야 하는데, 

 

첫번째가 Job System, 두번째는 Compute Shader 이다.

 

이 둘 중 어느 것을 써야 하는지는 병렬 처리 특성에 따라 다르다.

 

Job System 은 Main Thread 가 아닌 별도의 Job Thread ( 유니티에서의 명칭은 WorkerThread 이므로 이후 WorkerThread라고 명명 ) 를 이용해 CPU가 할일을 다른 CPU 코어한테 나눠주는 것이고, (최신 CPU는 코어 갯수가 최소 3~8개이다) Compute Shader 는 GPU한테 그 역할을 맡기는 것이다.

 

Profiler 상에서의 Worker Thread

만약 자신의 프로젝트가 CPU는 바쁜데 GPU는 비교적 널널할 경우 우선 Compute Shader 도입을 고려해야 한다.

GPU는 비용이 작은 스레드를 동시에 처리하는 방식에 특화되어 있기 때문에 스레드 간 데이터 종속성이 없고, 하나의 스레드에 무거운 연산을 하지 않는다면 Job System 보다 효과적인 결과를 얻을 수 있다.

 

 이에 반해 어? 우리는 CPU도 바쁘고 GPU도 바쁜데...이러면 선택의 여지없이 Job System 을 도입해야 한다.

또한 스레드 갯수는 상대적으로 적고 하나의 스레드에서 무거운 연산을 해야 한다면 이 또한 Job System을 도입하는게 유리하다.

 

개념 설명은 여기까지 하고 우리는 프로그래머니까 코드로 설명하는게 확 와닿을 것이다.

 

먼저 병목 현상을 인위적으로 만들어 낸 후 이를 Compute Shader 와 Job System 으로 해결하면서 최적화 된 결과를 도출해내는 과정을 설명하겠다. 

 

먼저 단순히 40000 개의 큐브를 월드에 뿌려보자

using UnityEngine;

public class GeneralInstancing : MonoBehaviour
{
    [SerializeField] private GameObject instancingTarget;

    [SerializeField] private int count = 200;
    
    private void Start()
    {
        for (int i = 0; i < count; ++i)
        {
            for (int j = 0; j < count; ++j)
            {
                GameObject instanced = Instantiate(instancingTarget);
                instanced.gameObject.SetActive(true);
                
                float x = -(count * 0.5f) + i;
                float z = -(count * 0.5f) + j;
                instanced.transform.position = new Vector3(x * 2, 0, z * 2);
            }
        }
    }
}

Scene View, Hierarchy View
큐브 생성 후 Collider는 제거해주자

실제 실행하면 다음과 같이 FPS가 확연히 떨어짐을 체감할 수 있다. (수치값은 PC마다 다를 수 있음)

40000만개의 큐브

프로파일러로 확인해보면 RenderLoop.ScheduleDraw() 에서 많은 시간을 할애하고 있는데, 이는 CPU가 GPU에게 40000 번의 드로우콜을 요청하는데 이만큼의 시간이 걸리고 있다는 것을 의미한다. ( = CPU 병목)

녹색의 RenderLoop.ScheduleDraw 가 확연히 길다.

 그렇다면, CPU를 거치지 않고 우리가 직접 GPU한테 그리라고 명령을 내리면 이 시간이 걸리지 않을테니, 병렬처리 기법에 대해 알아보기 전에 이 작업을 GPU 에게 넘겨보자.

 일단 GPU한테 작업을 넘겨야 그 뒤에 GPU한테 병렬처리를 맡길 수 있으니 일단 해보자

 

using UnityEngine;

public class InstancedProcedural : MonoBehaviour
{
    [SerializeField] private Material material;

    [SerializeField] private Mesh mesh;

    [SerializeField] private int count;
    
    private ComputeBuffer positionBuffer;
    private Vector3[] positions;
    private static readonly int Positions = Shader.PropertyToID("_Positions");

    private void Start()
    {
        positions = new Vector3[count * count];
    }

    private void Update()
    {
        positionBuffer?.Release();
        positionBuffer = new ComputeBuffer(count * count, 12);
        
        for (int i = 0; i < count; ++i)
        {
            for (int j = 0; j < count; ++j)
            {
                float x = (-(count * 0.5f) + i) * 2;
                float z = (-(count * 0.5f) + j) * 2;
                positions[(count * i) + j] = new Vector3(x, 0f, z);
            }
        }
        positionBuffer.SetData(positions);
        material.SetBuffer(Positions, positionBuffer);
        Graphics.DrawMeshInstancedProcedural(
            mesh, 0, material, new Bounds(Vector3.zero, Vector3.one), count * count
        );
    }
    
    private void OnDisable()
    {
        positionBuffer?.Release();
        positionBuffer = null;
    }
}

개념은 4만개의 큐브의 위치를 미리 설정해놓고, Graphics.DrawMeshInstancedProcedural 함수를 통해 GPU한테 직접 그리란 명령을 실행하는 것이다.

 

해당 함수의 매개변수를 보면 Mesh, SubMeshIndex, Material, Bounds, Count 로서 포지션을 셋팅할 수 있는 부분이 없다.

아니 그럼 어떻게 여기에 각각의 큐브의 포지션을 전달합니까?

 

이를 위해 ComputeBuffer가 필요하다.

ComputeBuffer 생성시 매개변수로, 생성할 갯수와 버퍼의 사이즈를 셋팅해줘야 하는데

매개변수에 count 와 stride

4만개의 큐브의 포지션 값을 저장할 것이므로 Count는 4만이고, 사이즈는 바이트 값으로서, float 값 3개 (x, y, z) 를 전달하면 되니까

float (= 4byte) * 3개 = 12 byte

즉 12 를 셋팅해 주면 된다.

 

이 버퍼를 통해 포지션값을 전달해주면, 쉐이더 내부에서 이 포지션 값을 참조해서 정점에다 셋팅해주면 끝

 

코드를 보면서 설명하자 (참고로 해당 쉐이더 코드는 URP 기준입니다)

쉐이더 파일을 하나 생성후 다음 코드를 붙여넣자

(CubeShader.shader)

Shader "Custom/CubeShader"
{
    SubShader
    {
        Tags { "RenderType" = "Opaque" "RenderPipeline" = "UniversalPipeline" "UniversalMaterialType" = "SimpleLit" "IgnoreProjector" = "True" "ShaderModel"="4.5"}
        LOD 300

        Pass
        {
            Name "ForwardLit"
            Tags { "LightMode" = "UniversalForward" }
            
            Blend One Zero
            ZWrite On
            Cull Back

            HLSLPROGRAM

            #pragma prefer_hlslcc gles
            #pragma exclude_renderers d3d11_9x
            #pragma target 4.5
            
            #include "Packages/com.unity.render-pipelines.core/ShaderLibrary/Common.hlsl"
            #include "Packages/com.unity.render-pipelines.universal/ShaderLibrary/Input.hlsl"
            #include "Packages/com.unity.render-pipelines.core/ShaderLibrary/SpaceTransforms.hlsl"
            #include "Packages/com.unity.render-pipelines.universal/ShaderLibrary/Lighting.hlsl"

            #pragma vertex vert;
            #pragma fragment frag;
            
            StructuredBuffer<float3> _Positions;
            
            struct Input
            {
                float4 positionOS   : POSITION;
                float3 normalOS     : NORMAL;
            };
            struct v2f
            {
                float4 pos : SV_POSITION;
                float3 normal : NORMAL;
            };

            v2f vert (Input v, uint instanceID : SV_InstanceID)
            {
                float3 data = _Positions[instanceID];
                
                float3 localPos = v.positionOS.xyz;
                float3 worldPos = data.xyz + localPos;
                
                v2f o;
                o.pos = mul(unity_MatrixVP, float4(worldPos, 1.0f));
                o.normal = TransformObjectToWorldNormal(v.normalOS);
                return o;
            }

            half4 frag(v2f i) : SV_TARGET
            {
                Light mainLight = GetMainLight();
                i.normal = normalize(i.normal);

                float3 lambert = LightingLambert(mainLight.color, mainLight.direction, i.normal);
                half3 ambient = SampleSH(i.normal);

                lambert *= mainLight.distanceAttenuation * mainLight.shadowAttenuation;
                lambert += ambient;
                
                return half4(lambert, 1);
            }
            
            ENDHLSL
        }
    }
}

fragment 쉐이더는 일반적인 램버트 라이팅과 앰비언트를 적용한 코드므로 중요치 않고, vertex 쉐이더 부분을 주의깊게 보자

 

중간쯤 StructuredBuffer<float3> 이 보인다. 스크립트의 material.SetBuffer() 를 통해 전달된 ComputeBuffer 가 여기에 저장되어 있고, 

vertex shader 함수의 SV_InstanceID 를 통해 나의 포지션을 받아 이를 정점위치에 적용시키고 있다.

 

StructuredBuffer는 일종의 배열이므로 _Positions[index] 문법을 사용할 수 있고, SV_InstanceID 는 각 메시별 고유한 인스턴싱 아이디로서 0 부터 시작하는 int 값이다.

 

코드 작업이 끝났다면, 유니티에서 메테리얼을 하나 생성 후 해당 쉐이더를 설정해준뒤, Serialize Field를 통해 메시와, 그 메테리얼을 설정해준다.

CubeMtrl 이란 메테리얼에 CubeShader를 설정하자
게임오브젝트에 InstancedProcedural 스크립트를 연결하고 Material 은 CubeMtrl, Mesh는 일반 Cube 연결

이제 다시 실행하고 통계창을 확인해보면 FPS가 확연히 높아짐을 확인할 수 있다.

65 FPS 확인

프로파일러 에서도 해당 작업이 시간이 거의 걸리지 않음을 확인할 수 있다.

RenderLoop.ScheduleDraw() 가 보이지 않는다.

여기까지만 해도 사실 병목현상은 해결했기 때문에 병렬처리와 무관한 부분이다.

하지만 이제 여기에 큐브가 회전하는 작업을 넣고 싶다면?

 

일반적인 상황이라면, Update() 함수에서 다음 한줄만 실행하면 된다.

transform.Rotate(Vector3.up, Time.deltaTime * 50f);

그런데 우린 정점 처리를 GPU에다 직접 넣고 있기 때문에 회전 정보도 직접 GPU에 전달해줘야 한다.

 

위 셰이더 코드 중 vert 함수를 아래 코드로 대체하자

 

float4x4 RotateYMatrix(float r)
{
    float sina, cosa;
    sincos(r, sina, cosa);
    
    float4x4 m;
    
    m[0] = float4(cosa, 0, -sina, 0);
    m[1] = float4(0, 1, 0, 0);
    m[2] = float4(sina, 0, cosa, 0);
    m[3] = float4(0, 0, 0, 1);
    
    return m;
}

float4x4 PositionMatrix(float3 pos)
{
    float4x4 m;
    m[0] = float4(1,0,0,pos.x);
    m[1] = float4(0,1,0,pos.y);
    m[2] = float4(0,0,1,pos.z);
    m[3] = float4(0,0,0,1);
    
    return m;
}

v2f vert (Input v, uint instanceID : SV_InstanceID)
{
    float4x4 tfM = mul(PositionMatrix(_Positions[instanceID]), RotateYMatrix(_Time.y));
    float4 worldPos = mul(tfM, v.positionOS);
    
    v2f o;
    o.pos = mul(unity_MatrixVP, worldPos);
    o.normal = mul(v.normalOS, (float3x3)Inverse(tfM));
    
    return o;
}

코드에 대해 설명하자면,

 

정점의 위치 행렬과 회전 행렬을 구한 후 이를 통해 Model 행렬 (로컬 공간에서 월드 공간으로 가기 위한 행렬) 을 도출해서 fragment 쉐이더에 전달하고 있다.

 

여기서 3D 그래픽에 대해 간단히 짚고 넘어가야 할 것 같다.

 

물체의 정점은 vertex shader 에서 여러 변환(MVP 행렬을 곱함) 을 거쳐 fragment shader 로 전달되고 fragment shader 에서 픽셀 연산을 거친 후 (주로 라이팅 연산) 최종적으로 모니터 화면에 뿌려진다.

 

우리는 현재 shader 내부에서 회전을 해줘야 하기 때문에 직접 회전행렬을 구해야 하고, 위치 행렬또한 직접 구해서 Model 행렬을 도출해내야 한다.

 

회전 행렬은 어떤 축을 기준으로 회전시키냐에 따라 다른데 우리는 Y축을 기준으로 회전하고 싶으니 아래 행렬을 써야 한다.

Y축 회전행렬

또한 위치 행렬은 아래 행렬을 쓴다

이를 이용해 RotateYMatrix 함수에서는

  • sincos(r, sina, cosa) 에서 해당 r값(라디안값) 을 사인코사인 값으로 변환
  • float4x4 로 4x4 행렬을 생성
  • 4개의 행에 회전행렬 요솟값들을 설정

PositionMatrix 함수에서는

  • 4x4 행렬 생성
  • 포지션 값을 설정

이 두 행렬을 구해서 동일하게 넘겨주면 shader 에서 회전을 연산하는 코드가 완성된다.

 

실행을 해보면 Update() 에서 실행한 것관 다르게 프레임 저하없이 부드럽게 회전하고 있는 큐브를 확인할 수 있다.

 

'아 이 사람 뭐지 병렬처리 설명해준담서 이상한 것만 하고 있네'

 

이제 기반환경이 모두 마련되었으니 Compute Shader 를 어떤때 쓰는지 확인할 시간이다.

이후는 다음 블로그에서 다루기로 하겠습니다.

 

여기까지의 코드는 아래 링크에서 다운받을 수 있으니 혹여 실행이 안된다면 참고용으로 확인해 보시기 바랍니다.

https://github.com/SeonHwan/ComputeShaderSample/tree/3f2dac345239c940db67b02fe6b7f97132c2ab4d

 

'Unity > 최적화' 카테고리의 다른 글

Batch 개념 및 종류  (0) 2021.02.16
병렬처리 기법 2  (0) 2021.02.05

+ Recent posts