Post

딥페이크(Deepfake) 개요 및 기술 정리

딥페이크(Deepfake) 개요 및 기술 정리

1. 딥페이크(Deepfake)란?

딥 러닝(Deep Learning)가짜(Fake) 의 합성어로, 인공지능 기술을 활용해 기존 인물의 얼굴이나 특정 부위를 합성한 ‘AI 기반 영상/음성 조작물’ 을 통칭한다.

과거의 CG나 포토샵 합성이 전문가의 수작업에 의존했다면, 딥페이크는 데이터를 학습한 AI가 자동적이고 정교하게 생성한다는 점에서 차이가 있다.

2. 핵심 작동 원리 (Technology Stack)

딥페이크는 주로 두 가지 핵심 모델 구조를 기반으로 작동한다.

1. 오토인코더 (Autoencoder) 기반

초기 딥페이크(Deepfakes)의 가장 기본적인 원리이다.

  1. 인코더(Encoder): 입력된 얼굴 이미지를 압축하여 핵심 특징(Latent Vector)만 추출한다.
  2. 디코더(Decoder): 압축된 정보를 다시 이미지로 복원한다.
  3. 원리: A의 얼굴을 인코더로 압축한 뒤, B의 얼굴을 복원하도록 학습된 디코더에 통과시키면, 표정은 A인데 얼굴 생김새는 B인 결과물이 나온다.

2. GAN (Generative Adversarial Networks) 기반

더 정교하고 자연스러운 영상을 만들 때 사용된다.

  1. 생성자(Generator): 가짜 이미지를 끊임없이 만들어낸다.
  2. 판별자(Discriminator): 생성된 이미지가 진짜인지 가짜인지 감시한다.
  3. 원리: 생성자는 판별자를 속이기 위해 점점 더 정교한 가짜를 만들고, 판별자는 더 잘 구분하기 위해 진화하며 서로 경쟁(Adversarial)하여 품질을 극한으로 끌어올린다.

3. 딥페이크의 주요 유형 (Categorization)

단순히 얼굴만 바꾸는 것이 아니라, 조작 방식에 따라 크게 4가지로 분류된다.

유형기술 명칭설명예시
얼굴 교체Face Swap영상 속 인물의 얼굴을 타인의 얼굴로 완전히 교체영화 속 배우 얼굴 바꾸기
표정 조작Face Reenactment타겟 인물의 얼굴은 그대로 두고, 표정과 입 모양만 조종웃지 않는 사진을 웃게 만듦
음성 합성Voice Cloning특정인의 목소리 톤, 억양을 학습해 텍스트를 읽게 함보이스피싱, AI 커버곡
전신 합성Body Synthesis얼굴뿐만 아니라 춤추는 동작 등 전신 움직임을 생성버추얼 휴먼, 틱톡 댄스 챌린지 합성
This post is licensed under CC BY 4.0 by the author.