고해상도 카메라와 편집 도구의 확산으로 증가한 디지털 이미지 조작을 배경으로, 능동·수동 위조 탐지 기법과 딥러닝/머신러닝 기반 최신 접근법, 성능 지표, 데이터셋, 연구 공백과 향후 과제를 종합적으로 정리한다.
URL: https://ieeexplore.ieee.org/document/10752965
Title: Image Forgery Detection Techniques: Latest Trends and Key Challenges
논문 제목 “Image Forgery Detection Techniques: Latest Trends And Key Challenges”의 그래픽 초록
고해상도 카메라의 성능 향상과 접근성 증대로 다양한 매체를 통한 이미지 촬영이 크게 증가하였다. 이미지 편집을 위한 다양한 도구들이 존재하며, 이러한 도구들은 이미지 품질을 향상시키기 위해 자주 사용되는데 그 결과 이미지가 변형되기도 한다. 따라서 원본 이미지의 진정성(authenticity) 또는 무결성(integrity)을 판별하는 일은 어떤 분야에서든 어려운 과제가 된다. 현재 이미지나 비디오는 디지털 포렌식에서 중요한 법적 데이터 소스다. 그러므로 본 연구는 법적 사건과 관련된 디지털 증거(이미지 또는 비디오)가 변조되었는지 여부를 판단하는 것을 1차 목표로 한다. 디지털 워터마킹과 디지털 서명 같은 능동(active) 위조 탐지 방법, 그리고 복사-이동(copy-move), 스플라이싱(splicing), 리터칭(retouching)을 포함한 수동(passive) 위조 탐지 기법이 디지털 증거를 검증하는 데 사용된다. 최근에는 이미지 위조 탐지에서의 효과로 인해 신경망(NN) 기반 위조 탐지가 주목받고 있다. 이러한 모델들의 장단점을 평가하기 위해, 본 연구는 먼저 위조 탐지의 여러 분류와 그 분류가 어떻게 구현되는지를 살펴본다. 우리는 연구자들이 제안한 다양한 아키텍처를 각자의 전문적 관점에 비추어 요약·비교한 뒤, 품질 관점에서 분석하였다. 위조 탐지에서 가장 많이 사용되는 방법론들을 각 기법의 장점과 단점을 언급하며 상세히 설명한다. 또한 포렌식 과학에서 이미지 위조를 탐지하기 위해 신경망 및 머신러닝(ML) 기법이 어떻게 배치(deployment)되는지도 검토한다. 마지막으로 현재의 도전 과제와, 연구자들이 지식 격차를 메우는 데 도움이 될 잠재적 연구 방향을 강조했다.
논문 제목 “Image Forgery Detection Techniques: Latest Trends And Key Challenges”의 그래픽 초록
페이지: 169452 - 169466
출판일: 2024년 11월 14일
전자 ISSN: 2169-3536
SECTION I.
오늘날의 생활에서는 스마트폰, 태블릿, 노트북 등 내장 카메라가 있는 다양한 기기를 손쉽게 사용할 수 있어 이미지 촬영과 동영상 콘텐츠 제작이 매우 흔하다. 이러한 이미지와 영상을 소셜 미디어에 공유하는 일도 보편적이다. 대다수의 경우, 이미지를 더 매력적이고 선명하게 보이도록 만들기 위해 Adobe Photoshop, Photo Editor 등의 다양한 편집 도구/소프트웨어를 사용하여 원본 이미지를 위조(변조)한다 [1]. 이미지는 처음 촬영된 이후 위조 이미지가 되기까지 여러 단계를 거친다. 이러한 위조 이미지를 식별하는 일은 어려운 과제다. 디지털 촬영 이미지 조작의 한 예가 그림 1에 제시되어 있는데, 어떤 웹사이트에 게시된 이미지에서는 미사일이 4발인 것처럼 보이지만, 실제로는 처음에 3발만 발사되었다 [2].
FIGURE 1.
CMF의 예 [2].
디지털 이미지 위조 탐지는 위조된 이미지를 식별하기 위한 연구 주제로, 주로 실제 이미지의 출처와 특성에 초점을 맞춘다. 디지털 이미지와 비디오는 디지털 포렌식에서 중요한 법적 데이터이다. 계산 기술의 발전으로 진짜 이미지를 빠르게 조작할 수 있기 때문에 이미지의 진정성은 항상 의문으로 남는다. 이미지의 일부가 악의적인 의도를 가지고 의도적으로 수정되면, 그 조작된 이미지는 이미지 위조 사례로 식별된다. 조작 이미지 생성 관행은 소셜 미디어 네트워크에서 날로 증가하며 가짜 뉴스 확산으로 이어진다. 이러한 문제로 인해 연구자와 과학자들은 디지털 이미지 포렌식 및 위조 탐지에 집중하게 되었다.
2000년대 초반부터 이미지 위조를 식별하기 위한 수많은 방법과 서베이가 제안되었다. 이미지 위조를 탐지하기 위해 다양한 방법론이 사용되며, 여러 참고 문헌이 본 논문의 다음 절에서 설명된다. 이미지 기반 위조 탐지는 보통 능동 위조(active forgery)와 수동 위조(passive forgery) 두 가지 유형으로 구분된다. 능동 위조 탐지 방법은 이미지 획득 시점에 소량의 코드를 이미지에 삽입하여 데이터를 숨긴다는 아이디어에 기반한다. 능동 위조 방법에는 워터마킹과 디지털 서명이 있다. 디지털 워터마킹은 이미지에 소유자 진정성을 보장하기 위한 심볼을 삽입한다. 그러나 디지털 워터마킹은 모든 디지털 카메라에서 사용할 수 있는 것이 아니어서, 이미지 진정성 확보에 어려움을 야기한다. 이것이 디지털 이미지에서 워터마킹 기법의 주요 단점이다 [49]. 디지털 서명은 해시 함수 알고리즘을 사용하여 이미지나 전자 문서 같은 디지털 정보를 인증하는 암호화된 인증 방식이다.
반면 수동 방법은 이미지에 숨겨진 정보를 고려하지 않고, 이미지의 통계적·의미적 특성을 분석하여 변경이 있었는지를 판단한다. 복사-이동(copy-move), 이미지 스플라이싱(splicing), 리터칭(retouching)이 수동 위조 탐지 방법의 범주이다 [50]. 지난 10년간 CMF는 이미지 조작 기법으로서 인기가 높아졌다. Copy-Move Forgery Detection(CMFD) 알고리즘은 DCT, LPT(Log-Polar transform) 등 8개 범주로 세분된다 [51]. Ansari 등 [19]은 픽셀 기반 이미지 위조 탐지의 다양한 방법을 연구했다. Singh과 Kaur [52]는 블록 기반 CMF 탐지 기법의 다양한 하위 범주를 논의했다. Zhang 등 [53]은 CMF 수학 모델에 더해 두 가지 CMFD 기법 프레임워크를 검토했다.
위의 연구 대부분은 전통적 방법에 집중했다. 반면 최근 컴퓨터 비전 및 디지털 이미지 처리 분야의 발전은 딥러닝(DL) 기법의 혁신적 잠재력을 보여주었다. 특히 대규모 학습 데이터셋이 있을 때 더 좋은 결과를 낸다. 또한 기존 서베이의 상당수는 DL의 최신·고급 접근법, 전통적 접근법, 이용 가능한 데이터셋과 그 장단점을 한 곳에 모아 정리한 정보가 부족했다. 우리는 연구자들이 여러 논문을 일일이 읽지 않고도 참고할 수 있도록 CMFD 관련 정보를 한 곳에 모으고자 했다.
본 논문의 주요 기여는 이미지 위조 탐지 연구에서 여러 핵심 목표를 다룬다. 본 연구는 현재 사용되는 방법들을 능동과 수동 두 범주로 나누어 포괄적으로 분석한다. 위조 탐지 연구에서 자주 사용되는 데이터셋을 고려한 비교 분석을 통해 두 범주의 장단점을 평가한다. 또한 탐지 정확도를 향상시키기 위해 신경망 및 머신러닝 모델을 활용하는 새로운 방법론을 조사한다. 픽셀 수준과 이미지 수준 모두에서 CMFD 기법을 평가하는 성능 지표를 상세히 검토한다. 더불어 현재 분야에서 직면한 과제를 다루고, 이미지 위조 탐지를 보다 효과적으로 수행하기 위한 향후 접근 방향을 제안한다.
본 서베이 논문의 구조는 그림 2에 제시되어 있다.
FIGURE 2.
본 서베이 논문의 로드맵.
SECTION II.
광범위한 문헌 조사에 근거하여, 능동 및 수동 위조 탐지의 초기 분류는 조작의 종류를 탐지하기 위해 사용되는 기법에 따라 여러 부분으로 추가 세분된다. 이미지 위조 탐지의 다양한 방법에 대한 상세 분류는 그림 3에 정리되어 있다. 본 연구에서는 위조 탐지 기법 중 능동(active) 부분에 주로 초점을 맞추었다.
FIGURE 3.
다양한 위조 기법의 범주화.
더 나은 이해를 위해, 다음 절에서 관련 연구들을 상세 분석한다.
본 체계적 문헌 고찰에 포함할 관련 연구를 수집하기 위해 다양한 포함(inclusion) 및 배제(exclusion) 기준을 고려했으며, 이는 그림 4에 제시되어 있다.
FIGURE 4.
연구 선택 과정을 위한 PRISMA 분류.
본 연구에서 논문을 선정하기 위한 기준은 다음과 같다.
마찬가지로, 배제 기준은 다음과 같다.
SECTION III.
일반적으로 이미지의 수정(변조)은 동작 원리에 따라 여러 구간으로 구분될 수 있다. 어떤 이미지에서든 위조 여부의 식별은 항상 이진 응답, 즉 입력 이미지가 진짜인지(Real) 혹은 변조되었는지(Altered)에 대한 ‘예/아니오’ 형태의 응답이다 [3]. 이는 변경 비율과 무관하다. 포렌식 분야에서 사용되는 이미지 위조 탐지 기법의 계층 구조와 이들의 목표는 이해를 돕기 위해 그림 5에 제시하였다.
FIGURE 5.
이미지 위조 탐지 기법의 계층 구조와 목표.
Input Image: 초기 단계에서는 디지털/아날로그 변환, 카메라 렌즈, 컬러 필터 어레이(CFA) 사용 여부 등 입력 이미지와 관련된 요소를 다룬다 [4]. 이는 이미지 조작/변조가 수행되었는지 탐지하는 데 중요한 단계다.
Conversion of Grayscale: 계산을 단순화하기 위해 입력 이미지를 먼저 획득한 뒤 그레이스케일로 변환한다.
Keypoint-Based and Block-Based Division: 이 단계에서는 키포인트 기반 및 블록 기반 알고리즘을 사용하여 그레이스케일 이미지에서 복잡도를 줄인다.
Feature Extraction: 위조를 탐지하기 위해 이미지로부터 모든 특징/특성을 추출한다. 대각선 기반 특징, 체인 코드 히스토그램, 주성분 분석(PCA), 푸리에 디스크립터 등 다양한 기법이 사용된다.
Feature Sorting: 추출된 특징을 행렬에 저장하고, 이후 군집화될 매칭 블록들을 저장한다. 특징 정렬을 위해 다양한 알고리즘이 사용된다.
Feature Matching: 군집화, K-최근접 이웃(KNN), 유클리드 거리 등을 사용해 이미지 내 동일(유사) 블록을 결정한다.
Forgery Detection Results: J-linkage를 활용한 강건 군집화, 합성곱 신경망(CNN), DCT 계수 분석 등 다양한 기법을 통해 위조 탐지 결과를 도출한다.
SECTION IV.
이 기법은 디지털 이미지에 사전 추출·사전 삽입된 기밀 정보에 기반해 동작한다. 가장 대중적인 능동 위조 기법 [5]은 디지털 서명과 디지털 워터마킹이다. 능동 탐지 기법에서의 디지털 이미지 위조 분류는 다음과 같다. 먼저 이미지에 어떤 인증 정보가 삽입되고, 이후 인증 기법으로 재검증하여 능동 위조 접근을 탐지한다 [6].
표 1은 능동 탐지 기법에서의 디지털 이미지 위조 분류를 보여준다.
TABLE 1 능동 탐지 기법의 분류
이 과정에서는 소유자 진정성을 위한 심볼을 이미지 또는 비디오 데이터에 삽입한다. 데이터에 어떤 변경/수정이 가해지면 워터마크가 손상되어 데이터 변조를 나타낸다. 워터마크는 일반적으로 저작권 및 데이터 권리 보호에 사용된다. Urvoy 등 [7]은 워터마킹 기법이 보안(security), 용량(capacity), 강건성(robustness), 비가시성(invisibility)이라는 네 가지 핵심 요구사항을 가진다고 설명했다. 워터마킹은 그림 6과 같이 공간(spatial) 영역과 주파수(frequency) 영역 모두에 기반할 수 있다.
FIGURE 6.
워터마킹 기법.
워터마킹은 스프레드 스펙트럼(SS)과 최하위 비트(LSB)를 사용해 수행되며, 둘 다 공간 영역에 기반한다. SS 이미지 워터마킹의 장점 두 가지는 높은 비가시성(지각 불가능성)과 더 나은 워터마크 검출 성능이다. SS 삽입 방식에는 가산(additive) SS와 승산(multiplicative) SS 두 종류가 있다. 가산 SS에서는 고정된 삽입 강도로 워터마크 정보가 균등하게 퍼지고, 승산 SS에서는 워터마크 정보가 적응적으로 퍼진다.
저작권 보호를 위한 범용 프레임워크를 지원하기 위해 Bose와 Maity [8]는 승산 및 가산 손상(impairment)이 모두 존재하는 상황에서 열화된 압축 이미지에서 워터마크를 식별하는 SS 기반 모델을 제안했다. 먼저 로그-우도비(log-likelihood ratio) 기반의 워터마크 검출 임계값 계산을 수행한다. سپس 검출기 신뢰도 제약 하에서, SS 측정 계산과 워터마크 삽입 성능에 기반해 왜곡 최소화 문제를 정식화한다.
Bamatraf 등 [9]은 워터마크 텍스트 값을 이진으로 반전(flipping)한 후 이미지의 홀수/짝수 픽셀 값에 대응하도록 이동(shift)시킨 뒤 워터마크를 삽입하는 LSB 방법을 제안했다. 제안 알고리즘은 워터마크 길이에 따라 수정 가능하다. 워터마크 텍스트 길이가 ((MxN)/8)-2를 초과하면, 추가 워터마크 텍스트는 두 번째 LSB에 삽입된다. 이 기법은 LSB 및 역비트 조합을 사용해 워터마크 이미지에 크롭(cropping)과 노이즈 추가 공격을 가한 후에도 우수한 결과를 보인다. 새로운 기법은 더 나은 결과를 위해 시험되었고, 주파수 영역에서 피크 신호대잡음비(PSNR)를 사용해 전통적 LSB와 비교되었다.
주파수 영역에서는 DFT, DWT, DCT, SVD가 워터마킹에 사용되는 네 가지 기법이다. 어떤 디지털 이미지에 워터마킹 존재 여부를 식별하기 위해 Urvoy 등 [7]은 지각적으로 최적인 가시성 대 강건성(perceptually-optimal visibility versus robustness)을 고려한 새로운 검출 방법을 제안했다. 이 방법은 다양한 공격에 대해 높은 강건성을 보인다. 푸리에 영역에서 노이즈 형태의 정사각 패치 계수를 치환 방식으로 삽입하며, 진폭(amplitude) 성분이 워터마크 강도를 조절하고 위상(phase) 성분이 이미지의 워터마크 데이터를 저장한다.
Makbol 등 [10]은 DWT에서 SVD와 인간 시각 시스템(HVS)을 활용한 블록 기반 워터마킹을 제안했다. 이 방법은 엔트로피와 에지 엔트로피를 워터마크 삽입에 중요한 블록을 선택하는 핵심 특성으로 사용한다. Kumar 등 [11]은 DWT를 사용해 이미지 내 워터마크를 관리하는 웨이블릿 기반 수정된 구매자-판매자 워터마킹 프로토콜을 구현했다. 3레벨 DWT의 특정 선택 서브밴드에 이진 워터마크 로고를 삽입해 원본 이미지를 변경한다. 이후 DWT 서브밴드를 계산하고, 고주파 서브밴드 계수에 워터마크 비트 시퀀스를 삽입한다. 워터마크 이미지의 강건성은 PSNR 및 NCC 지표로 평가된다.
한편 Radhika Totla [12]는 DCT와 DWT를 사용해 워터마킹을 분석하는 비교 연구를 제시했다. Ernawan과 Kabir [13]은 저작권 보호를 위한 최적 DCT 정신시각 임계값(psycho-visual threshold)을 사용하는 워터마크 프레임워크를 제안했다. 이 방법은 워터마크 비트를 삽입했을 때 이미지 왜곡이 최소가 되는 특정 DCT 주파수 대역을 사용한다. 표 2는 워터마킹 관련 주요 정보를 보여준다.
TABLE 2 워터마킹 관련 연구
디지털 서명의 일반적 구현 절차 [14]는 다음 단계로 설명된다.
디지털 서명은 해시 함수 알고리즘을 생성하여 이미지, 전자 문서 등 디지털 정보를 인증하는 암호화된 인증 스탬프 형태다. 이미지 데이터에 변경/수정이 있으면 해시 함수가 변하며, 이는 이미지가 조작되었음을 의미(즉 이미지 위조)한다. 디지털 서명은 암호학을 이용해 메시지의 진정성과 무결성을 보장한다. ECDSA, RSA, DSA 등 여러 공개키 기반 알고리즘이 이미 제안되어 있다. 디지털 서명 알고리즘은 메시지에 직접 적용하거나, 해시 값을 적용해 태그를 생성하고 이를 통해 메시지의 진정성을 보장할 수 있다.
Xuan 등 [15]은 모바일 디바이스 에뮬레이터에서 Java ME로 구현한 DSA, ECDSA, RSA 등 다양한 디지털 서명 알고리즘을 비교 연구했다. 실험 비교 결과에 따르면, RSA는 모바일 기기에서 서명 검증에 더 적합하고, ECDSA는 서명 생성에 더 실용적이다. Zhang 등 [16]은 타원 곡선 암호시스템을 구현해 기존 디지털 서명 알고리즘을 개선한 새로운 디지털 서명 방식을 제안했다. 시뮬레이션 결과 이 기법은 기존 방식보다 더 높은 보안을 제공한다.
디지털 서명 시스템(DSS)은 공개키 암호 기술을 사용해 디지털 서명을 생성한다. Campbell [17]은 모바일 환경에서 무결성과 부인 방지 특성을 갖는 디지털 서명 지원을 검토했으며, 워크스테이션에서 디지털 서명을 생성하는 모든 방법과 위험을 분석했다. 표 3은 디지털 서명 관련 주요 정보를 보여준다.
TABLE 3 디지털 서명 관련 연구
이 기법은 이미지에 숨겨진 정보는 고려하지 않고, 통계 및 의미(semantics)에 기반한 이미지 분석을 통해 변경 여부를 확인한다 [18]. 수동 위조 기법에서 가장 널리 사용되는 방법은 픽셀 기반, 포맷 기반, 기하학 기반, 카메라 기반, 물리적 증거 기반 등이다.
수동 탐지 기법에서는 [19], [20] 전체 맥락이 조작되었는지 또는 디지털 이미지의 일부 특성만 특정하게 수정되었는지에 따라 위조를 탐지할 수 있다. 이 접근은 이미지 분석 원리에 기반하며, 주로 의미와 통계에 초점을 맞춰 조작 여부를 판별하고 이미지에 삽입된 숨겨진 정보는 고려하지 않는다. 표 4는 수동 탐지 기법에서의 디지털 이미지 위조 분류를 보여준다.
TABLE 4 수동 탐지 기법의 분류
픽셀 기반 기법의 주요 목적은 이미지 픽셀에서의 산술적 변경을 판별하는 것이다 [19]. 이미지 픽셀 수준에서의 통계적 변동 형태로 존재하는 조작(있다면)을 탐지한다. 표 5는 수동 탐지 기법 하에서 픽셀 기반 위조 탐지의 분류를 보여준다. 추가 분류는 아래에 설명한다.
TABLE 5 픽셀 기반 위조 탐지 기법의 분류
디지털 이미지 위조 중 가장 대중적인 것은 복사-이동(copy-move) 기법이다 [20]. 이미지의 일부를 복제한 뒤 같은 이미지의 다른 위치에 붙여넣는 조작으로, 그림 7에 나타나 있다.
FIGURE 7.
CMFD 과정.
CMF는 이미지를 변경하는 가장 단순하고 널리 사용되는 방식 중 하나다. CMF의 목적은 이미지의 여러 부분을 숨겨 이미지의 진정성을 무의미하게 만드는 것이다. 이미지에서 복사-이동이 발생했는지 판단하는 방법은 그림 8과 같이 특징(feature) 기반과 블록(block) 기반 두 가지가 있다.
FIGURE 8.
CMFD 방법.
특징 기반 접근은 변조 이미지에서 코너, 블롭, 에지 같은 국소 특징을 추출한다. CMFD에서 복사-이동 공격을 탐지하기 위해 가장 흔히 사용되는 키포인트 특징은 SIFT(scale-invariant feature transform)와 SURF(speeded-up robust features)다. 표 6은 CMFD 관련 주요 정보를 보여준다.
TABLE 6 CMFD 관련 연구
SIFT 계산은 키포인트 위치화(localization), 스케일-공간 극값 검출, 방향 결정, 키포인트 디스크립터 계산 등 여러 측면을 포함한다. SIFT 디스크립터 추출은 회전, 스케일, 조명 변화 등 요인에 둔감하다. 이 접근은 복사 영역과 붙여넣기 영역 사이의 유사성을 비교하여 CMF를 탐지할 수 있다.
Huang 등 [23]은 디지털 이미지에서 CMFD를 식별하기 위한 효율적 방법을 제안했다. 이미지에서 SIFT 디스크립터를 얻은 뒤, 추출된 디스크립터 벡터 간 유클리드 거리를 계산해 매칭을 수행한다. JPEG 압축, 노이즈, 회전, 스케일링 등 여러 후처리 조건에서의 성능과 강건성이 합리적임을 보였다.
Li와 Zhou [24]는 키포인트 추출 알고리즘(SIFT)을 활용하여 포인트 수를 줄이고 매칭 과정을 개선하는 CMFD 탐지 및 위치 추정 방법을 제안했다. 이 접근은 계층적 특징점 매칭 방법에 기반한다.
Bo 등 [25]은 SURF 디스크립터에 기반한 빠른 CMF 탐지 접근을 제안했다. SURF 디스크립터를 추출한 뒤, 전체 디스크립터의 부분집합 간 매칭을 수행한다. 이 접근은 이미지의 중복 영역을 탐지하는 데 유용하며 노이즈 및 블러링에 강건하다.
Jaseela와 Nishadha [26]는 복사-이동 탐지에서 SIFT와 SURF를 비교하며 비교 표를 제시했다. 관찰 결과, SURF 알고리즘 기반 위조 탐지는 SIFT 기반보다 더 빠르게 동작한다. SURF는 Hessian 행렬 근사와 적분 이미지 덕분에 더 빠른 매칭 속도를 가진다.
변조 이미지의 특성을 모두 평가하기 위해 블록 기반 기법은 이미지를 중첩(overlapping) 또는 비중첩(non-overlapping) 블록으로 나눈다. 이후 각 블록의 강건한 특징을 추출하고, 블록 쌍 간 특징 매칭을 수행한다. 매칭은 적절한 데이터 구조를 사용해 블록 특징을 정렬/배열한 뒤 수행된다. 주파수 영역과 LBP는 CMFD에서 복사-이동 공격을 식별하기 위해 사용되는 대표적 블록 기반 알고리즘이다.
주파수 영역에서 신호 변환을 사용하면 이미지 블록에 대한 시그니처를 제공하여 중복 영역을 식별한다. FFT, DCT, FMT, DWT 등이 주파수 영역 방법이다. Fridrich 등 [27]은 DCT 계수 기반 접근을 양자화하고, 시프트 벡터와 DCT 계수의 사전식(lexicographic) 정렬을 이용해 이미지의 중복 영역을 탐지하는 연구를 제시했다. 변조 이미지가 손실 JPEG로 저장되거나 복사 영역이 자연스럽게 섞이도록 리터칭되었더라도 변경된 부분을 탐지할 수 있다.
Bayram 등 [28]은 FMT를 이용해 이미지 블록에서 특징을 추출하여 가짜 이미지를 식별하는 접근을 제안했다. FMT 특징은 JPEG 압축, 회전, 높은 압축률, 블러링, 노이즈 추가에도 강건하다. 또한 사전식 정렬 대신 카운팅 블룸 필터(counting bloom filters)를 사용하여 탐지 시간을 줄인다.
Fattah 등 [29]은 CMFD 방법에서 사용되는 블록 매칭 기법을 설명했다. 변조 이미지에 2차원 DWT를 적용하고, 근사 DWT 계수를 블록으로 나눈다. 계산 부담을 줄이기 위해 유사도 측정을 사용하여 비중첩 블록 중 일부 후보 블록만 선택한다. 유사도 기준을 도입해 위조 블록을 탐지하며 CMF를 효율적으로 검출할 수 있다.
LBP는 그레이스케일 텍스처 연산자로 이미지의 공간적 구조를 정의한다. Li 등 [30]은 이미지를 필터링한 뒤 중첩 원형 블록으로 분할하고, 회전 불변 균일(uniform) LBP로 원형 블록의 특징을 추출하여 관련 블록을 추적함으로써 위조 영역을 식별하는 CMF 탐지 방법을 제안했다. LBP 속성은 JPEG 압축, 블러링, 노이즈 오염, 영역 회전, 플리핑 등 이미지 특성과 무관하게 강건하다.
위조 탐지에는 리터칭이 자주 포함되며, 색상, 선명도 등 이미지의 시각적 속성을 변경할 수 있다 [21]. 그 결과 이미지의 시각적 표현이 바뀌며, 이는 그림 9의 수정된 이미지에서 반영된다.
FIGURE 9.
리터칭 위조 탐지.
이 방법은 다른 위조 방법에 비해 덜 해롭고 덜 악의적이다. 고품질 사진 리터칭 도구는 이미지 전체 또는 일부를 원본 대비 개선하도록 조작하는 데 사용된다. 보정, 선명도, 채도 등의 개선/리터칭은 매우 정교하여, 고도화된 탐지 도구 없이는 쉽게 식별하기 어렵다.
Cao 등 [31]은 단일 소스에서 향상된 이미지와, 여러 소스로 향상된 합성 이미지를 구분하는 기법을 제안했다. 히스토그램의 피크(peaks)와 갭(gaps)을 분석하여 위조 아티팩트를 탐지한다. Zhu 등 [32]은 이미지에서 히스토그램 피크와 갭을 검사하여 위조를 탐지하는 알고리즘을 제안했다. 먼저 Canny 연산자로 에지를 검출한 뒤, 비서브샘플드 컨투어렛 변환(NSCT)을 적용하여 이미지의 에지 포인트를 분류한다. 표 7은 리터칭 관련 주요 정보를 보여준다.
TABLE 7 리터칭 관련 연구
이미지 스플라이싱은 흔하고 널리 사용되는 이미지 변조 방법이다. 스플라이싱은 여러 이미지에서 조각난 데이터를 취해 하나의 이미지로 병합하는 위조 방식이다. 최종 출력 이미지는 구별하기 어렵다 [22]. 출력 이미지에서 에지와 코너를 매끄럽게 하고 색상, 선명도, 시프트 등을 조작해 가짜 정보를 만든다(그림 10).
FIGURE 10.
스플라이싱 위조 탐지.
스플라이싱은 두 종류가 있다: (1) 영역 기반 스플라이싱, (2) 경계 기반 스플라이싱. 위조 이미지에서 발생하는 모든 형태의 왜곡을 탐지하기 위해 다양한 포렌식 기법이 적용된다.
Fan 등 [33]은 다섯 가지 저수준 통계 기반 알고리즘을 결합하여 국소 조명(illumination)을 추정하고 이미지 스플라이싱을 탐지하는 방법을 정의했다. 객체 영역에서 조명 색상(illuminant color)의 변화를 추정하여 스플라이싱된 위조 영역을 탐지한다. Park 등 [34]은 이미지 스플라이싱을 탐지하기 위해 웨이블릿 영역의 스케일 간 공동 발생 행렬(inter-scale co-occurrence matrix)을 특성 함수 모멘트(characteristic function moments) 기반 방법에서 활용하는 접근을 제안했다. Columbia, CASIA1, CASIA2 세 개의 잘 알려진 데이터셋으로 평가하였다. 표 8은 스플라이싱 관련 주요 정보를 보여준다.
TABLE 8 스플라이싱 관련 연구
포맷 기반 위조 탐지는 이미지 포맷, 특히 JPEG 포맷을 다룬다 [35]. 이 탐지 방법은 주로 통계적 상관관계에 기반한다. 손실 압축 과정에서 조작 이미지의 픽셀 등 통계 단위 간 상관관계가 형성된다. 표 9는 포맷 기반 위조 탐지 관련 주요 정보를 보여준다.
TABLE 9 포맷 기반 위조 탐지
JPEG(Joint Photographic Experts Group)는 이미지 포맷이며, 필요한 압축 정도에 따라 손실 압축을 수행한다. JPEG 포맷의 이미지는 RGB 이미지로 변환되고, 픽셀 값은 낮은/높은 압축률에 따라 변한다. 양자화는 DCT 방법으로 수행된다 [35].
후처리 이후 조작된 이미지를 JPEG 포맷으로 다시 저장하면, 이미지가 수정되고 두 번 압축되었음을 의미한다. 그래서 이 방법을 이중 JPEG라고 한다 [36].
크롭 이후 이미지를 재압축하면 원래 경계와 정렬되지 않는 새로운 블로킹 아티팩트가 삽입될 수 있다. JPEG는 8×8 픽셀 블록 단위로 이미지를 분할하여 DCT로 독립적으로 압축 및 양자화한다 [37].
이 방법은 카메라 아티팩트 탐지 원리에 기반한다. 즉 디지털 카메라로 이미지가 촬영되면 센서에서 메모리로 전송되는 동안 JPEG 압축, 감마 보정, 필터링, 색상 상관, 화이트 밸런싱, 양자화 등 일련의 처리 단계를 거친다. 이러한 단계는 카메라 모델에 따라 다를 수 있다 [3]. 표 10은 카메라 기반 위조 탐지 관련 주요 정보를 보여준다.
TABLE 10 카메라 기반 위조 탐지
색수차는 이미지 촬영 시 빛이 제대로 초점이 맞지 않는 현상을 의미하며, 그 결과 수차가 교란되어 이미지가 위조된 것으로 보일 수 있다. 이는 광학 시스템이 서로 다른 파장의 빛을 올바르게 한 점으로 모으지 못할 때 발생한다. 이 방법은 고품질 이미지에서 더 잘 모델링되며 좋은 결과를 낸다 [38].
컬러 이미지는 픽셀 위치마다 최소 세 가지 색 샘플(RGB: Red, Green, Blue)이 필요하다. 이를 동일하게 측정하려면 카메라에 세 개의 다른 센서가 필요하다. 그러나 현대 카메라는 단일 센서에 컬러 필터 어레이(CFA)를 코팅한 뒤 보간(interpolation)으로 같은 작업을 수행한다. 이 보간은 이웃 픽셀과 결합될 때 특정 픽셀 간 상관관계를 생성한다 [39].
이미지 자체만으로도, 촬영에 사용된 디지털 카메라에 대한 추가 정보 없이 이미지의 출처를 식별할 수 있다. 디지털 카메라에는 빛의 양과 이미지 픽셀 값 사이의 관계가 존재한다. 카메라 응답 함수는 영상의 조사량(irradiance)을 출력 이미지의 강도(intensity)로 매핑하는 데 사용된다. 이 과정을 통해 포렌식 조사자는 어떤 카메라가 촬영에 사용되었는지 판단할 수 있다 [6].
디지털 이미지의 센서는 사람의 지문, 피부의 점 등처럼 고유 식별자처럼 동작한다. 카메라 내부 물리 과정, 환경 요인, 기타 이미지에 영향을 줄 수 있는 잠재 요소 등 다양한 센서 결함/노이즈 유형을 포렌식 분석가가 조사한다 [19].
조명 불일치, 그림자, 반사 등 여러 물리적 단서의 불일치를 이용해 이미지의 위조 영역을 식별하는 것을 물리 환경 기반 위조 탐지라 한다. 불일치 계산은 2차원(2D) 및 3차원(3D) 표면에 기반해 수행할 수 있다 [40]. 이 기법은 조명 환경에 기반해 동작한다. 표 11은 물리 환경 기반 위조 탐지 관련 핵심 정보를 보여준다.
TABLE 11 물리 환경 기반 위조 탐지
카메라에 대한 물체의 상대적 위치를 정밀하게 기하학적으로 측정하는 것을 기하학 기반 위조라고 한다 [19]. 표 12는 기하학 기반 위조 탐지 관련 주요 정보를 보여준다.
TABLE 12 기하학 기반 위조 탐지
물체의 위치가 카메라에 대해 변하면, 이미지 선명도에 영향이 나타난다. 이미지와 관련된 다양한 기하학적 파라미터를 분석하는 것을 거리/치수 측정이라 한다.
주점이 있는 이미지는 이미지 중심이 향하는 위치를 의미한다. 디지털 이미지가 수정되면 이미지의 주점이 비례적으로 이동하며, 이를 통해 위조를 탐지한다.
SECTION V.
위조 탐지 분석에서 사용된 여러 데이터셋은 표 13에 제시되어 있다.
TABLE 13 이미지 위조 탐지에서 자주 사용되는 데이터셋
SECTION VI.
머신러닝(ML)은 경험을 통해 기계가 자동으로 학습할 수 있게 해주는 대중적인 기술이다. ML 알고리즘은 의료, 교육, 교통 제어, 마케팅, 금융 등 다양한 산업에서 널리 사용된다 [46]. ML 알고리즘은 디지털 이미지 포렌식에서도 디지털 이미지의 탐지 및 인증 도구를 만들기 위해 활용되어 왔다. 이 방법은 이미지 위조 탐지에 효과적이다 [47]. 가장 흔히 사용되는 ML 기법 일부는 그림 11에 나타나 있으며, 상세 설명은 표 14에 있다.
TABLE 14 다양한 ML 기법
FIGURE 11.
ML 기법.
본 논문은 디지털 워터마킹, 디지털 서명 같은 능동 기법과, 이미지 스플라이싱, 복사-이동, 리터칭 같은 수동 기법을 포함하여 이미지 위조 탐지를 위한 여러 기법을 논의한다. 이들 기법을 검토하는 과정에서 높은 계산 복잡도, 다양한 공격에 대한 취약성, 높은 오매칭(false matching) 탐지율, 낮은 탐지 정확도 같은 단점이 발견된다. 앞서 언급한 한계 외에도, 이러한 탐지 접근법은 적용 범위 측면에서도 제한된다. 예를 들어 CMF 탐지용으로 개발된 알고리즘은 이미지 스플라이싱이나 리터칭 등 다른 유형의 위조를 식별하는 데 사용할 수 없고 그 반대도 마찬가지다. 이미지 위조 탐지에 대한 상당한 연구가 있었음에도, 모든 유형의 위조를 신뢰성 있게 탐지할 수 있는 단일 탐지 방법은 존재하지 않는다. 따라서 위의 한계를 극복할 수 있는 강건하고 진보된 위조 탐지 방법이 필요하다.
전통적 방법으로 이미지 위조를 탐지하는 것은 날로 어려워지고 있다. 다양한 인공지능(AI) 기반 도구가 이미지를 위조하는 데 사용되며, 전통적 방법으로는 탐지하기가 더 까다롭다. 이 때문에 NN 등 ML 도구나 AI 기반 위조 탐지 기법이 위조 탐지에 사용된다. 그래서 본 연구에서는 여러 AI 기반 위조 탐지 전략을 제시했다. NN(인공신경망)은 패턴 인식을 통해 서로 다른 객체를 식별하는 최적화 기반 알고리즘이다. CNN은 이미지, 비디오 등 디지털 미디어에서 패턴을 찾는 데 사용되며 디지털 포렌식에서 성공적으로 활용되어 왔다. 그림 12는 입력 특징, 은닉층, 출력층으로 구성된 NN 아키텍처를 보여준다.
FIGURE 12.
NN 아키텍처.
현재 디지털 위조 탐지의 능동·수동 방법들에서 딥러닝을 활용하는 다양한 접근이 위조 이미지 식별에서 유망한 결과를 보여주고 있다. 능동 위조 측면에서는 CNN을 이용한 워터마킹 검출이 대중적인 방법이다.
Zang 등 [41]은 위조 이미지 탐지를 위한 2단계 메커니즘을 제안했다. 첫째, 이미지를 패치로 분할하고 각 패치의 특징을 Stacked Autoencoder 모델로 학습한다. 둘째, 각 패치를 관련 문맥 정보로 업데이트하여 올바른 결과를 얻는다.
Awasthi와 Srivastava [42]가 제시한 CNN 설계는 소프트맥스 분류기, 2개의 완전연결층, 5개의 합성곱 층으로 구성된다. 모멘텀을 포함한 확률적 경사하강법(SGDM) 옵티마이저를 사용했다. CASIA v1.0 데이터셋을 학습/테스트로 분할하고, 올바르게 식별된 테스트 이미지 비율로 정확도를 산출했다.
Jordan과 Mitchell [43]은 BDCT(block discrete cosine transform)을 ZM-polar(Zernike moment) 및 CNN과 결합하여 다양한 위조 유형을 탐지·분류했다. 먼저 이미지를 YCbCr 형식으로 변환한다. 이어 BDCT와 상관 제거(de-correlation)로 첫 번째 CNN을 위한 특징 벡터 집합을 생성하여 이미지가 진짜인지 변조인지 판별한다. 이후 복사-이동인지 스플라이싱인지 판단하도록 CNN 모델을 학습한다. 복사-이동의 경우 원형 허프 변환(CHT)으로 모든 특징을 추출하고, 패치 방법으로 CNN 모델을 학습한다.
Mehraj 등 [44]은 스플라이싱 이미지에 대해 블록 기반 rich model convolution neural network(rCNN) 접근을 제안했다. 전체 이미지를 처리 블록으로 나누고 각 블록을 rCNN 모델로 학습한다. rCNN 모델의 7개 합성곱 층을 적용해 원하는 특징을 추출한다. 표 15는 딥러닝 접근과 관련된 핵심 정보를 보여준다.
TABLE 15 이미지 위조 탐지를 위한 딥러닝 기반 방법 관련 연구
기존 방법들을 모두 논의한 뒤, 능동 접근에서는 디지털 서명과 디지털 워터마킹의 실제 적용에 제약이 있어 수동 접근이 능동 접근보다 우위에 있다고 결론지을 수 있다. 수동 접근이 더 널리 수용되지만, 특히 위조의 정확한 위치를 탐지하는 데서 시간 복잡도 등의 한계가 있다. 따라서 이러한 한계를 극복하기 위한 향후 연구의 여지가 존재한다. 주요 도전 과제는 낮은 복잡도를 가지면서도 위조 이미지를 효율적이고 정확하게 탐지할 수 있는 알고리즘을 설계하는 것이다.
SECTION VII.
제안된 CMFD 방법의 성능은 테스트 데이터와 평가 행렬을 신중히 분석하여 이해할 수 있으며, 이는 표 16에 제시되어 있다. 연구자들은 주로 재현율(Recall, R), 정밀도(Precision, P), F1 점수를 사용해 성능을 평가한다. R, P, F1이 증가할수록 CMFD 기법의 정확도가 향상된다 [45].
TABLE 16 성능 평가 지표
SECTION VIII.
이미지 위조에 대한 광범위한 연구에도 불구하고, 여전히 추가 연구가 필요한 미해결 문제가 많다. 연구에 따르면 일부 방법은 단일 위조를 탐지할 수 있지만, 다중 위조를 탐지할 때는 종종 성능이 부족하다. 다중 위조 영역을 다룬 연구는 많지 않다. 회전, 스케일링, 이동 같은 기하학적 변환은 블록 기반 CMFD 방법에 잘 맞지 않는다. 다중 위조를 탐지하기 위해서는 개선된 기법과 새로운 접근이 필요하다.
블록 기반 CMFD 기법은 회전, 스케일링, 이동 같은 기하학적 변환에 강건하지 않다. 키포인트 기반 CMFD 접근은 회전 및 스케일링 능력이 제한적이다. 이미지가 임의로 회전·스케일링되면 기존 방법들은 성능을 유지하기 어렵다. 또한 키포인트 기반 접근은 평평하거나 균일한 영역에서 충분한 키포인트를 찾기 어려워, 이러한 일관된 영역에서 CMF 탐지에 비효율적이다. 이 문제를 해결하기 위해 블록 기반 기법과 키포인트 기반 기법을 결합할 수 있다.
전통적 CMFD 기법은 여러 파라미터를 필요로 하므로 선택 과정을 자동화할 필요가 있다. 각 이미지에 맞춤형 파라미터를 자동 선택하는 방법이 요구된다. 딥러닝(DL) 방법은 특징 학습 측면에서 전통적 CMFD보다 우수하지만, CMFD에서의 활용은 아직 비교적 초기 단계이며 성능 향상을 위해 추가 연구가 필요하다. 또한 CMFD 데이터셋에 딥러닝 접근을 지원하기 위한 충분한 이미지가 부족한 것도 문제다.
SECTION IX.
디지털 포렌식 부서에서 이미지가 중요한 법적 데이터 소스가 되면서, 이미지 위조 탐지는 연구 분야에서 필수적인 주제가 되었다. 본 리뷰는 기본 아키텍처에서부터 이미지 위조의 전체 범주화에 이르기까지 이미지 위조 탐지에 대한 완전한 그림을 제시한다. 각 범주를 관련 분야에서 제안된 연구와 함께 상세히 설명하였다. 또한 본 논문은 다양한 이미지 위조 탐지 기법에 대한 여러 기존 접근을 논의한다. 제시된 연구를 더 잘 이해할 수 있도록 정성적 분석을 수행하고 표 형태로 정리하였다. 이미지 위조 탐지 연구를 수행할 연구자를 위해, 자주 사용되는 데이터셋을 담은 표도 제공했다. 마지막으로 포렌식 평가를 위해 이미지의 이상(anomaly)을 식별하는 데 신경망, ML 및 DL 기반 방법을 사용하는 방향을 제시한다.