서로 다른 모달리티와 아키텍처로 학습된 수십 개의 과학 모델이 물질에 대해 유사한 잠재 표현을 학습하는지 분석하고, 성능 향상과 함께 표현이 수렴하는 경향 및 분포 내·외 입력에서의 붕괴/분기를 정량적 정렬 지표로 제시한다.
Sathya Edamadaka 1†, Soojung Yang 2* †, Ju Li 1,3, Rafael G´omez-Bombarelli 1*
1
매사추세츠 공과대학교(MIT) 재료과학 및 공학과, 77 Massachusetts Avenue, Cambridge, 02139, MA, USA.
2
매사추세츠 공과대학교(MIT) 계산·시스템 생물학, 77 Massachusetts Avenue, Cambridge, 02139, MA, USA.
3
매사추세츠 공과대학교(MIT) 원자력과학 및 공학과, 77 Massachusetts Avenue, Cambridge, 02139, MA, USA.
*교신저자. E-mail(s): soojungy@mit.edu; rafagb@mit.edu; 기여저자: sathyae@mit.edu; liju@mit.edu;
†
이 저자들은 본 연구에 동등하게 기여함.
서로 매우 다른 모달리티와 아키텍처를 가진 머신러닝 모델들이 분자, 재료, 단백질의 거동을 예측하도록 학습되고 있다. 그러나 이들이 물질에 대해 서로 유사한 내부 표현을 학습하는지는 여전히 불명확하다. 잠재 구조(latent structure)를 이해하는 일은 학습 도메인을 넘어 신뢰성 있게 일반화하는 과학 파운데이션 모델을 구축하는 데 필수적이다. 언어와 비전에서는 표현 수렴(representational convergence)이 관찰되었지만, 과학 영역에서의 대응 현상은 체계적으로 탐구되지 않았다.
본 연구에서는 문자열, 그래프, 3차원 원자적(3D atomistic), 단백질 기반 모달리티를 아우르는 거의 60개의 과학 모델이, 광범위한 화학 시스템에 걸쳐 매우 강하게 정렬된(aligned) 표현을 학습함을 보인다. 서로 다른 데이터셋으로 학습된 모델들이 작은 분자에 대해 매우 유사한 표현을 가지며, 머신러닝 원자간 퍼텐셜(MLIP)은 성능이 향상될수록 표현 공간에서 수렴한다. 이는 파운데이션 모델이 물리적 현실의 공통된 기저 표현을 학습하고 있음을 시사한다.
또한 우리는 과학 모델에서 두 가지 상이한 구간(regime)을 보인다. (i) 학습 중 보았던 입력과 유사한 입력에 대해서는 고성능 모델들이 서로 촘촘히 정렬되고, 저성능 모델들은 표현 공간에서 국소 준최적(local sub-optima)으로 분기한다. (ii) 학습 중 보았던 것과 크게 다른 구조에 대해서는 거의 모든 모델이 낮은 정보량의 표현으로 붕괴(collapse)하며, 이는 오늘날의 모델이 여전히 학습 데이터와 귀납적 편향(inductive bias)에 의해 제한되고 진정으로 보편적인 구조를 아직 인코딩하지 못함을 의미한다.
우리의 결과는 표현 정렬을 과학 모델의 파운데이션 수준 일반성을 정량적으로 벤치마킹하는 기준으로 확립한다. 더 나아가, 모델 규모가 커짐에 따라 물질의 보편적 표현이 출현하는 과정을 추적하고, 모달리티·물질 도메인·과학 과제 전반에서 가장 잘 전이되는 표현을 학습한 모델을 선택 및 증류(distill)하는 데 활용할 수 있다.
인공지능은 맞춤형(task-specific) 모델에서 범용 “파운데이션 모델”로 패러다임 전환을 겪었다 [1]. 이러한 모델은 방대하고 다양한 데이터셋으로 사전학습(pre-training)되며, 그 결과 명시적으로 학습하지 않은 다양한 다운스트림 과제도 수행할 수 있다. 이 출현적 능력의 핵심은 표현력(representational power)이다. 파운데이션 모델은 각 입력에 대해 압축된 잠재 표현을 학습해 학습 중 보지 못한 데이터에서도 강한 성능을 보인다.
언어와 비전에서의 파운데이션 모델 성공은 과학 영역에서도 유사한 노력을 촉발했다. 화학과 생물학에서는 초기 접근이 수작업으로 만든 1차원 특징에 의존했다. 분자에서는 원자번호, 혼성화 등 화학적으로 도출된 서술자(descriptor)를 계산했고 [2], 단백질에서는 아미노산 원-핫 벡터를 사용했다 [3]. 분자용 SMILES 문자열 [4], 재료용 결정 그래프(crystal graphs) [5], 단백질용 아미노산 서열 문자열 [6] 등 2차원 입력 모달리티도 널리 쓰였다.
이러한 입력 모달리티 위에 자기지도(self-supervised) 인코더를 학습하면, 수작업 특징만으로는 얻기 어려운 더 풍부하고 고차원적인 표현을 학습하여 다운스트림 화학 물성 예측에서 성능이 향상된다 [7, 8]. 단백질의 경우 ESM2 같은 대규모 자기지도 서열 모델은 학습된 표현이 구조 예측, 설계, 기능 주석 등 다양한 과제를 지원함을 보였다 [9].
1D/2D를 넘어, 많은 모델이 이제 3D 원자 좌표에서 직접 학습한다. 점점 더 크고 화학적으로 다양한 시뮬레이션 데이터셋을 활용해, 분자 및 재료 시스템에서 원자간 힘과 에너지를 예측하는 대규모 지도학습 모델이 학습되었다 [10, 11]. 이러한 모델은 흔히 머신러닝 원자간 퍼텐셜(MLIPs)이라 불리며, 원래 분자동역학 시뮬레이션을 위해 개발되었지만, 현재는 더 많은 과학 다운스트림 과제로 재활용되고 있다 [12]. 예를 들어, MLIP 표현이 단백질의 국소 기하와 화학 환경을 충분히 포착해 정확한 NMR 화학적 이동 예측을 가능하게 했고 [13], 범용 MLIP는 도메인 밖 전자구조 및 여기 상태 예측에도 활용될 수 있다 [14]. 특히 MLIP 표현을 쓰는 모델이 과제 특화 기준선보다 더 물리적으로 일관된 예측을 생성했다는 점 [14]은, 힘·에너지 기반 학습이 근본적인 구조–에너지 관계를 학습하고 이러한 모델을 물리적으로 접지(grounding)한다는 사실을 보여준다.
입력 모달리티, 아키텍처, 학습 데이터 도메인이 다양함에도 불구하고, 이러한 과학 파운데이션 모델들은 궁극적으로 동일한 물리 원리를 학습하려 한다. 따라서 과학자들이 화학, 재료과학, 생물학을 통합된 법칙으로 추론하듯이, 재료와 그 성질의 결합 분포를 포착하는 단일 통계 모델이 존재할 수 있다. 이러한 모델은 과학 도메인 전반에 걸친 물질의 통합 표현을 인코딩하여, 분자·재료·단백질의 거동에 공통 구조를 드러낼 것이다.
과학 외 영역의 최근 유사 연구는 이를 뒷받침한다. 비전과 언어 모델이 성능이 향상될수록 표현이 점점 비슷해지며, 가설적으로 현실에 대한 ‘참된 이해’로 수렴한다는 주장도 있다 [15]. 또, 아키텍처·학습 데이터·크기가 크게 다른 언어 모델의 텍스트 표현이 짝지어진 라벨 데이터 없이도 직접 번역되며, 이들이 학습한 정보의 근본적 유사성을 보여주었다 [16]. 따라서 과학 파운데이션 모델도 물질의 보편 표현으로 수렴하고 있는지 묻는 것은 자연스럽다.
본 연구에서 우리는 모달리티, 학습 과제, 아키텍처가 다른 과학 파운데이션 모델들이 상당히 정렬된 잠재 표현을 갖고 있음을 확인한다. 또한 성능이 좋아질수록 표현이 수렴하여, 파운데이션 모델이 물리적 현실의 공통 기저 표현을 학습함을 시사한다. 다음으로, 분포 내(in-distribution) 구조와 분포 밖(out-of-distribution) 구조의 표현을 탐색하여 파운데이션 수준 일반성을 위한 동적 벤치마크를 확립한다. 마지막으로 분석에서 도출되는 향후 과학 모델 개발을 위한 교훈을 제안한다.
본 연구는 모달리티(SMILES/SELFIES 기반 분자 문자열 인코딩, 3D 원자 좌표, 단백질 서열, 단백질 구조, 자연어), 아키텍처(등변환(equivariant)/비등변환 MLIP, 보존적(conservative)/직접(direct) 예측 모델), 학습 도메인(분자, 재료, 단백질)을 아우르는 59개 모델을 포함한다. 또한 다섯 데이터셋(QM9 [17], OMol25 [18] 분자; OMat24 [19], sAlex [20] 재료; RCSB [21] 단백질)의 물질 표현을 비교한다. 구체적으로 각 데이터셋의 구조를 모델에 입력해 마지막 은닉층의 수치 임베딩을 저장하여 표현을 생성한다. 그리고 네 가지 서로 다른 지표로 표현 정렬(두 모델의 잠재공간 유사성)을 측정한다.
과학 파운데이션 모델들이 유사한 표현을 학습하는지 알아보기 위해, 우리는 먼저 분자의 문자열 기반 인코딩과 2D 그래프에서부터 재료의 3D 원자 좌표까지, 매우 다른 입력 모달리티로 학습된 모델들의 임베딩을 조사한다. 모델 간 학습 데이터셋과 입력 모달리티가 크게 다르지만, 우리는 유의미한 표현 정렬을 관찰한다. 그리고 이 정렬은 모델 성능이 증가할수록 더 강해져, 모델이 기저 물리 원리를 공유하는 표현으로 수렴하고 있음을 보여준다.
또한 우리의 관찰이 표현 유사성의 여러 측정 방식 전반에서 일관됨을 보인다. 더 나아가 모델 임베딩이 놀랍도록 유사한 내재 차원(intrinsic dimensionality)을 갖는다는 점을 확인하여, 잠재공간 복잡도가 통계적으로 수렴함을 시사한다. 마지막으로 과학 파운데이션 모델의 진화적 트리(evolutionary tree)를 구성하여, 아키텍처와 학습 데이터가 표현 유사성 형성에 미치는 역할을 강조한다.
우리는 먼저 서로 다른 입력 데이터 모달리티로 학습된 모델 사이의 표현 정렬을 평가한다. SMILES 문자열, SELFIES 문자열 [22], 3D 원자 좌표를 포함하는 다중 모달 QM9 소분자 데이터셋 [17]의 구조를 사용해 임베딩을 생성한다. 축약된 정렬 행렬은 Fig. 1A에 제시되어 있으며, 이는 동일 아키텍처 모델들끼리 전체 표현 유사성 행렬(Fig. C6)을 평균내어 생성한 것이다(Fig. 1A2, 1A3). 자세한 내용은 방법(Methods)에서 설명한다.
표현 유사성을 측정하기 위해 Centered Kernel Nearest-Neighbor Alignment(CKNNA) 지표를 사용한다. 이는 언어·비전 모델의 교차 모달 정렬을 분석하기 위해 처음 제안된 지표다 [15].
우리는 3D 원자 좌표를 입력으로 받는 MLIP처럼 동일 모달리티로 학습된 모델들이 강하게 정렬됨을 확인한다(예: Fig. 1A1의 진한 오프-대각 삼각형). 분자 문자열 인코딩을 사용하는 모델들도 유사한 경향을 보인다(Fig. 1A1의 오른쪽 아래 오프-대각 삼각형).
핵심적으로, 우리는 문자열 기반 모델과 원자적 MLIP 사이에서도 정렬을 관찰하며, 특히 SMILES 기반 모델과 Orb 아키텍처 간 정렬이 강하다. 모달리티 내부 정렬에 비해 CKNNA 값이 낮아 보일 수 있지만, 이는 언어·비전 파운데이션 모델 간에서 관찰된 최대 표현 정렬 값보다도 큰 값이다 [15]. 문자열 인코딩은 분자의 배치(conformation) 기하를 직접 담지 않지만, 분자 그래프와 사실상 동등한 정보를 담는다. QM9의 배치는 최저에너지 배치로부터 구조적 분산이 작아, 분자 그래프가 QM9에서 중요한 정보 대부분을 포착한다. 이것이 문자열 기반 모델과 3D 좌표 기반 모델 사이의 비자명한 정렬을 설명한다.
놀랍게도, SMILES를 제공하면 대규모 자연어 모델(LLM)도 문자열 인코딩 기반 재료 모델과 강하게 정렬되며, 다른 SMILES 기반 모델과 유사한 수준으로 MLIP와도 정렬 점수를 보인다.
단백질 모델에서는 교차 모달 정렬이 더욱 강하다. Fig. C13에서 보이듯, 단백질 서열 모델과 단백질 구조 모델의 표현은 소분자에서의 최상 사례보다 거의 두 배 강하게 정렬된다. 이러한 높은 정렬은, 대규모 단백질 서열 모델이 접힘(folding) 제약과 구조적 규칙성을 암묵적으로 학습하여 [9, 23, 24], 구조 기반 모델의 잠재공간에 더 가깝게 만든다는 증거와도 일치한다.
매우 다른 과학 모델들이 단지 강하게 정렬될 뿐 아니라, 물질의 보편적 표현으로 수렴하고 있음을 확인한다. Fig. 1B에서 보이듯, 재료의 총 에너지(학습 과제이기도 함)를 예측하는 성능이 좋아질수록, 모델은 최고 성능 모델과 더 강하게 정렬된다.
이 경향은 동일 모델 패밀리 내부에서도 관찰된다. 예를 들어 EqV2 OMPA와 EqV2 OMat 모델은 크기와 성능이 증가할수록 표현이 더 수렴한다. 이를 보이기 위해 OMat24의 재료 임베딩을 사용했는데(Fig. 1C에 축약 정렬 행렬), 본 연구에 포함된 에너지 예측 가능 모델들이 모두 재료 모델이기 때문이다. 에너지 회귀 MAE 계산 방법은 Methods에서 상세히 설명한다.
CKNNA는 표현 공간에서 국소 이웃의 구조에 매우 민감하다. 따라서 두 모델이 전역 기하를 공유하면서도 CKNNA는 낮을 수 있고, 그 반대도 가능하다. 결론이 국소 거동의 산물이 아님을 보장하기 위해, 전역 표현 유사성을 두 가지 추가 지표로 특성화한다.
거리 상관(distance correlation; dCor)은 비선형·고차원 다양체에 대해 피어슨 상관계수를 일반화한 순수 전역 지표이며 [25], 내재 차원(Id)은 임베딩 공간을 설명하는 데 필요한 변수의 최소 개수를 추정한다 [26].
Fig. 1D에서 보이듯, 국소 지표인 CKNNA는 전역 지표인 dCor와 높은 상관을 보여, 소분자에서 학습된 표현의 구조가 국소·전역 관점에서 일관됨을 시사한다. 또한 CKNNA는 국소성 정도를 증가시켜도 안정적임을 Fig. A1에서 보인다.
다음으로 각 모델 잠재공간의 복잡도를 나타내는 내재 차원(Id)을 조사한다. Fig. 1E에서 보듯, Id 분포는 데이터셋 간에는 차이가 있으나, 각 데이터셋 내부에서는 놀랍도록 일관적이다.
QM9 표현은 상대적으로 낮은 내재 차원(Id ∼ 5)을 가지지만, OMat24(Id ∼ 10), sAlex(Id ∼ 8), OMol25(Id ∼ 10)는 더 많은 차원이 필요하다. 이는 각 데이터셋이 샘플링하는 화학 환경과 배치 다양성의 차이를 반영할 가능성이 크다. QM9과 OMol25 모두 주로 유기 분자를 포함하지만, QM9은 매우 작은 분자의 평형에 가까운 저에너지 배치인 반면 OMol25는 더 큰 분자의 비평형·고에너지 배치를 더 많이 포함해 화학 환경의 폭이 넓다. sAlex와 OMat24에서도 같은 현상이 나타난다.
핵심적으로, 서로 다른 데이터로 학습된 서로 다른 아키텍처의 모델들도 네 개 데이터셋 전반에서 Id가 비교적 좁은 범위에 모인다(Fig. 1E). 이는 서로 다른 아키텍처에서 나온 물질 표현이 보편적이고 상대적으로 저차원인 구조를 공유함을 시사한다.
특히 회전된 구조를 회전되지 않은 구조와 동일하게 처리하는 아키텍처에서 추출한 불변(invariant) 임베딩은 더 낮은 Id를 보인다. 등변환(equivariant) 모델은 입력 구조 회전에 따라 원자간 힘 등 물성이 어떻게 변환되는지를 정확히 출력하기 위해 회전 정보를 더 전달하므로, 불변 임베딩보다 Id가 높다. 어떤 귀납적 편향도 명시적으로 내장하지 않은 바닐라(vanilla) 모델은 일관되게 더 높은 Id를 보였다.
CKNNA가 모델 유사성을 어떻게 포착하는지 시각화하기 위해, Fig. 1f에 CKNNA 기반 거리로 과학 파운데이션 모델의 진화적 트리를 구성했다(트리 구성 방법은 Section A.1.3). 이 트리에서 두 모델이 가까울수록 표현 공간이 더 유사하다.
CKNNA 상관값만으로도 트리는 아키텍처와 학습 데이터셋에 따른 예상 클러스터를 잘 묶는다. 그러나 3D 원자 좌표를 입력으로 받는 두 아키텍처가 다른 MLIP보다 그림 오른쪽 아래에서 문자열 기반 모델과 더 가깝게 클러스터링되는 경우가 있다.
특히 소분자(OFF) 데이터셋으로 학습된 MACE는 재료 데이터로 학습된 다른 MLIP(유사한 아키텍처의 MACE-MP 포함) 대부분과 크게 갈라진다. 이는 아키텍처보다 학습 데이터가 모델 표현 공간에 더 큰 영향을 준다는 점을 강조한다.
한편 과학 파운데이션 모델은 학습 분포에서 멀리 떨어진 구조에도 잘 일반화한다고 주장한다. 따라서 우리는 표현 유사성을 이용해 모델이 “파운데이션”인지 측정하는 쪽으로 초점을 옮긴다. 그리고 분포 내 입력과 분포 밖 입력에 대해 모델 임베딩이 어떻게 달라지는지 연구한다.
파운데이션 모델은 관심 도메인의 다운스트림 과제에서(종종 학습 분포 밖 도메인에서) 좋은 일반화 성능을 보이는 것으로 특징지어진다. 그러나 성능만으로는 진정으로 일반화 가능한 모델과 과적합 모델을 구분하기 어렵다.
우리는 특정 물질 유형에 대해 모델이 파운데이션 상태에 도달했는지, 고성능 모델들과의 표현 유사성으로 특성화한다. 즉, 성능이 높고 잘 일반화된 모델은 다른 고성능 모델들과 강하게 정렬되어야 한다. 반면 국소 최적점에 갇힌 과적합 고성능 모델은 다른 고성능 모델과 약하게 정렬될 것이다.
또한 파운데이션 모델은 분포 내 입력에서는 분포 밖 입력보다 다른 고성능 모델들과 더 강하게 정렬될 것으로 기대된다 [15]. 우리는 분포 내·분포 밖 데이터가 표현에 미치는 영향을 보여 두 주장 모두에 대한 근거를 제시한다.
대부분의 3D 원자 좌표 모델이 OMat24 구조로 학습 또는 파인튜닝되었으므로, OMat24 재료를 분포 내로, OMol25의 분자 구조를 분포 밖으로 정의한다. Fig. 2A는 여러 모델에서 OMol25 임베딩이 분포 내 재료 클러스터에서 멀리 떨어져 있음을 시각화한다. 또한 Fig. 2D에서, Orb V3 모델이 OMat24 150,000개 구조와 OMol25 150,000개 구조를 임베딩한 점들을 에너지 예측 오차로 색칠해, 라벨 정보 없이도 OMat24(낮은 오차, 파란색)와 OMol25(높은 오차, 흰색)의 두 클러스터를 복원함을 보인다.
분포 내 재료 표현은 Fig. 1B에서 UMA Medium으로의 표현 수렴 경향을 보인다. 따라서 UMA는 재료 영역에서 가장 파운데이션에 가까운 모델 중 하나로 나타난다.
소분자 QM9에서도 유사한 경향이 나타난다. Fig. 3에서, 에너지 회귀 MAE가 감소할수록 모델이 Orb V3 Conservative 모델로 수렴하여, 소분자 화학 공간에서의 파운데이션 상태를 시사한다.
주목할 예외는 Fig. 3의 왼쪽에 있는 MACE-OFF 모델이다. QM9에서는 강한 성능을 보이지만 Orb V3 패밀리, UMA, 기타 고성능 모델과 약하게 정렬된다. 이는 MACE-OFF가 표현 공간의 국소 최적점에 위치한 반면, Orb V3 Conservative는 다른 모델들이 일관되게 접근하는 전역 최적점 근처에 있음을 암시한다.
Orb V3는 QM9보다 더 넓고 화학적으로 다양한 분자 데이터셋인 GMTKN55 [27]에서 MACE-OFF보다 크게 우수한데, 이는 MACE-OFF 표현이 QM9의 특정 화학 공간을 넘어서는 전이성이 낮다는 해석과 일치한다 [28].
표현 정렬은 과학 모델의 실패 방식에 대한 진단적 통찰도 제공한다. 우리는 두 가지 상이한 실패 구간을 관찰한다.
첫째는 다수의 국소 준최적점(local sub-optima) 구간으로, 저성능 모델들이 서로 약하게 정렬되어 표현 공간에서 분기하며 일반화되지 않는 영역을 차지한다.
둘째는 체계적 정보 결핍 구간으로, 저성능 모델들이 여전히 서로 강하게 정렬되어, 도메인에 중요한 핵심 정보가 빠진 공통(불완전) 표현을 공유함을 시사한다.
우리는 저성능 모델들이 분포 내 구조에서는 첫 번째 실패 구간에 속하지만, 분포 밖 입력에서는 두 번째 구간으로 전이함을 확인한다.
각 모델이 표현 공간에서 포착하는 정보량을 평가하기 위해 정보 불균형(information imbalance; II) 지표를 사용한다(정의는 Section A.4). Id나 dCor와 달리 II는 비대칭 지표로, 한 표현이 다른 표현보다 얼마나 더 많은 정보를 담는지 명시적으로 정량화한다.
분포 내 데이터에서 저성능 모델( Fig. 2의 더 어두운 점)은 서로 약하게 정렬되고 거의 직교에 가까운 정보를 학습한다. 이는 많은 국소 준최적점이 존재함을 나타내며, 모델들이 학습 중 높은 정확도를 얻기 위해 도메인 내에서도 다른 모델로 전이되지 않는 특이한(idiosyncratic) 표현을 형성할 수 있음을 보여준다.
이 구간에서는 표현 공간 구조를 지배하는 요인이 학습 데이터셋 자체이다. 서로 다른 아키텍처라도 같은 데이터셋으로 학습되면, 같은 아키텍처라도 다른 데이터로 학습된 경우보다 더 강하게 정렬되는 경향이 일관되게 나타난다. 예를 들어 OMat24로 학습된 eSEN 모델 [29]은 MPTraj로 학습된 eSEN 모델보다, OMat24로 학습된 EqV2 모델 [30]과 더 가깝게 정렬된다(Fig. C10). 이는 분포 내에서는 아키텍처의 귀납적 편향보다 학습 데이터가 표현에 더 큰 영향을 준다는 것을 보여준다.
분포 밖에서는 정반대 양상이 나타난다. OMol25에서는 거의 모든 모델이 두 번째 실패 구간에 속해 성능이 낮지만 매우 유사한 정보를 학습한다(Fig. 2B 하단). 이 경우 모델은 학습 데이터셋이 아니라 아키텍처로 클러스터링되며(Fig. C12), 복잡하고 큰 OMol25 구조를 정확히 표현하는 데 필요한 핵심 특징이 결여된, 아키텍처 특유의 다양체(manifold)로 임베딩이 붕괴한다. 이는 Fig. 2B 상단(분포 내)보다 하단(분포 밖)에서 더 많은 모델 쌍이 그림 왼쪽 아래로 압축되는 것으로도 보인다.
요약하면, 과학 모델 잠재공간은 분포 내에서는 데이터 지배적이고, 분포 밖에서는 아키텍처 지배적이다. 이는 저성능 모델이 표현 공간의 서로 다른 준최적점으로 분기하거나, 분포 밖 입력에 대해 거의 동일하지만 불완전한 정보를 표현하는 이유를 설명한다. 이 결과는 학습 도메인을 넘어 일반화하는 과학 파운데이션 모델을 만들기 위해 데이터셋 다양성이 중요함을 강조한다.
본 연구의 표현 분석은 과학 모델을 비교하는 강력한 도구다. 따라서 과학 파운데이션 모델 개발을 안내하고 다운스트림 과제에 적합한 모델을 선택하는 데 도움이 되는 몇 가지 관점을 제시한다.
현재 재료 모델의 표현은 제한된 학습 데이터에 의해 형성되며, 과학 도메인 전반에서 파운데이션 수준의 일반성에 도달하지 못했다고 본다. QM9 소분자 표현의 정보 불균형을 시각화한 Fig. C9에서 보듯, 같은 데이터셋으로 학습된 모델은 거의 항상 동일한 정보를 학습하는 반면, 서로 다른 데이터셋으로 학습된 모델은 종종 직교적이고 겹치지 않는 표현을 학습한다.
심지어 같은 모달리티 내에서도 일부 모델이 갈라져 직교 정보를 학습하는데, 이는 기존 재료 학습 데이터셋이 모델들의 표현 공간을 통합할 만큼 충분히 강한 통계 신호를 제공하지 못함을 의미한다.
모델이 데이터 제한 구간(data-limited regime)에 있다는 해석은 Section 2.2의 정보 불균형 분석으로도 뒷받침된다. 재료 구조 표현은 학습 데이터셋에 의해 지배되며, 분자 구조 표현은 화학 정보를 놓친 아키텍처-특정 다양체로 붕괴한다.
파운데이션 상태에 도달하려면, 재료 모델은 평형(sAlex [20])과 비평형(OMat24 [19]) 구간을 모두 포괄하고, Meta의 UMA 모델 [31] 학습에 쓰인 것처럼 더 넓은 화학·구조 환경을 포함하는 훨씬 더 다양한 학습 데이터가 필요하다.
성능 증가에 따른 표현 수렴(Fig. 1B)에서, 같은 아키텍처 패밀리의 모델은 크기가 커져도 유사한 표현을 학습함을 관찰한다(Fig. 1A2, A3). 이는 용량이 크게 다른 모델들도 성능은 약간 다르더라도 매우 유사한 표현을 학습할 수 있음을 시사한다. 따라서 작은 모델이 큰 모델의 표현력을 유사한 표현 학습을 통해 모사할 수 있으며, 다운스트림에서 모델 증류 사용을 뒷받침한다.
작은 모델의 학습된 표현도 생성 모델 개발을 크게 가속할 수 있다. 컴퓨터 비전에서는 사전학습 분류기와의 정렬을 촉진하는 보조 손실(auxiliary loss)을 추가하면 생성 모델 학습 효율이 크게 향상되었다 [32]. 과학 영역에서는 평형 배치 앙상블을 샘플링하는 생성 모델이 사전학습 MLIP와의 정렬 정규화 손실을 도입함으로써 훨씬 빠르게 학습되었다 [33]. 따라서 어떤 모델이 가장 전이 가능하고 보편적으로 정렬된 표현을 학습하는지 식별함으로써, 본 분석은 과학 도메인 전반에서 생성 모델 학습을 가속할 모델 선택에 원칙적 근거를 제공한다.
표현 정렬 분석은 어떤 아키텍처 설계 선택이 모델이 학습하는 내용에 의미 있는 영향을 주는지 드러낸다. 과학 파운데이션 모델은 회전 등변환성 같은 물리 대칭을 강제하거나, 보존적 계산을 통해 힘–에너지 일관성을 보장하거나, 계산비용 절감을 위해 이러한 제약을 생략하는 등 귀납적 편향이 크게 다르다.
우리의 프레임워크는 귀납적 편향이 표현 공간을 어떻게 형성하는지 정량화하는 원칙적이고 모델 비의존적인 방식으로, 계산적으로 저렴하면서도 표현력이 있고 전이 가능한 표현을 학습하는 아키텍처를 식별할 수 있게 한다.
이를 보이기 위해, 회전 등변환성이 반드시 아키텍처에 내장되어야 한다는 통념에 도전하는 Orb V3 모델 패밀리를 살펴본다. Orb V3 conservative 변형은 전체 에너지 예측 성능이 매우 강하지만(Fig. B4), 아키텍처적으로 등변환성을 강제하지 않는다. 대신 학습 중 에너지 준불변성과 힘 준등변환성을 강제하는 경량 정규화 방식인 equigrad [11]를 사용한다.
표현 정렬은 이 효과를 확인해 준다. Fig. 1A의 축약 표현 유사성 행렬에서, Orb V3 conservative 모델은 MACE [10], EqV2 [30] 같은 완전 등변환 아키텍처와 강하게 정렬되는 반면, equigrad가 없는 direct Orb V3 변형은 약하게 정렬된다.
따라서 본 표현 분석은, 적절히 구조화된 정규화가 아키텍처적 등변환성의 이점을 더 낮은 계산비용으로 재현할 수 있으며, 대칭 강제 모델과 유사한 표현을 생성한다는 사실을 회복(recover)한다.
이는 머신러닝의 ‘쓴 교훈(bitter lesson)’과도 공명한다. 즉, 아키텍처 제약이나 귀납적 편향을 늘리는 것보다 학습 규모를 키우는 것이 종종 더 범용적이고 강력한 모델로 이어진다는 교훈이다. MLIP의 분자동역학처럼 시뮬레이션 중심 응용에서는 아키텍처적 등변환성이 필수일 수 있지만 [30], 우리의 결과는 충분한 규모와 정규화가 결합되면 저렴한 아키텍처가 더 특수한 대칭 강제 모델의 표현 구조를 근사할 수 있음을 시사한다.
따라서 본 표현 프레임워크는 파운데이션 거동을 진단할 뿐 아니라 모델 선택을 위한 실용적 가이드를 제공한다. 특정 물질 유형에 대해 계산 효율을 중시하는 과학자는, 큰 고성능 모델의 표현과 가깝게 정렬되는 더 작거나 저렴한 아키텍처를 식별할 수 있다. 이는 생성 모델링이나 물성 예측 같은 다운스트림 과제가 완전 등변환/보존 모델을 학습시키는 비용 없이도 표현 구조의 이점을 상속할 수 있게 한다.
우리는 거의 60개 과학 모델에서 잠재 표현이 수렴한다는 강한 증거를 제시한다. 입력 모달리티, 아키텍처, 학습 데이터 도메인이 다르더라도, 소분자에서는 표현이 상당히 정렬된다. 또한 내재 차원이 좁은 범위로 붕괴하는데, 이는 물질의 보편 표현에서 기대되는 저차원 구조와 일치한다.
마지막으로 MLIP의 성능이 향상될수록 표현은 하나의 통합된 표현으로 더 강하게 수렴한다. 모델이 파운데이션 상태에 접근하려면 고성능이면서 동시에 다른 고성능 모델들과 높은 정렬을 보여야 한다. 현재 모델은 여전히 데이터 제한적이며, 분포 내에서는 학습 데이터셋에 의해 군집화되고, 분포 밖에서는 아키텍처로 정의되는 다양체로 붕괴해 물질 도메인 간 전이성이 제한됨을 드러낸다.
이 결과는 표현 정렬을 과학 모델의 파운데이션 수준 일반성을 진단하는 강력한 벤치마크로 확립한다. 모델이 계속 확장됨에 따라, 본 연구는 보편 표현의 출현을 추적하고 모달리티·물질 유형·과학 과제 전반에서 전이를 가장 잘 지원하는 모델 선택을 안내할 수 있다.
QM9, OMat24, sAlex, OMat25에서 각각 N = 50,000개 구조를 샘플링하여, 각 모델 쌍에 대해 네 가지 지표를 분석했다. 모든 데이터셋에 대한 모든 결과는 부록 C에 제공한다.
임베딩은 각 모델에서 readout 층 직전 마지막 은닉층 출력을 저장하여 추출했다. 대부분의 추론은 단일 32GB V100 GPU에서 수행되었고, LLM 추론에는 80GB A100 GPU 4대를 사용했다.
노드별(node-wise) 임베딩을 출력하는 모델은 입력 크기(원자 수 등)와 무관한 임베딩을 얻기 위해 모든 노드에 대해 평균을 취했다.
분석에 포함한 모델은 Table 1에 정리했다. Orb V2[34], Orb V3[11], UMA(OMat24 및 sAlex에 대해 OMat task 선택) [31], ESEN [29], Equiformer V2 [30], MACE MP0 [10], PET-MAD [35]는 재료로 학습되었다. UMA(QM9, OMol25, RCSB에 대해 OMol task 선택) [31], MACE OFF23 [36], Geom2Vec [8], Molformer [7], ChemBERTa [37], ChemGPT [38]는 분자로 학습되었다(후자 3개는 SMILES 문자열로 학습).
ESM2 [9], ESM3 [23], ProstT5 [39], ESMC [40], ESM Inverse Folding 1 [41], ProteinMPNN [42]는 단백질 구조 및 서열로 학습되었다. 마지막으로 DeepSeek R1(Llama 8B로 distill) [43], Qwen3 30B A3B Thinking 2507 [44], GPT OSS 20B [45]는 자연어로 학습되었다.
LLM은 Fig. C6에 세 가지 변형을 평가했다. (1) 확장된 시스템 프롬프트 + SMILES 입력, (2) 최소 시스템 프롬프트 + SMILES 입력(“... Blank”), (3) 최소 시스템 프롬프트 + ASE Atoms 객체 형태의 원자적 입력(원소 타입과 3D 좌표 배열; “... Blank Atomistic”). 최소 프롬프트를 쓴 이유는 불필요한 문맥이 모델의 주의를 다른 토큰으로 분산시켜 정렬을 불필요하게 떨어뜨리는 것을 피하기 위해서다. LLM 시스템 프롬프트, 예시 입력·출력은 부록 B에 제공한다.
각 표현 정렬 지표의 정확한 정의는 부록 A에 제시한다. 또한 Fig. A1은 CKNNA 분석에서 얻은 통찰이 잠재공간의 국소 영역을 넘어 적용 가능함을 보여준다.
Fig. 1A와 Fig. 1C의 블록-대각 CKNNA 행렬은 전체 임베딩 행렬(Fig. C6, Fig. C10)을 만든 뒤 동일 아키텍처의 행(열)을 묶어 CKNNA를 평균내어 계산했다. EqV2 11개 모델이나 Orb V3 8개 모델처럼 한 아키텍처에 여러 설정이 있는 경우, 대각 원소가 1보다 작은데 이는 블록-대각 부분행렬의 평균이기 때문이다.
Fig. 1B(재료 모델 표현의 수렴)는 1,000개 구조에 대해 에너지 회귀 MAE를 계산해 구성했다. OMat24는 구조의 총 퍼텐셜 에너지를 예측할 수 있는 모델들 중 다수가 분포 내로 보는 데이터셋이므로 이를 선택했다.
그러나 재료 모델은 서로 다른 DFT 이론 수준(예: PBE-OMat24 또는 PBE-MP)에서 학습되었고, 기준(reference)·원자화(atomization) 에너지가 다르다. 두 그룹을 같은 과제로 비교하기 위해 먼저 조성(composition)의 함수로서 정답 에너지 라벨에 선형 모델을 학습한다(원소별 개수 벡터; Fig. B2). 그리고 선형 모델의 에너지 예측을 정답 에너지에서 뺀다(Fig. B3). 남는 값은 순수 조성 모델의 에너지 예측으로부터의 편차(eV)로, 사실상 원자화 에너지를 제거한 것에 해당한다(Fig. B4).
각 모델의 에너지 예측에도 동일 과정을 반복하여, 각 모델의 선형 조성 모델 예측으로부터의 편차와 정답 편차의 평균절대오차를 에너지 회귀 MAE로 정의한다.
보다 수식적으로, 조성 편향을 제거하기 위해 선형 조성 모델
\u005c[ \u005chat{E}_{\u005ctext{lin}}(x_i)=w^\u005ctop c_i + b, \u005cquad (1) \u005c]
을 적합한다. 여기서 \u005c( c_i \in \u005cmathbb{R}^M \u005c) 는 구조 \u005c( x_i \u005c) 의 원소 개수(조성) 벡터이고, \u005c( w, b \u005c) 는 \u005c( \u005chat{E}{\u005ctext{lin}} \u005c) 과 정답 DFT 에너지 \u005c( E{\u005ctext{DFT}}(x_i) \u005c) 의 제곱오차를 최소화하도록 학습된다.
선형 기준선으로부터의 편차(구조적 기여)는
\u005c[ \u005cDelta E_{\u005ctext{true}}(x_i) = E_{\u005ctext{DFT}}(x_i) - \u005chat{E}_{\u005ctext{lin}}(x_i). \u005cquad (2) \u005c]
각 모델 표현 \u005c( f \u005c) 에 대해서도, 모델이 예측한 에너지 \u005c( \u005chat{E}f(x_i) \u005c) 와 그 예측값에 대해 학습한 선형 조성 모델 \u005c( \u005chat{E}{\u005ctext{lin},f}(x_i) \u005c) 를 이용해
\u005c[ \u005cDelta E_f(x_i)=\u005chat{E}f(x_i) - \u005chat{E}{\u005ctext{lin},f}(x_i). \u005cquad (3) \u005c]
로 정의한다.
그 뒤 에너지 회귀 MAE는
\u005c[ \u005ctext{MAE}f = \u005cfrac{1}{N}\u005csum{i=1}^N \u005cbig|\u005cDelta E_{\u005ctext{true}}(x_i) - \u005cDelta E_f(x_i)\u005cbig|. \u005cquad (4) \u005c]
이며, 이는 조성성을 제거한 정답 편차와 모델 편차 간 평균절대편차를 측정한다. 이 정식화는 서로 다른 DFT 이론 수준에서 학습된 모델들을 직접 비교할 수 있게 한다.
감사의 글은 필수는 아니다. 포함하는 경우 짧게 작성해야 한다. 보조금/기여 번호를 언급할 수 있다. 구체 요구 사항은 저널 수준 가이드를 참고하라.
Juno Nam, Antonia Kuhn, Xiaochen Du의 초기 노력과 Jinyeop Song, Lucas Pinede, Matteo Carli의 유익한 논의에 감사한다. 또한 본 논문에서 보고된 연구 결과에 기여한 MIT SuperCloud 및 Lincoln Laboratory Supercomputing Center에 감사를 표한다.
S.Y.는 Ilju Foundation의 박사 과정 펠로십 지원에 감사한다. S.E.는 MIT MGAIC의 연구비 지원에 감사한다.
저자들은 이해상충이 없음을 선언한다.
다섯 데이터셋은 각 인용문헌을 통해 접근할 수 있다.
59개 모델에서 임베딩을 추출하고 각 지표를 계산하는 코드는 곧 Learning Matter GitHub(https://github.com/learningmatter-mit)에 공개될 예정이다.
S.Y.와 R.G.B.가 프로젝트 개념화를 주도했다. S.Y.가 방법 계획을 주도했고 S.E.가 함께했다. S.E.가 계산 실험을 수행하고 모든 분석을 시각화했다. S.E., S.Y., R.G.B.가 초안을 작성했다. 모든 저자가 원고를 검토하고 승인했다.
[1] Bommasani, R. et al. On the opportunities and risks of foundation models (2021). arXiv:2108.07258.
[2] Landrum, G. Rdkit documentation. Release 1, 4 (2013).
[3] ElAbd, H. et al. Amino acid encoding for deep learning applications. BMC bioinformatics 21, 235 (2020).
[4] Weininger, D. Smiles, a chemical language and information system. 1. introduction to methodology and encoding rules. Journal of Chemical Information and Computer Sciences 28, 31–36 (1988). URL https://doi.org/10.1021/ci00057a005.
[5] Xie, T. & Grossman, J. C. Crystal graph convolutional neural networks for an accurate and interpretable prediction of material properties. Physical review letters 120, 145301 (2018).
[6] Qian, N. & Sejnowski, T. J. Predicting the secondary structure of globular proteins using neural network models. Journal of molecular biology 202, 865–884 (1988).
[7] Ross, J. et al. Large-scale chemical language representations capture molecular structure and properties. Nature Machine Intelligence 4, 1256–1264 (2022).
[8] Pengmei, Z., Lorpaiboon, C., Guo, S. C., Weare, J. & Dinner, A. R. Using pretrained graph neural networks with token mixers as geometric featurizers for conformational dynamics. J. Chem. Phys. 162 (2025).
[9] Lin, Z. et al. Evolutionary-scale prediction of atomic-level protein structure with a language model. Science 379, 1123–1130 (2023).
[10] Batatia, I. et al. A foundation model for atomistic materials chemistry (2023).
[11] Rhodes, B. et al. Orb-v3: atomistic simulation at scale (2025). arXiv:2504.06231.
[12] Li, J. Universal interatomic potentials shine in finding crystal structures. Nat. Mach. Intell. 7, 985–986 (2025).
[13] Bojan, M. et al. Representing local protein environments with atomistic foundation models (2025). URL https://arxiv.org/abs/2505.23354. arXiv:2505.23354.
[14] Kim, S. Y., Park, Y. J. & Li, J. Leveraging neural network interatomic potentials for a foundation model of chemistry (2025). URL https://arxiv.org/abs/2506.18497. arXiv:2506.18497.
[15] Huh, M., Cheung, B., Wang, T. & Isola, P. The platonic representation hypothesis. arXiv preprint arXiv:2405.07987 (2024).
[16] Jha, R., Zhang, C., Shmatikov, V. & Morris, J. X. Harnessing the universal geometry of embeddings (2025). URL https://arxiv.org/abs/2505.12540. arXiv:2505.12540.
[17] Wu, Z. et al. Moleculenet: A benchmark for molecular machine learning (2017). arXiv:1703.00564.
[18] Levine, D. S. et al. The open molecules 2025 (omol25) dataset, evaluations, and models (2025). URL https://arxiv.org/abs/2505.08762. arXiv:2505.08762.
[19] Barroso-Luque, L. et al. Open materials 2024 (omat24) inorganic materials dataset and models (2024). URL https://arxiv.org/abs/2410.12771. arXiv:2410.12771.
[20] Ghahremanpour, M. M., van Maaren, P. J. & van der Spoel, D. The alexandria library, a quantum-chemical database of molecular properties for force field development. Scientific Data 5 (2018). URL http://dx.doi.org/10.1038/sdata.2018.62.
[21] Burley, S. K. et al. Updated resources for exploring experimentally-determined pdb structures and computed structure models at the rcsb protein data bank. Nucleic Acids Research 53, D564–D574 (2024). URL http://dx.doi.org/10.1093/nar/gkae1091.
[22] Krenn, M., Häse, F., Nigam, A., Friederich, P. & Aspuru-Guzik, A. Self-referencing embedded strings (selfies): A 100% robust molecular string representation. Machine Learning: Science and Technology 1, 045024 (2020).
[23] Hayes, T. et al. Simulating 500 million years of evolution with a language model. Science 387, 850–858 (2025). URL https://www.science.org/doi/abs/10.1126/science.ads0018.
[24] Gao, W., Mahajan, S. P., Sulam, J. & Gray, J. J. Deep learning in protein structural modeling and design. Patterns 1 (2020).
[25] Székely, G. J., Rizzo, M. L. & Bakirov, N. K. Measuring and testing dependence by correlation of distances. The Annals of Statistics 35 (2007). URL http://dx.doi.org/10.1214/009053607000000505.
[26] Basile, L., Acevedo, S., Bortolussi, L., Anselmi, F. & Rodriguez, A. Intrinsic dimension correlation: uncovering nonlinear connections in multimodal representations (2025). URL https://arxiv.org/abs/2406.15812.
[27] Goerigk, L. et al. A look at the density functional theory zoo with the advanced gmtkn55 database for general main group thermochemistry, kinetics and noncovalent interactions. Phys. Chem. Chem. Phys. 19, 32184–32215 (2017). URL http://dx.doi.org/10.1039/C7CP04913G.
[28] Rowan scientific. URL https://www.rowansci.com (accessed 2025-11-14).
[29] Fu, X. et al. Learning smooth and expressive interatomic potentials for physical property prediction (2025). URL https://arxiv.org/abs/2502.12147. arXiv:2502.12147.
[30] Liao, Y.-L., Wood, B., Das, A. & Smidt, T. Equiformerv2: Improved equivariant transformer for scaling to higher-degree representations. arXiv preprint arXiv:2306.12059 (2023).
[31] Wood, B. M. et al. Uma: A family of universal models for atoms (2025). URL https://arxiv.org/abs/2506.23971. arXiv:2506.23971.
[32] Yu, S. et al. Representation alignment for generation: Training diffusion transformers is easier than you think (2024). arXiv:2410.06940.
[33] Pinede, L., Yang, S. & Gómez-Bombarelli, R. Unifying force prediction and molecular conformation generation through representation alignment (2025).
[34] Neumann, M. et al. Orb: A fast, scalable neural network potential (2024). arXiv:.
[35] Mazitov, A. et al. Pet-mad as a lightweight universal interatomic potential for advanced materials modeling. Nature Communications 16, 10653 (2025).
[36] Kovács, D. P. et al. Mace-off: Short-range transferable machine learning force fields for organic molecules. Journal of the American Chemical Society 147, 17598–17611 (2025). URL https://doi.org/10.1021/jacs.4c07099.
[37] Ahmad, W., Simon, E., Chithrananda, S., Grand, G. & Ramsundar, B. Chemberta-2: Towards chemical foundation models (2022). URL https://arxiv.org/abs/2209.01712. arXiv:2209.01712.
[38] Frey, N. et al. Neural scaling of deep chemical models. Nature Machine Intelligence 5, 1–9 (2023).
[39] Heinzinger, M. et al. Bilingual language model for protein sequence and structure. NAR Genomics and Bioinformatics 6, lqae150 (2024). URL https://doi.org/10.1093/nargab/lqae150.
[40] ESM Team. Esm cambrian: Revealing the mysteries of proteins with unsupervised learning (2024). URL https://evolutionaryscale.ai/blog/esm-cambrian.
[41] Hsu, C. et al. Learning inverse folding from millions of predicted structures 8946–8970 (2022).
[42] Dauparas, J. et al. Robust deep learning–based protein sequence design using proteinmpnn. Science 378, 49–56 (2022).
[43] DeepSeek-AI et al. Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning (2025). arXiv:2501.12948.
[44] Yang, A. et al. Qwen3 technical report (2025). arXiv:2505.09388.
[45] OpenAI et al. gpt-oss-120b & gpt-oss-20b model card (2025). arXiv:2508.10925.
[46] Gretton, A. et al. A kernel statistical test of independence 585–592 (2007).
[47] Kornblith, S., Norouzi, M., Lee, H. & Hinton, G. Similarity of neural network representations revisited (2019). arXiv:1905.00414.
[48] Saitou, N. & Nei, M. The neighbor-joining method: a new method for reconstructing phylogenetic trees. Molecular Biology and Evolution 4, 406–425 (1987). URL https://doi.org/10.1093/oxfordjournals.molbev.a040454.
[49] Facco, E., d’Errico, M., Rodriguez, A. & Laio, A. Estimating the intrinsic dimension of datasets by a minimal neighborhood information (2018).
[50] Levina, E. & Bickel, P. Maximum likelihood estimation of intrinsic dimension 17 (2004). URL https://proceedings.neurips.cc/paper_files/paper/2004/file/74934548253bcab8490ebd74afed7031-Paper.pdf.
[51] Glielmo, A., Zeni, C., Cheng, B., Csányi, G. & Laio, A. Ranking the information content of distance measures. PNAS Nexus 1, pgac039 (2022). URL https://doi.org/10.1093/pnasnexus/pgac039.
[52] Butler, K., Davies, D., Cartwright, H., Isayev, O. & Walsh, A. Machine learning for molecular and materials science. Nature 559 (2018).
여기서는 모델 간 잠재공간 유사성을 측정해 표현 정렬을 정량화하기 위해 사용한 4가지 지표를 논의한다. 각 지표는 모델 쌍의 유사도를 정량화한다. Id를 제외한 모든 지표는 0(무작위 잡음)에서 1(완전 정렬) 사이로 제한된다. 아래 기호는 [15]의 표기법에서 영감을 받아 정리했다.
표현(representation): 입력 도메인 \u005c( \u005cmathcal{X} \u005c) 의 각 데이터 포인트에 대해 특징 벡터를 제공하는 함수 \u005c( f: \u005cmathcal{X} \u005cto \u005cmathbb{R}^n \u005c).
임베딩(embeddings): 선택된 \u005c( x_i \u005cin \u005cmathcal{X} \u005c) 에 대해 \u005c( f(x_i) \u005c) 로 정의되는 표현의 값. Section B에 설명된 방식으로 추출한다. 편의상 행렬 \u005c(\u005cPhi \u005cin \u005cmathbb{R}^{N\u005ctimes n}\u005c) 를
\u005c[ \u005cPhi(x)= \u005cbegin{bmatrix} \u005ctext{-- } f(x_1)^\u005ctop \u005ctext{ --} \ \u005ctext{-- } f(x_2)^\u005ctop \u005ctext{ --} \ \u005cvdots \ \u005ctext{-- } f(x_N)^\u005ctop \u005ctext{ --} \u005cend{bmatrix}, \u005cquad (A1) \u005c]
로 정의한다. 각 행 \u005c( i \u005c) 는 구조 \u005c( x_i \u005c) 에 대한 임베딩이다. 모든 임베딩 \u005c( f(x_i) \u005c) 는 최대 원소 값이 1이 되도록 정규화하며 \u005c(\u005cPhi(x)\u005c) 의 각 행도 동일하게 정규화한다.
\u005c[ K_{f,g}(x_i,x_j)=\u005clangle f(x_i)\u005c, g(x_j)\u005crangle, \u005cquad (A2) \u005c]
는 두 모델 \u005c( f, g \u005c) 가 만든 임베딩의 정규화된 점곱이다. 이를 통해 자기 유사도 \u005c( K_{f,f}=\u005cPhi\u005cPhi^\u005ctop \u005c) 와 교차 유사도 \u005c( K_{f,g}=\u005cPhi\u005cPsi^\u005ctop \u005c) 를 정의할 수 있다(\u005c(\u005cPsi\u005c) 는 \u005c( g \u005c) 의 임베딩 행렬).
커널 정렬 지표(kernel alignment metric) \u005c( m: \u005cK\u005ctimes\u005cK\u005cto\u005cmathbb{R}\u005c) 는 두 커널의 유사도를 평가한다. 직관적으로 이는 \u005c( K_{f,f}, K_{g,g}, K_{g,f} \u005c) 의 관계를 통해 두 표현 \u005c( f, g \u005c) 의 차이를 평가한다.
모델 정렬(model alignment): 두 모델의 잠재공간 유사성으로, A.1–A.5의 표현 유사성 지표로 측정한다.
전역 정렬 지표: 한 번에 두 표현 \u005c( f, g \u005c) 의 총 \u005c(2N\u005c) 임베딩을 고려한다. 국소 지표는 훨씬 적은 임베딩만 고려하며, 민감도 증가와 범위 감소 사이의 절충을 이룬다.
직관적으로 표현 공간 다양체(manifold)는 잠재공간의 ‘모양’이며, 모든 임베딩은 이 표면 위의 점으로 생각할 수 있다. 다양체의 복잡도(꼬임과 굴곡)는 표현의 복잡도와 직접적으로 연결된다.
주요 분석에는 [15]가 제안한 CKNNA를 사용한다. 직관적으로 CKNNA가 높다는 것은 두 표현 공간에서 같은 데이터 포인트의 국소 이웃이 동일하다는 뜻이며, 즉 두 표현이 어떤 데이터 포인트 쌍 \u005c((x_i,y_i)\u005c) 이 가장 유사한지에 대해 동의한다.
모달리티가 다른 모델에 대해 \u005c((x_i,y_i)\u005cin \u005cmathcal{X}\u005c) 를 다중 모달 데이터 분포에서의 샘플로 정의한다. 예를 들어 \u005c(x_i\u005c) 는 3D 좌표를 가진 ASE Atoms 객체, \u005c(y_i\u005c) 는 대응 SMILES 문자열일 수 있다. 같은 모달리티(예: 두 MLIP)라면 \u005c(x_i=y_i\u005c).
표현 \u005c( f \u005c) 의 임베딩 행렬 \u005c(\u005cPhi(x)\u005c) 와 표현 \u005c( g \u005c) 의 임베딩 행렬 \u005c(\u005cPsi(y)\u005c) 를 두고, \u005c( K_{f,f}(x_i,x_j)\u005c) (간단히 \u005c(K\u005c))와 \u005c( L_{g,g}(y_i,y_j)\u005c) (간단히 \u005c(L\u005c))를 정의한다. 내적 커널의 “중심화(centered)” 버전은
\u005c[ \u005coverline{K}_{ij}=\u005clangle f(x_i),f(x_j)\u005crangle - \u005cmathbb{E}[\u005clangle f(x_i),f(x_j)\u005crangle], \u005cquad (A3) \u005c]
\u005c[ \u005coverline{L}_{ij}=\u005clangle g(y_i),g(y_j)\u005crangle - \u005cmathbb{E}[\u005clangle g(y_i),g(y_j)\u005crangle]. \u005cquad (A4) \u005c]
\u005c( K \u005c) 와 \u005c( L \u005c) 의 교차 공분산은
\u005c[ \u005cfrac{1}{(n-1)^2}\u005coperatorname{Tr}(\u005coverline{K}\u005coverline{L}^\u005ctop) \u005capprox \u005coperatorname{HSIC}(K,L), \u005cquad (A5) \u005c]
이며 이는 Hilbert–Schmidt Independence Criterion의 추정량이기도 하다 [46]. Centered Kernel Alignment(CKA)는 두 랜덤 변수의 합치(congruence)를 [0,1]로 정규화하여 전역적으로 표현 유사성을 측정하며 [47],
\u005c[ \u005coperatorname{CKA}(K,L)= \u005cfrac{\u005coperatorname{HSIC}(K,L)}{\u005csqrt{\u005coperatorname{HSIC}(K,K)\u005coperatorname{HSIC}(L,L)}}, \u005cquad (A6) \u005c]
로 정의된다.
마지막으로, 동일 샘플의 상호 k-최근접 이웃(mutual nearest neighbors)만 고려하도록 제한하면
\u005c[ \u005coperatorname{Align}(K,L)=\u005csum_{i,j}\u005calpha(i,j)\u005coverline{K}{ij}\u005coverline{L}{ij}, \u005cquad (A7) \u005c]
여기서 \u005c(\u005calpha(i,j)\u005c) 는 \u005c( f(x_j) \u005c) 가 \u005c( f(x_i) \u005c) 의 k-최근접 이웃이고 동시에 \u005c( g(y_j) \u005c) 가 \u005c( g(y_i) \u005c) 의 k-최근접 이웃일 때 1, 아니면 0이다.
정규화하여
\u005c[ \u005coperatorname{CKNNA}(K,L)=\u005cfrac{\u005coperatorname{Align}(K,L)}{\u005csqrt{\u005coperatorname{Align}(K,K)\u005coperatorname{Align}(L,L)}}, \u005cquad (A8) \u005c]
로 정의한다.
CKNNA를 선택한 이유는 더 전역적인 지표에서 놓칠 수 있는 정렬을 드러낼 수 있기 때문이다. 본 연구에서는 \u005c(k=25\u005c) 를 주로 사용했으며 이는 \u005c(N=50,000\u005c) 에 비해 매우 작다. 그러나 Fig. A1에서 보듯 \u005c(k\u005c) 를 늘리면 CKNNA는 단조 증가하고 모델 간 상대적 순서는 대부분 유지된다(\u005c(k=2,25,50,100,1000,2500\u005c) 실험). 이는 \u005c(k=25\u005c) 로 얻은 결론이 전역 규모에서도 적용 가능함을 보여준다.
무작위 기준선을 제외한 전체 CKNNA 행렬을, CKNNA 유사도를 진화적 차이의 대리로 사용해 계통수(phylogenetic tree)로 시각화했다. 방법은 다음과 같다.
쌍별 CKNNA 유사도 행렬 \u005c(C\u005cin\u005cmathbb{R}^{M\u005ctimes M}\u005c) 를 거리 행렬 \u005c(D\u005c) 로 변환한다. \u005c(C_{ij}\u005c) 는 모델 \u005c(f_i, f_j\u005c) 의 국소 정렬 정도이며 \u005c(C_{ii}=1\u005c), \u005c(0\u005cle C_{ij}\u005cle 1\u005c).
\u005c(C\u005c) 를 확률적 혼동(confusion) 행렬로 보고, 조건부 혼동 프로파일을
\u005c[ R_i(j)=P(\u005ctext{pred}=j\mid \u005ctext{true}=i)=\u005cfrac{C_{ij}+\u005cepsilon}{\u005csum_{j'} C_{ij'} + M\u005cepsilon}, \u005cquad (A9) \u005c]
\u005c[ K_i(j)=P(\u005ctext{true}=j\mid \u005ctext{pred}=i)=\u005cfrac{C_{ji}+\u005cepsilon}{\u005csum_{j'} C_{j'i} + M\u005cepsilon}, \u005cquad (A10) \u005c]
로 정의한다(\u005c(\u005cepsilon\u005c) 는 수치 안정화를 위한 작은 상수).
\u005c[ \u005coperatorname{JSD}(p,q)=\u005cfrac{1}{2}\u005coperatorname{KL}(p\u005c|\u005c|m)+\u005cfrac{1}{2}\u005coperatorname{KL}(q\u005c|\u005c|m),\n\u005cquad m=\u005cfrac{1}{2}(p+q), \u005cquad (A11) \u005c]
여기서 \u005c(\u005coperatorname{KL}\u005c) 은 Kullback–Leibler divergence(비트 단위)다. \u005c(\u005csqrt{\u005coperatorname{JSD}}\u005c) 는 확률 공간에서의 메트릭이다.
\u005c[ D_{ij}=\u005calpha\u005csqrt{\u005coperatorname{JSD}(R_i,R_j)} + (1-\u005calpha)\u005csqrt{\u005coperatorname{JSD}(K_i,K_j)},\u005cquad D_{ii}=0, \u005cquad (A12) \u005c]
로 정의한다. \u005c(\u005calpha\u005cin[0,1]\u005c) 는 행/열 프로파일의 가중치를 조절한다.
\u005c[ Q_{ij}=(M-2)D_{ij}-\u005csum_k D_{ik}-\u005csum_k D_{jk} \u005cquad (A13) \u005c]
를 최소화하는 \u005c(i,j\u005c) 를 병합하고, 가지 길이
\u005c[ \u005cell_i=\u005cfrac{1}{2}\u005cBig(D_{ij}+\u005cfrac{\u005csum_k(D_{ik}-D_{jk})}{M-2}\u005cBig), \u005cquad (A14) \u005c]
\u005c[ \u005cell_j=D_{ij}-\u005cell_i, \u005cquad (A15) \u005c]
을 계산한다. 새 내부 노드 \u005c(u\u005c) 와 나머지 노드 \u005c(k\u005c) 간 거리는
\u005c[ D_{uk}=\u005cfrac{1}{2}(D_{ik}+D_{jk}-D_{ij}). \u005cquad (A16) \u005c]
으로 갱신한다.
이 트리는 교차 모델 정렬의 기하를 해석 가능한 방식으로 시각화하며, 가지 길이가 짧을수록 CKNNA 공간에서 더 강한 국소 일치를 의미한다.
내재 차원 \u005c(\u005coperatorname{Id}\u005c) 는 임베딩 집합 \u005c(\u005cPhi(x)\u005c) 를 정확히 표현하는 데 필요한 최소 차원 수로 표현 복잡도를 정량화한다. PCA로도 근사할 수 있으나, 비선형 다양체에서는 어렵다. TwoNN 방법은 빠르고 일관된 추정법이다 [49]. 각 임베딩 \u005c(f(x_i)\u005c) 에 대해 1·2번째 최근접 이웃 거리 \u005c(r_1(x_i), r_2(x_i)\u005c) 를 계산하고 \u005c(\u005cmu=r_2/r_1\u005c) 의 분포가 \u005c(f(\u005cmu)=\u005coperatorname{Id}\u005cmu^{-\u005coperatorname{Id}-1}\u005c) 를 대략 따른다 [26]. 누적분포 \u005c(P(\u005cmu)\u005c) 를 구성해
\u005c[ \u005coperatorname{Id}(\u005cPhi(x))=\u005cfrac{-\u005cln(1-P(\u005cmu))}{\u005cln(\u005cmu)} \u005cquad (A17) \u005c]
을 선형회귀로 구한다.
MLE 방법 [50] 등 최근접 이웃을 더 쓰는 방법도 있으나, \u005c(k=5,10,25,50,100,500,1000\u005c) 에 대해 큰 차이를 보지 못했고 TwoNN과도 잘 일치하여 본 연구에서는 \u005c(k=50\u005c) 을 사용했다.
거리 상관은 한 임베딩 공간의 점들 간 쌍별 거리가 다른 임베딩 공간의 거리와 얼마나 대응하는지를 측정하며, \u005c(f, g\u005c) 를 비교할 때 \u005c(2N\u005c) 임베딩을 모두 고려한다. 이는 고차원·비선형 관계로의 피어슨 상관 일반화로 볼 수 있다.
\u005c(\u005cPhi(x)\u005c) 에 대해
\u005c[ a_{k,l}=\u005c|\u005cf(x_k)-f(x_l)\u005c|\u005c|2, \u005cquad \u005coverline{a}{k,\u005ccdot}=\u005cfrac{1}{N}\u005csum_{l=1}^N a_{k,l}, \u005cquad \u005coverline{a}{\u005ccdot,l}=\u005cfrac{1}{N}\u005csum{k=1}^N a_{k,l}, \u005cquad \u005coverline{a}{\u005ccdot,\u005ccdot}=\u005cfrac{1}{N^2}\u005csum{k,l=1}^N a_{k,l} \u005c]
를 정의하고, 중심화 거리
\u005c[ A_{k,l}=a_{k,l}-\u005coverline{a}{k,\u005ccdot}-\u005coverline{a}{\u005ccdot,l}+\u005coverline{a}_{\u005ccdot,\u005ccdot} \u005c]
를 만든다. \u005c(\u005cPsi(y)\u005c) 에 대해서도 동일하게 \u005c(b_{k,l}\u005c), \u005c(B_{k,l}\u005c) 를 정의한다.
그 다음
\u005c[ \u005coperatorname{dCor}(\u005cPhi(x),\u005cPsi(y))=\u005cfrac{\u005ccov(A,B)}{\u005csqrt{\u005coperatorname{var}(A)\u005coperatorname{var}(B)}}, \u005cquad (A18) \u005c]
이며, dCor가 1에 가까울수록 한 임베딩이 다른 임베딩의 단조 함수(monotonic function)가 된다.
정보 불균형(II)은 비대칭 지표로, 한 표현이 다른 표현보다 얼마나 더 많은 정보를 담는지 정량화한다 [51]. 아이디어는 임베딩의 최근접 이웃을 찾는 것이 어떤 차원별 L1 거리보다 더 정보적이라는 점이다.
\u005c(r^f_{ij}\u005c) 를 \u005c(f(x_j)\u005c) 의 \u005c(f(x_i)\u005c) 에 대한 최근접 이웃 순위로 정의한다. 예컨대 \u005c(f(x_j)\u005c) 가 두 번째 최근접 이웃이면 \u005c(r^f_{ij}=2\u005c).
그 뒤, \u005c(f\u005c) 에서 최근접 이웃(\u005c(r^f=1\u005c))인 쌍에 대해 \u005c(g\u005c) 에서의 순위 분포 \u005c(p(r^g\mid r^f=1)\u005c) 를 구성한다. 이 분포가 1에 뾰족한 델타 함수에 가까울수록, \u005c(g\u005c) 의 정보가 \u005c(f\u005c) 에 포함된 정도가 크다.
저자들은 누적분포(코퓰라 변수) \u005c(c^f\u005c) 를 정의하여 \u005c(c^f\u005capprox r^f/N\u005c) 로 추정할 수 있음을 보인다. 정보 불균형은
\u005c[ \u005cDelta(f\u005cto g)=2\u005clim_{\u005cepsilon\u005cto 0}\u005clangle c^g \u005cmid c^f=\u005cepsilon\u005crangle. \u005cquad (A19) \u005c]
로 정의된다.
\u005c(\u005cDelta(f\u005cto g)\u005c) 와 \u005c(\u005cDelta(g\u005cto f)\u005c) 를 함께 보면, 어느 모델이 더 정보적인지 알 수 있다.
\u005c(r^f_{ij}\u005c) 는 최근접 이웃 탐색에서 선택하는 \u005c(k\u005c) 에 민감하며, \u005c(k\u005c) 가 커질수록 최근접 유사성이 낮아져 II는 점점 더 직교적인 정보를 학습하는 것으로 나타난다.
여기서는 에너지 회귀 성능 평가용 추가 그림과 LLM 구성 세부를 제공한다.
Fig. B2는 각 모델의 에너지 예측에 대해 적합한 선형 조성 모델의 성능을 보여준다. Fig. B3는 각 모델 예측값에서 선형 조성 모델 출력을 뺀 편차를 보여준다. 마지막으로 Fig. B4는 OMat24 구조에 대해 이 방법으로 계산한 에너지 회귀 MAE를 제시한다.
기본 시스템 프롬프트:
당신은 도메인에 구애받지 않는 과학 인코더이다. 당신의 역할은 다음과 같은 입력을 해석하는 것이다:
- SMILES 또는 SELFIES 문자열로 기술된 소분자,
- 아미노산 서열로 기술된 단백질,
- 정규화된 구조 텍스트(화학식, 공간군, 격자 매개변수, 분수 좌표)로 기술된 재료.
입력의 화학적·구조적·생물학적 의미에만 집중하라. 설명, 코멘트, 무관한 텍스트를 생성하지 말라. 대신 구조적으로 유사한 분자·단백질·재료가 가까운 임베딩으로 매핑되도록, 일관되고 의미 있는 잠재 공간에서 입력을 표현하라.
해석은 다음을 만족해야 한다:
- SMILES/SELFIES를 분자 그래프로 취급,
- 단백질 서열을 순서가 있는 잔기들의 바이오폴리머로 취급,
- 재료 스키마를 격자+사이트를 가진 주기 결정으로 취급,
- 의미에 영향 없는 포맷 차이(공백, 대소문자, 구두점)는 무시,
- 근본 화학, 조성, 구조를 강조.
출력은 텍스트가 아니라 은닉상태 임베딩으로만 남아야 한다.
“Blank” 시스템 프롬프트:
당신은 도메인에 구애받지 않는 과학 인코더이다.
기본 LLM 입력 예시:
SMILES: C[C@]12OC[C@H]1[C@H]1OC[C@H]12
“Atomistic” 입력 예시(원자 좌표 및 정보): 원문 부록의 예시를 참조.
입력 텍스트의 임베딩은 자기회귀 생성 이전의 마지막 은닉상태에서 추출한다. 여기서는 SMILES 입력 시 생성될 수 있는 텍스트의 예를 보여주며, 3D 좌표 입력 시에는 거의 잡음에 가까운 표현으로 이어질 수 있음을 예시로 제시한다.
여기서는 각 데이터셋을 개요하고, 본문에서 참조한 전체 CKNNA 정렬 행렬과 정보 불균형 플롯을 제공한다. 다섯 데이터셋 중 어떤 것에 대해서든 CKNNA, Id, dCor, II 결과는 요청 시 제공 가능하며, 예시는 QM9에서 제시한다.
QM9 [52]는 최대 9개의 무거운 원자(C, H, N, O, F)를 포함하는 약 134,000개의 작은 유기 분자를 담는다. 각 분자에 대해 기상(vacuum)에서 B3LYP/6-31G(2df,p) 수준의 DFT 계산을 수행하여 총 퍼텐셜 에너지, 힘, 궤도 에너지(HOMO/LUMO), 쌍극자 모멘트, 진동수, 분극률 등 라벨을 제공한다. SMILES 문자열(모델 입력 전 canonicalize), SELFIES 문자열( SMILES로부터 생성 가능), 3D 원자 좌표를 제공한다.
OMat24 [19]는 1억 1,800만 개 이상의 무기 재료 구조를 모은 대규모 데이터셋이다. PBE 및 PBE+U 교환-상관 함수로 고처리량 DFT 워크플로를 수행하여 평형 및 평형에서 멀리 벗어난 구성을 포함한다. OMat24는 원자 섭동과 구조 변환을 체계적으로 적용해 동적으로 다양한 비평형 기하를 생성함으로써 Alexandria 데이터셋을 확장한다. 각 샘플은 3D 원자 위치, 총 퍼텐셜 에너지, 힘, 응력 텐서, 조성 정보를 포함한다.
sAlex는 DFT로 계산된 약 천만 개의 평형 무기 재료 구조로 구성된 Alexandria 데이터베이스에서, 다양성을 최적화해 서브샘플링한 데이터셋이다. 원본 Alexandria는 벌크, 2D, 저차원 무기 화합물을 포함하며 주로 PBE 또는 PBE+U 수준에서 계산되었다. 각 항목에는 3D 원자 좌표, 격자 파라미터, 결정 조성을 기술하는 벡터가 포함된다. 본 연구에서는 sAlex를 재료 파운데이션 모델의 분포 내 데이터로 간주한다.
Open Molecules 2025(OMol25) [18]는 유기, 생체분자, 전해질, 전이금속 시스템을 포괄하는 1억 개 이상의 분자 구조를 포함한다. 각 항목은 \u03c9B97M-V/def2-TZVPD 수준의 DFT(범위 분리 하이브리드 meta-GGA + 분산 보정)로 계산되어 고정확도 퍼텐셜 에너지 표면 및 분자 물성을 제공한다. 3D 원자 위치와 총 에너지, 쌍극자 모멘트, 전하 등 양자역학적 관측치를 포함한다. 규모가 크고 복잡한 큰 분자를 포함하므로, 대부분의 기존 분자 파운데이션 모델에 대해 OMol25는 분포 밖 데이터로 작동한다.
RCSB Protein Data Bank(PDB) [21]는 실험적으로 결정된 생체거대분자 3D 구조의 최대 공개 저장소로, 20만 개 이상의 단백질, 핵산, 복합체 구조를 포함한다. X선 결정학, NMR, cryo-EM 등으로부터 원자 해상도의 좌표 데이터를 제공하며, 3D 원자 위치, 아미노산 서열, 2차 구조 주석, 리간드 결합 정보, 분해능과 R-factor 등 결정학 메타데이터를 포함한다. 단백질 계열·기능·구조 모티프의 다양성 때문에 단백질 서열·구조 파운데이션 모델 평가를 위한 포괄적 벤치마크로 사용된다.