텍스트에서 토큰까지: 토큰화 파이프라인은 어떻게 작동하는가

ko생성일: 2026. 2. 17.갱신일: 2026. 2. 17.

검색 시스템이 문장을 저장하는 대신 텍스트를 정규화하고 분해해 토큰으로 만드는 과정을, 대소문자/문자 폴딩, 토큰화, 불용어 제거, 어간 추출 단계별로 살펴본다.