이들 각각의 모듈을 위한 이론적 기술적인 문제들은 상용화 수준이 가능할 정도로 완성되었다고 볼 수 있다. 이 수준에서 또다른 문제는 이를 규모화 하기 위한 시도들이다. 처리해야할 문서가 100만건이라면 상관없겠지만 10억건이라면 문제가 발생할 수 있다.
분산처리 시스템
Storage 가상화
이들에 대한 이론적 기술은 어느정도 완성되었으며, 상당부분 공개가 되었다. 이에 대한 내용은 mapreduce(:12)와 hadoop(:12) 파일시스템을 참고하기 바란다.
그렇다면 검색엔진을 위한 모든 기술이 완성되었다고 볼 수 있다. 그렇다면 품질을 높이는 문제가 남아있는데, 여기에 필요한 기술중 가장 중요한 요소가 형태소 분석이다.
다음과 같은 문장이 주어졌을 때, 형태소 분석이 없이 색인이 들어갈경우를 생각해보자.
목적
필요
Recent Posts
Archive Posts
Tags