nutch 검색 테스트 

nutch 검색 테스트에서 우리는 nutch를 이용해서 문서를 수집하는 방법과 어떤 내용들이 어떤식으로 저장되는지에 대략적으로 알아보았다. 이 문서에서는 search를 하는 방법에 대해서 알아보도록 하겠다. Nutch의 crawler 시스템의 데이터 구조체의 핵심은 아래와 같음을 기억하고 있을 것이다. 1. WebDB는 패이지와 링크의 Web 그래프를 ...

nutch에서의 MapReduce 

nutch에서의 MapReduce 문서의 내용은 완성된 상태가 아니다. nutch소스코드를 분석하면 완성된 문서가 만들어질 것이다.MapReduce는 Google( 1. http 1. attachmentMapReduce는 완성된 상태로 배포되는 라이브러리 혹은 프로그램이 아닌 모델이다. 그러므로 자신의 환경에 맞는 MapReduce 시스템을 만들어...

테스트 환경 만들기 

테스트 환경 만들기검색엔진의 이론적 기본은 이미 5년전전에 완성되었으며, 발표된 이론을 거의 대부분 수용하고 있는 lucene 검색엔진까지 개발된 상태다. 현재로써는 새로운 검색엔진의 개발이라는 목표를 세울 필요도 없다. 몇가지 할일이라고는 검색을 최적화 하기 위해서 몇몇 수식을 약간씩 고치는 정도이겠지만 별 의미 없는 일이라고 생각된다. 그거 약간 고친...

Nutch Hadoop 설치 운용 문서 

Nutch Hadoop 설치 운용 문서 .. 좀 오래된 문서라서, 지금 상황 (2008/10/22)에 맞도록 수정할 계획임)Hadoop은 분산(distributed file system)으로 MapReduce(이 문서는 Nutch와 Hadoop의 구조적인 부분을 설명하지는 않을 것이다. 단지 설치하고 운용하는데에 촛점을 맞출 것이다. 원문은 ht...

Nutch Distributed Search 

Nutch Distributed SearchNutch는 기본적으로 hadoop(Hadoop 자체가 자바가상머신위에서 파일시스템을 추상화시킨 도구이기 때문에 태생적으로 느릴 수 밖에 없다.이 경우 성능을 높이기 위해서 Segment를 여러개로 나눈다음에 몇개의 서버에 두고, 각각의 서버에서는 Hadoop이 아닌 Local에서 검색을 하고 그 결과를 Web ...

Nutch 개요 

Nutch 개요Nutch는 기반의 공개 웹검색 엔진이다. 대략적인 구조는 다음과 같다. attachmentNutch 데이타는 두가지 타입으로 나뉜다. 1. Web database 1. segement 목록 fetchlist fetcher output 색인 fetch output 데이터는 Nutch reader에 의해서 읽을 수 있는 데이터 포맷으로 ...

nutch 

nutchnutch는 공개 검색엔진인 Lucene을 좀더 발전시킨 형태로 개발하고 있는 진보된 공개 검색엔진이다. 기존에 발표된 문서수집/검색 알고리즘 뿐만 아니라, 최근에 발표된 다른 알고리즘도 반영되고 있으므로 검색엔진의 개발을 기획하는데 많은 도움을 줄 수 있을 것이라는 판단하에 nutch에 대한 분석을 하기로 했다. ...

Solr로 로컬 검색서비스 만들기 

Solr로 로컬 검색서비스 만들기 4.7 버전에 맞추어 새로 작성 중Solr은 Apache 프로젝트에 기반을 둔 검색엔진으로 기업 대상으로 개발을 했다. 현재(@DATE) 최신 버전은 Apache solr 4.7.0 버전이다.Solr는 단독 애플리케이션 서버 형태로 작동하며, REST 형식의 API를 제공한다. 문서들은 를 이용해서 XML, JSON...

SEO - 검색엔진 최적화 결과 

SEO - 검색엔진 최적화 결과2007/6/20일 현재 개인적으로 운영하는 wiki( Blog를 통한 배포. 배포경로가 두개가 된다는 점외에도 커뮤니티 형성이 가능하다는 장점이 있다. 우리나라에서 wiki( 문서 타이틀의 재작성 이와 관련된 얘기는 에 정리해둔걸 읽어 보기 바란다. 주로 문서의 특성이 최대한 잘 들어나게끔 제목을 재작성하는데, 많은 노력을...

SEO - 검색엔진을 이용한 컨텐츠 최적화 

SEO - 검색엔진을 이용한 컨텐츠 최적화어느 정도 컨텐츠(쉽게할 수 있는 시도는 카테고리, 태그 클라우드 등을 활용하는게 되겠지만 얘들은 고유의 한계를 가지고 있다. 카테고리는 컨텐츠의 양이 적을 경우에는 괜찮지만 많을 경우 카테고리간 병합, 카테고리 분리와 같은 복잡한 문제가 발생한다. 거기에 카테고리를 분류하기 애매모호하거나 여러 관련된 카테고리를 ...