Nutch Hadoop 설치 운용 문서 

Nutch Hadoop 설치 운용 문서 .. 좀 오래된 문서라서, 지금 상황 (2008/10/22)에 맞도록 수정할 계획임)Hadoop은 분산(distributed file system)으로 MapReduce(이 문서는 Nutch와 Hadoop의 구조적인 부분을 설명하지는 않을 것이다. 단지 설치하고 운용하는데에 촛점을 맞출 것이다. 원문은 ht...

Nutch Distributed Search 

Nutch Distributed SearchNutch는 기본적으로 hadoop(Hadoop 자체가 자바가상머신위에서 파일시스템을 추상화시킨 도구이기 때문에 태생적으로 느릴 수 밖에 없다.이 경우 성능을 높이기 위해서 Segment를 여러개로 나눈다음에 몇개의 서버에 두고, 각각의 서버에서는 Hadoop이 아닌 Local에서 검색을 하고 그 결과를 Web ...

Nutch 개요 

Nutch 개요Nutch는 기반의 공개 웹검색 엔진이다. 대략적인 구조는 다음과 같다. attachmentNutch 데이타는 두가지 타입으로 나뉜다. 1. Web database 1. segement 목록 fetchlist fetcher output 색인 fetch output 데이터는 Nutch reader에 의해서 읽을 수 있는 데이터 포맷으로 ...

nutch 

nutchnutch는 공개 검색엔진인 Lucene을 좀더 발전시킨 형태로 개발하고 있는 진보된 공개 검색엔진이다. 기존에 발표된 문서수집/검색 알고리즘 뿐만 아니라, 최근에 발표된 다른 알고리즘도 반영되고 있으므로 검색엔진의 개발을 기획하는데 많은 도움을 줄 수 있을 것이라는 판단하에 nutch에 대한 분석을 하기로 했다. ...

Solr로 로컬 검색서비스 만들기 

Solr로 로컬 검색서비스 만들기 4.7 버전에 맞추어 새로 작성 중Solr은 Apache 프로젝트에 기반을 둔 검색엔진으로 기업 대상으로 개발을 했다. 현재(@DATE) 최신 버전은 Apache solr 4.7.0 버전이다.Solr는 단독 애플리케이션 서버 형태로 작동하며, REST 형식의 API를 제공한다. 문서들은 를 이용해서 XML, JSON...

SEO - 검색엔진 최적화 결과 

SEO - 검색엔진 최적화 결과2007/6/20일 현재 개인적으로 운영하는 wiki( Blog를 통한 배포. 배포경로가 두개가 된다는 점외에도 커뮤니티 형성이 가능하다는 장점이 있다. 우리나라에서 wiki( 문서 타이틀의 재작성 이와 관련된 얘기는 에 정리해둔걸 읽어 보기 바란다. 주로 문서의 특성이 최대한 잘 들어나게끔 제목을 재작성하는데, 많은 노력을...

SEO - 검색엔진을 이용한 컨텐츠 최적화 

SEO - 검색엔진을 이용한 컨텐츠 최적화어느 정도 컨텐츠(쉽게할 수 있는 시도는 카테고리, 태그 클라우드 등을 활용하는게 되겠지만 얘들은 고유의 한계를 가지고 있다. 카테고리는 컨텐츠의 양이 적을 경우에는 괜찮지만 많을 경우 카테고리간 병합, 카테고리 분리와 같은 복잡한 문제가 발생한다. 거기에 카테고리를 분류하기 애매모호하거나 여러 관련된 카테고리를 ...

SEO - 위키와 블로그의 활용 

SEO - 위키와 블로그의 활용몇 년간의 사이트관리 경험을 바탕으로 컨텐츠관리 노하우에 대해서 글을 써보려고 합니다. 양이 꽤 되기 때문에 나누어서 글을 쓸 계획입니다. 이글은 그 중 첫번째 글입니다.정보를 지배하는 자가 현재와 미래를 지배할 것이라는 얘기는 오래전부터 나왔지만 일반인 입장에서는 그리 와닿는 격언은 아니었던거 같다. 포탈, 인터넷 서비스회...

검색엔진 : precision & recall 

검색엔진 검색은 망망대해에 투망을 던져서 원하는 고기를 잡는 행위에 비유되곤 한다. 이때 우리는 투망범위를 조절함으로써, 잡을 수 있는 물고기의 종류와 양을 어느정도 결정할 수 있을 것이다. 투망범위를 넓게하면 많은 물고기를 건져올릴 수 있겠지만 많은 물고기를 건져올린다는게 항상 좋은건 아니다. 원하지 않는 쓸데없는 물고기들도 잔뜩 올라와서 골라내는 작업...

검색서비스 기획 

검색서비스 기획일단 마구잡이로 써나간다음에 정리한다.개발자 관점에서 기획자가 검색서비스를 기획한다면, 어떤 점에 신경을 써야 할까 하는 것들에 대해서 정리해보려고 한다. 아마도 몇가지 실례를 들어서 설명하게 되지 않을까 싶다. 서비스 사용유저 관점이 아닌 개발자 관점에서 접근을 할 것이다. Data Data Data ... -----------------...