SEO - 위키와 블로그의 활용 

SEO - 위키와 블로그의 활용몇 년간의 사이트관리 경험을 바탕으로 컨텐츠관리 노하우에 대해서 글을 써보려고 합니다. 양이 꽤 되기 때문에 나누어서 글을 쓸 계획입니다. 이글은 그 중 첫번째 글입니다.정보를 지배하는 자가 현재와 미래를 지배할 것이라는 얘기는 오래전부터 나왔지만 일반인 입장에서는 그리 와닿는 격언은 아니었던거 같다. 포탈, 인터넷 서비스회...

검색엔진 : precision & recall 

검색엔진 검색은 망망대해에 투망을 던져서 원하는 고기를 잡는 행위에 비유되곤 한다. 이때 우리는 투망범위를 조절함으로써, 잡을 수 있는 물고기의 종류와 양을 어느정도 결정할 수 있을 것이다. 투망범위를 넓게하면 많은 물고기를 건져올릴 수 있겠지만 많은 물고기를 건져올린다는게 항상 좋은건 아니다. 원하지 않는 쓸데없는 물고기들도 잔뜩 올라와서 골라내는 작업...

검색서비스 기획 

검색서비스 기획일단 마구잡이로 써나간다음에 정리한다.개발자 관점에서 기획자가 검색서비스를 기획한다면, 어떤 점에 신경을 써야 할까 하는 것들에 대해서 정리해보려고 한다. 아마도 몇가지 실례를 들어서 설명하게 되지 않을까 싶다. 서비스 사용유저 관점이 아닌 개발자 관점에서 접근을 할 것이다. Data Data Data ... -----------------...

MapReduce 

MapReduceMapReduce는 대량의 자원을 다루는 분산/병렬 시스템의 효율적인 지원을 위한 목적으로 Google( 1. 병렬처리 1. fault-tolerance 1. 데이터분산 및 로드밸런싱 용어에서 알 수 있듯이 MapReduce(Map은 사용자 정의 자료구조이며, 입력데이터에서 Key/Value 쌍으로 이루어진 중간 데이터 형태의 데이터를...

Lucen 색인 파일 구조 

Lucen 색인 파일 구조문서를 파싱해서 색인으로할 단어의 목록을 만드는건 그리 어려운일이 아니라고 생각된다. 그러나 빠른 검색을 위한 색인 DB포맷을 만드는건 쉬운일이 아니며, 고려해야할 사항들이 많다. 수천만개의 색인 단어에서 원하는 단어를 찾아내어서 가중치 별로 순위를 매긴다거나 boolean, fuzzy, 문장, grouping, field 등의 ...

Lucene Index 

Lucene Index...

Lucene 분석 

Lucene 분석 루신 분석관련 위키페이지 기존에 만들어져 있던 루신 페이지는 지금페이지의 하위 카테고리 형식으로 정리한다....

색인 DB의 생성 

색인 DB의 생성 이글은 를 위한 준비단계의 문서다. 가볍게 읽으면 될 것 같다. 오래전에 작성한 글이라서 수정해야 될 곳이 많지만 귀찮으니 그냥 이대로 유지.검색엔진은 단어단위로 이루어진다. 우리가 Linux라는 단어를 검색 keyword로 사용한다함은 Linux란 단어를 포함한 문서명과 링크정보를 검색시스템에 요구하는 것이다. 그러므로 검색시스템은 ...

검색엔진 : 확장 불리언 모델 (Extended Boolean Model) 

검색엔진 원래는 boolean(boolean model은 IR(Information retrive)을 위한 가장 전통적인 모델이다. 불리언 모델은 그 이름에서 알 수 있듯이, AND, OR, NOT 연산을 이용한다. 불리언 모델은 간결하며, 빠르지만 문서 유사도를 계산할 수 없다는 단점을 가진다. 이 단점은 문서의 양이 많아질때 두드러진다. 때문에 문서정...

검색엔진 : Density based model 

검색엔진 공개 검색엔진(루신은 vector A B C 검색어는 구글 검색 엔진 이라고 가정해보자. 3문서 모두다 "구글 검색 엔진"을 포함하고 있으며, TF(A 번 문서는 "구글 검색 엔진"이 모두 동일한 위치에서 높은 밀도로 발생했으며, C 번 문서는 각각 다른 장소에서 낮은 밀도로 발생하고 있다. 그렇다면 A 문서가 더 높은 값을 가지도록 계산요소...