스핑크스 검색엔진 설치를 해봤습니다. > 리눅스서버
리눅스서버

스핑크스 검색엔진 설치를 해봤습니다.

조회 135회 댓글 0건
  • 현재 페이지 주소 복사
  • 페이스북으로 공유
  • X 로  공유
  • 트위터로  공유
  • 네이버 블로그로 공유
  • 네이버 카페 공유하기
  • 네이버 라인 공유하기
  • 네이버 밴드 공유하기
  • 링크드인으로 공유하기
  • 핀터레스트에 공유하기

검색엔진이 필요해서 제미니에게 아래와 같이 질문을 했다.

> 리눅스에서 무료로 사용하면 좋은것 또는 AWS에서 쉽게 사용할만한 검색엔진을 추천 받고 싶어

예상대로 엘라스틱 서치와 아파치 솔라 추천해 주는데 이걸 언제 메뉴얼 보고 테스트 하나 싶어 예전에 사용했던 스핑크스가 생각이 나서 이번에 설치하고 테스트 해봤습니다.


---


직접 설치해서 사용하는 검색엔진에서 사용할만한 프로그램중 하나인 러시아산 스핑크스 검색엔진 입니다.

웬만한 중소 사이트에서 사용하는데 무리가 없을정도 이고 검색 결과는 본래 수동으로 손을 봐야 하는것도 많기 때문에 사용 검색엔진이라고 본인의 입맞에 딱 맞을 수도 있지만 아닌경우도 있습니다.


상황에 맞게 잘 응용해서 사용해야 겠지요.


CentOS7 에서는 최대 버전이 3.5.1 까지만 설치가 되고 그 이후는 라이브러리가 맞지 않아서 기본적으로는 안됩니다.



 

● 검색엔진의 기본

  - 수집. 색인. 검색 보통 이렇게 3부분으로 나뉘어져 있고 환경 설정도 이렇게 되어 있다고 인지 하는것이 좋습니다.

  - 위 3가지가 각각 별개로 작동 한다는 의미 이면서 순서대로 당연히 영향을 미칩니다.

  

● 스핑크스 클라이언트

  - 가장 쉽게 사용하는 방법이 mysql client를 이용하는것입니다. 

  - 빠르기도 하고 PHP에서 별도 라이브러리 설치할 필요 없이 평소 사용하던 mysql로 접속 사용하면 됩니다.

  - 쿼리도 mysql과 비슷하기 때문에 기본적으로 쉽게 사용가능 합니다.

  - 착각하지 말것이 이건 스핑크스 클라이언트 이지 mysql> 이라고 나왔다고 데이터베이스가 아니라는 것입니다.

  - 즉, delete, drop, create 이런것 안되고 접속할 때 계정, 비번 이런것이 없습니다. 이건 검색엔진 클라이언트를 mysql 활용한것이지 DBMS가 아니기 때문입니다.

  - 뭐야 이건 비밀번호도 없이 들어가네... 착각 하지 말라는 것입니다.



source src_pabburi
{
    type            = mysql
    sql_host        = 디비호스트
    sql_user        = 디비유저
    sql_pass        = 디비비밀번호
    sql_db          = test_pabburi
    sql_port        = 디비포트
    sql_sock        = /mysql/mysql.sock

# 삭제 제외
    sql_query       = SELECT id, unified_no, wr_subject, wr_subject_kw FROM test_pabburi.search WHERE sphinx_status != 'Del'

    # **중요: 쿼리에서 첫번째 컬럼은 고유한 숫자컬럼 - 하지만 이것을 아래 필드 설정에 넣는것은 아니다.**
    # sql_field_string: MATCH() 함수로 검색 가능
    # sql_attr_string: 검색 안되고 속성(Attribute) 필드 - 필터링/정렬/그룹핑 용도. MATCH() 사용만 안되고 나머지는 사용 가능
    sql_attr_string     = unified_no
    sql_field_string    = wr_subject
    sql_field_string    = wr_subject_kw

}


# 정적인덱스: 여기선 plain index 라고 부른다.
index pabburi_test
{
    #
    type            = plain
    source          = src_pabburi
    path            = /sphinx/indexes/pabburi_test

    # infix 인덱싱 추가 (부분 일치 검색)
    min_prefix_len  = 0
    min_infix_len   = 2

    # 1글자 단어도 인덱싱
    min_word_len    = 1

    charset_table   = 0..9, A..Z->a..z, _, a..z, U+410..U+42F->U+430..U+44F, U+430..U+44F
    ngram_len       = 1
    ngram_chars         = U+4E00..U+9FBB, U+3400..U+4DB5, U+20000..U+2A6D6, U+FA0E, U+FA0F, U+FA11, U+FA13, U+FA14, U+FA1F, U+FA21, U+FA23, U+FA24, U+FA27, U+FA28, U+FA29, U+3105..U+312C, U+31A0..U+31B7, U+3041, U+3043, U+3045, U+3047, U+3049, U+304B, U+304D, U+304F, U+3051, U+3053, U+3055, U+3057, U+3059, U+305B, U+305D, U+305F, U+3061, U+3063, U+3066, U+3068, U+306A..U+306F, U+3072, U+3075, U+3078, U+307B, U+307E..U+3083, U+3085, U+3087, U+3089..U+308E, U+3090..U+3093, U+30A1, U+30A3, U+30A5, U+30A7, U+30A9, U+30AD, U+30AF, U+30B3, U+30B5, U+30BB, U+30BD, U+30BF, U+30C1, U+30C3, U+30C4, U+30C6, U+30CA, U+30CB, U+30CD, U+30CE, U+30DE, U+30DF, U+30E1, U+30E2, U+30E3, U+30E5, U+30E7, U+30EE, U+30F0..U+30F3, U+30F5, U+30F6, U+31F0, U+31F1, U+31F2, U+31F3, U+31F4, U+31F5, U+31F6, U+31F7, U+31F8, U+31F9, U+31FA, U+31FB, U+31FC, U+31FD, U+31FE, U+31FF, U+AC00..U+D7A3, U+1100..U+1159, U+1161..U+11A2, U+11A8..U+11F9, U+A000..U+A48C, U+A492..U+A4C6
}

# 동적인덱스: 여기선 rt 인덱스라고 부른다.(real time index)
#  - 10만개 이하면 정적으로만 자주 해도 충분하다.



indexer
{
    mem_limit       = 512M
}


# ----------------------------------------------------------------------------
# 검색기
# ----------------------------------------------------------------------------
#
# mysql 클라이언트 접속 방법: mysql -h127.0.0.1 -P5036
#
# Native API는 사용하지 않아서 없애버림 - listen = 9312
searchd
{
    listen          = 5036:mysql41
    log             = /sphinx/searchd.log
    query_log       = /sphinx/query.log
    read_timeout    = 5
    max_children    = 30
    pid_file        = /sphinx/searchd.pid
    seamless_rotate = 1
    preopen_indexes = 1
    unlink_old      = 1
    workers         = threads # for RT to work
    binlog_path     = /sphinx/binlogs
}
 


● 위 수집하는 source에서

   - sql의 select 에서 첫번째는 반드시 숫자로 된 고유한 컬럼이어야 하고 이것은 아래쪽 필드에서 지정하는것이 아닙니다.

   - id 컬럼이 자동으로 생성 됩니다.



위 설정은 동적 색인 부분은 들어가지 않은 환경입니다. 동적(rt)는 전에 테스트 한게 있었는데 이게 머지를 해줘야 되서 동적으로 하는게 장점이 있는지 ???

그리고 실시간 조회용은 제가 예전에 사용했던 상용 검색엔진도 머지 합니다.


설치에 대한 것은 아래 추가한 사이트가 잘 되어 있습니다.

그리고 2025년 11월 30일 현재 LLM(GPT, 제미니) 물어보면 대답은 잘 하는데 예전 버전에 대한 것을 알려주기 때문에 기본적으로 메뉴얼은 숙지 하고 있어야 합니다.

특히 쿼리에 대해서 좀 상세하게 물어보면 제가 원하는  형태에선 계속 오류가 나서 메뉴얼 보고 간단하게 처리.

LLM은 계속 좋아지고 코딩도 예전에 비해 많이 좋아지고 있지만 아직 갈길이 사당히 많이 남아 있습니다.




  • 현재 페이지 주소 복사
  • 페이스북으로 공유
  • X 로  공유
  • 트위터로  공유
  • 네이버 블로그로 공유
  • 네이버 카페 공유하기
  • 네이버 라인 공유하기
  • 네이버 밴드 공유하기
  • 링크드인으로 공유하기
  • 핀터레스트에 공유하기
전체 183건 1 페이지
  • profile_image 개발자라면 한 번쯤 이런 생각을 해봤을 것이다. "MySQL 잘 쓰고 있는데 굳이 바꿔야 하나?" 충분히 이해 하는데 익숙한 도구를 버리는 것은 언제나 두렵기 마련이죠. 경험이 많은 분들은 알겠지만 무슨일이 벌어질지 모르니까 하지만 데이터베이스 세계의 흐름은 이미 방향을 틀었고 그 중심에는 PostgreSQL이 있습니다. 숫자가 말해주는 현실PostgreSQL은 DB-Engines 선정 "올해의 DBMS" 상을 2017년부터 2024년까지 총 다섯 차례나 수상했고 지난 7년 중 5년을 PostgreSQL이 가져간 셈이다. 나머지 2년은 Snowflake가 받았을 뿐 MySQL은 단 한 번도 이름을 올리지 못했다…
  • profile_image 왜? 소스 설치를 하는가 하면 패키지 관리자 설치는 버전이 낮아서 그렇지요.tmux는 터미널 멀티플렉서(Terminal Multiplexer)로 하나의 터미널 창 안에서 여러 세션을 동시에 관리할 수 있게 해주는 도구를 말함. ▷ 주요 기능- 화면 분할(수평/수직)- 세션 유지(SSH 연결이 끊어져도 작업이 유지됨)- 여러 윈도우와 패널 간 전환- 세션 공유(다른 사용자와 같은 세션 접속) ▷ 필요한 경우 예전 전송방식 설치curl -sL https://github.com/trzsz/trzsz-go/releases/download/v1.2.0/trzsz_1.2.0_linux_x86_64.tar.gz -…
  • profile_image 인터넷에는 공인IP만 다닐 수 있는데 사설IP나 예약된 다른 IP 대역이 들어올 수는 없습니다.공인IP가 아니기 때문에 중간에 라우팅이 안되기 때문에 그렇지요. 하지만 문제는 정상적인 사용자도 있을 수 있기 때문 프록시 서버를 통해서 들어오는 경우인데 이런 경우는 프록시서버의 IP를 막을 수는 없습니다.막는 통로는 방화벽, 웹서버, 프로그램 등을 통해서 막는 방법이 있겠지만 여기서 배포방식이 아닌 오래전에 대형 업체에서 많이 사용하는 방법으로 갱신시키는 형태로 적용을 시킨다면 모니터링과 대응이 빠른 프로그램을 이용하는것도 괜찮습니다.    function blockBogonIp(): void&…
  • profile_image 이 uptime 수치가 시스템의 CPU 코어 수(또는 쓰레드 수)보다 낮으면 시스템이 여유롭다는 의미며 높으면 CPU 자원 부족 등으로 인해 작업들이 대기하고 있어 시스템에 과부하가 걸렸을 가능성이 높습니다.▷ Load AverageCPU가 처리해야 할 작업의 대기열 길이입니다. - 1.0 = CPU 1개가 100% 사용 중 - 4.0 = CPU 4개가 필요한 작업량 (또는 1개 CPU가 4배 과부하) - 일반적으로 CPU 코어 수 이하면 정상 자동처리 할때 대략 이렇게 프로그램 작성 해서 처리 하면 되며 요즘 LLM에 물어 보면 더 잘 알려 주기도 합니다.중요한것은 주기적으로 시스템 부하를 체크 해서 내가 생…
  • profile_image 탐색기를 통한 복사 방법도 있지만 현황을 보는데 있어서는 cmd가 훤씬 좋습니다.그렇기 때문에 또는 가끔식 프로그램으로 복사 명령을 내려야 할때도 있지요 그럴때도 탐색기 사용하실 건가요?리눅스에서 비동기 방식으로 rsync가 많이 쓰이고 윈도우에서는 비슷한것이 robocopy 입니다. 복사하는 방식은 아래와 같으며 여기서 중요한 부부은 끝에 \를 붙여야 한다면 2개를 붙여야 한다는 것입니다.1개만 붙이면 의미가 없어지기 때문에 오류가 발생 합니다사용예)robocopy "C:\test\\" "D:\backup\doc\\" /E /Z /MT:16 /R:3 /W:5 /NProbocopy /? 명령을 입력하면 상당히 …
  • profile_image LLM은 학습 할 때 이후에 데이터에 대해서는 모르지요.외부 자원을 이용하는데 api를 이용 했는데 각 사이트마다 모두 다른 형태의 api 사용은 어려우니 통합된 방식이 필요 했는데 그것이 바로 MCP 입니다.LangChain도 외부 데이터를 가져오는 것이기 때문에 필요에 따라 적합한 것을 사용하면 되고 뭐든 직접 만드는 것이 빠릅니다.테스트로 디비 쿼리 같은 것 어떻게 하나 해봤는데..역시 잘 아는 것은 사람이 하는 것이 낮겠어요 그냥 하면 되는것이 아니라 몇가지 설치를 해줘야 합니다.pip install mcppip install asynciopip install fastmcp asyncmy aiomysql…

상업적 이용 금지. 컨텐츠는 개인 용도로만 사용이 가능 합니다.