행정안전부 대용량 분산검색
목표
급격한 정보목록의 양적증가에 따라 성능이 저하된 정보공개시스템의 검색엔진 처리성능 및 기능 개선 필요
[IN2] DOR 4.0 (Discovery 2.0) 에 분산 색인/검색 처리 기능으로 대용량 처리를 할 수 있는 분산 색인/검색을 구축하고, 향후 2년 이상 데이터 수용이 가능한 목표시스템을 구축
- 데이터베이스 현황 분석을 통한 개선 방안 수립 및 적용
- 최적화된 DB구조와 연계된 안정적 검색환경 기반 마련
- 지속적으로 증가되는 정보목록 데이터 손쉽게 대응할 수 있는 분산환경 구축
- 검색을 위한 기능(자연어 검색, 검색결과 분류) 개선방안 제시
목표시스템 개념도
도입배경 및 필요성
배경 지식
- 정보공개 제도란 국가기관, 지방자치단체 등 공공기관에서 어떤 일을 하고 있고 예산을 어떻게 집행하고 있는지 국민들이 알 수 있도록 공공기관이 보유, 관리하는 정보를 국민에게 공개하는 것을 말하며, 국민의 알권리를 보장함으로써 더 많은 정보를 바탕으로 국정운영에 참여할 수 있도록 하기 위한 제도이다.
- 정보공개 제도를 통한 국민의 알권리를 보장하기 위한 방법으로 행안부에서 2006년에 K2검색엔진을 통한 대국민 서비스를 시행하였다.
- 정보공개 시스템 구축 사업은 2005~2008년도에 걸쳐 3차 사업까지 진행되었다.
목표시스템 개념도
사업명 | 내용 | 기간 |
---|---|---|
정보공개시스템 구축 1차 |
|
2005.10 ~ 2006.04 |
정보공개시스템 구축 2차 |
|
2006.10~2007.03 |
정보공개시스템 구축 3차 |
|
기대 효과 및 필요성
- 기대효과
정보목록의 제공 확대와 서비스 사용에 대한 품질 향상으로 정보공개제도 시행 목적인 국민의 알 권리 보장에 대한 만족도 향상을 기대할 수 있다. 또한 운영·관리의 체계를 확립·제공하여 행정안전부 및 관련 기관의 업무담당자에게 업무의 편의성 및 효율성 향상을 제공함은 물론 향후 시스템의 향후 발전 방향 제시를 위한 지표를 제공한다. - 필요성
일일 평균 약 58만 건 / 년간 1억 건 이상의 데이터 증가로 인한 하드웨어 및 소프트웨어 적인 해결 방안이 필요하다. 증가되는 정보목록의 안정적 운영을 위한 체계적 관리, 대용량 검색 서비스 안정화를 위한 아키텍처 구조 변경, 통합 정보목록 검색 성능 개선을 위한 구조적인 조정 작업 필요
분산검색환경 구성도
결론
행정안전부 정보공개시스템 고도화 사업 프로젝트는 분산 검색에 대한 첫 프로젝트로서 분산검색 처리에 대한 프로토타입 프로젝트로서 의미가 있으며, 아래와 같은 커스터마이징 기능들이 [IN2] Discovery 2.0에 기본 기능으로 포함될 수 있는 계기가 되었다
- 5억건에 대한 전문(全文)검색
- 일일 50만건 이상의 증분색인 처리
- RMI를 통한 검색서버 3대로 병렬 검색
- 검색결과 캐쉬 기능
- 정렬 메모리 사용 조정
- 검색 Warming up
- 선택적 인덱스 서비스 기능
- 검색 결과 Group by
- 다중파일 색인