■ 프로젝트 개요
한글문서 파일인 HWP 문서 포맷을 XML 구조로 변환하여,
문서 내용을 시스템에서 처리 가능한 데이터 형태로 구조화한 프로젝트이다.
■ 문제
- 포맷 특성상 대량 문서 자동 처리 어려움
- 텍스트 검색 및 데이터 단위 활용 비효율
- DB, 웹 서비스 직접 연계 곤란
단순 열람용 문서가 아닌, 프로그램이 해석 가능한 구조화 데이터로의 전환이 필요했다.
■ 역할
- HWP 문서 내부 구조 분석
- XML 변환 구조 설계
- 문단, 표, 스타일 등 주요 요소를 계층 구조로 정리
■ 해결 방식
- HWP 문서를 XML 기반 구조로 변환
- 문서 내용을 태그 단위로 분리하여 계층화
- 원본 문서의 구조적 의미(문단·표·스타일)를 유지하도록 설계
단순 포맷 변환이 아닌, 후속 파싱·자동화 처리를 고려한 데이터 구조 설계에 중점을 두었다.
■ 사용 기술
- 문서 포맷 : HWP, XML
- 처리 방식 : 문서 구조 분석 및 변환 스크립트 구현
- 데이터 처리 : XML 파싱, 구조 기반 데이터 추출
- 활용 가능 영역 : 검색 시스템, 문서 자동화
■ 결과 / 배운 점
- 폐쇄형 포맷을 개방형 데이터 구조로 전환하는 설계 관점
- 문서를 “읽는 대상”이 아닌 “처리 대상”으로 재해석하는 사고 방식
- 이후 DB 저장, 검색까지 이어질 수 있는 전처리 단계 설계 경험
■ 작업 순서
- HWP 문서에서 텍스트 영역을
텍스트.xml형태로 추출 - UltraEdit 기반 XML 편집을 통해 문서 구조에 맞게 태그 구성 및 코드 정비
