■ 프로젝트 개요

한글문서 파일인 HWP 문서 포맷을 XML 구조로 변환하여,
문서 내용을 시스템에서 처리 가능한 데이터 형태로 구조화한 프로젝트이다.

■ 문제

  • 포맷 특성상 대량 문서 자동 처리 어려움
  • 텍스트 검색 및 데이터 단위 활용 비효율
  • DB, 웹 서비스 직접 연계 곤란

단순 열람용 문서가 아닌, 프로그램이 해석 가능한 구조화 데이터로의 전환이 필요했다.

■ 역할

  • HWP 문서 내부 구조 분석
  • XML 변환 구조 설계
  • 문단, 표, 스타일 등 주요 요소를 계층 구조로 정리

■ 해결 방식

  • HWP 문서를 XML 기반 구조로 변환
  • 문서 내용을 태그 단위로 분리하여 계층화
  • 원본 문서의 구조적 의미(문단·표·스타일)를 유지하도록 설계

단순 포맷 변환이 아닌, 후속 파싱·자동화 처리를 고려한 데이터 구조 설계에 중점을 두었다.

■ 사용 기술

  • 문서 포맷 : HWP, XML
  • 처리 방식 : 문서 구조 분석 및 변환 스크립트 구현
  • 데이터 처리 : XML 파싱, 구조 기반 데이터 추출
  • 활용 가능 영역 : 검색 시스템, 문서 자동화

■ 결과 / 배운 점

  • 폐쇄형 포맷을 개방형 데이터 구조로 전환하는 설계 관점
  • 문서를 “읽는 대상”이 아닌 “처리 대상”으로 재해석하는 사고 방식
  • 이후 DB 저장, 검색까지 이어질 수 있는 전처리 단계 설계 경험

■ 작업 순서

  1. HWP 문서에서 텍스트 영역을 텍스트.xml 형태로 추출
  2. UltraEdit 기반 XML 편집을 통해 문서 구조에 맞게 태그 구성 및 코드 정비

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다