회사에서 매달 반복하는 보고서 작업이 있습니다. 데이터를 정리하고, 주요 지표를 요약하고, 개선 포인트를 제안하는 20페이지짜리 문서. 예전에는 이걸 이틀에 걸쳐 작성했습니다. 지금은 스크립트를 실행하면 30분 만에 초안이 나옵니다.
파이프라인 구조
데이터 수집 → 전처리 → GPT 분석 요청 → 보고서 템플릿에 삽입 → 최종 검토. 각 단계가 자동으로 연결됩니다. 개입이 필요한 부분은 마지막 검토 단계뿐입니다.
핵심 코드 (Python)
기본 구조입니다. 실제 구현은 데이터 소스와 보고서 형식에 맞게 커스터마이징이 필요합니다.
먼저 데이터를 로드하고 GPT에 보낼 수 있는 형태로 전처리합니다. CSV나 엑셀 파일이라면 pandas로 읽고, 핵심 수치만 추출해서 컨텍스트를 최소화합니다. 전체 데이터를 다 보내는 것보다 집계된 수치를 보내는 것이 비용 효율적이고 품질도 높습니다.
다음으로 섹션별로 GPT에게 요청합니다. 요약, 분석, 제안 사항을 한꺼번에 요청하는 것보다 각각 따로 요청하면 품질이 더 좋습니다. 각 섹션의 결과물을 딕셔너리에 담아두고, 마지막에 템플릿에 순서대로 채워넣습니다.
보고서 출력은 python-docx나 fpdf2를 씁니다. HTML 템플릿을 쓰면 더 유연한 레이아웃이 가능합니다.
비용 최적화 포인트
이 파이프라인에서 가장 비용이 많이 드는 부분은 입력 토큰입니다. 데이터 전처리 단계에서 불필요한 컬럼을 제거하고, 중복 데이터를 집계하는 것이 가장 효과적입니다. 같은 구조의 보고서를 반복 생성한다면 응답 캐싱도 고려하세요.
주의할 점
GPT 출력은 항상 사람이 최종 검토해야 합니다. 특히 수치가 포함된 분석 결과는 원본 데이터와 대조 확인이 필수입니다. 자동화는 시간을 절약하지만 책임을 면제해주지는 않습니다.