Skip to content

LLM이 인프라 투자 PDF 분석·시각화를 도와주는, Hi-Lens 📜

Notifications You must be signed in to change notification settings

iamyuunzo/Hi-Lens

Repository files navigation

🧡 Hi-Lens


현대해상 AI

로컬 AI 메이커스랩 1팀, 현대해상 대체투자2팀의 PDF 요약·발췌·시각화 도우미 'Hi-Lens' 입니다.

(LLM 요금제로 인해 Streamlit 배포 사이트에서 429 에러가 뜰 수 있습니다.)


🟠 프로젝트 소개

  • 🕰️ 프로젝트 기간 : 25.09.01. ~ 25.09.26.

  • ☄️ Comento(코멘토) 주관 로컬 AI 메이커스랩

    • Topic - '현대해상 대체투자2팀 - 인프라 투자 스터디의 어려움을 겪는 현직자의 문제를 해결할 수 있는 보고서 툴'
  • 현업자가 인프라 대체 투자를 위해 자주 사용하는 KEEI(에너지경제연구원) 의 PDF 원문 분석을 기준으로 MVP 프로토타입을 구현했습니다.

  • 현업자분께서 '400억 정도의 연료 전지 관련 투자건에 있어 Hi-Lens의 서비스가 실제로 도움이 되었다.' 는 평을 하였고, 사용편의성(8/10), 처리속도(7/10), 정확성(10/10), 답변완전성(9/10) 이라는 높은 피드백 평가를 받았습니다.


💁🏻 Team

조윤주 남희수 류채민 소재만
경남대 전자SW공학과
기획 및 주요 개발 담당
부산대 경영학과
기획 및 PPT 담당 (PM)
울산대 경영경제융합학부
기획 및 발표 담당 (PM)
경상대 도시공학과
기획 및 서브 개발 담당



💫 프로토타입 소개

"PDF/문서 원문 기반 분석, LLM을 이용해서 질의응답/요약/표·그림 근거 추출 tool"

🧰 Tech Stack

구분 사용 기술
UI Google Apps Script (GAS) -> Streamlit
Front-end, Back-end HTML, CSS, JS -> Python
AI / LLM OpenAI GPT, Pontens. AI, Google Gemini (API 키 교체 가능)
PDF 처리 PyMuPDF (표/그림 bbox 탐지 및 크롭), pypdf (페이지 텍스트 추출)
검색 / RAG rank-bm25 (BM25 검색), sentence-transformers (+torch, 선택, 임베딩 검색)
데이터 / 이미지 pandas, numpy (표 가공/렌더링), Pillow (이미지 핸들링), pytesseract (OCR 폴백, 선택)
환경 관리 python-dotenv (.env 로컬 관리)

⚙️ Features

기능 설명
PDF 원문 요약 업로드한 PDF 전체를 AI가 분석하여 핵심 내용을 간략하게 요약 제공
추천 질문 생성 문서 내용을 기반으로 추가 질문(FAQ 스타일) 자동 제안
표 / 그림 목차 PDF 내 시각화 자료(표, 이미지, 그래프 등)를 탐지하여 목차화하고, 각 항목별 간단 요약 표시
표 추출 / 변환 단순 마크다운이 아닌 pandas DataFrame으로 변환하여 깔끔한 표 형태로 표시 (실험적 기능)
질의응답 (Q&A) PDF 원문 및 표/그림 내용을 근거로 AI가 답변 제공. 추측 없이 “없으면 없다”라고 답변하도록 설계 (할루시네이션 방지)
원문 근거 제시 모든 답변에 대해 해당되는 PDF 페이지/문맥을 함께 제시하여 신뢰성 확보
OCR 지원 (선택) 스캔된 PDF/이미지 내 표를 인식하여 텍스트로 변환 (Tesseract 필요)

📄 Pages

1. Landing Page
  • LLM 대화 기록, PDF Input, LLM 종류 확인 가능
image
2. Loading Page
  • Python으로 PDF 원문 분석 후 LLM에게 분석 내용을 넘김
  • 현업자의 니즈 중 하나인 할루시네이션 방지를 위해 LLM이 추론/창작을 하지 못하도록 규칙 설정
image
3. Analysis Page (대화 탭)
  • PDF 원문 관련 요약 및 추천 질문
image
  • PDF 원문 관련 질의응답 가능
image
4. Analysis Page (표 / 그림 목차 탭)
  • PDF 원문 안의 표, 이미지, 그래프 등의 시각화 자료들을 인식하여 각각 목차로 정리
image
  • 각 목차 안의 버튼 클릭 시 LLM이 관련 내용을 찾아서 요약하고 원문 출처까지 제공
image image

💫 향후 고도화 계획

  • 통합 DB 구축 : KEEI 한정이 아니라 여러 보고서를 넣어 비교 분석 할 수 있도록 구현
  • 맞춤형 표 생성 : 추출된 텍스트에서 필요한 정보만 선별하여 새로운 맞춤형 표 제공
  • 웹 개발 시작 : 현재 Python과 Streamlit의 한계로 다른 적절한 언어를 사용하여 리팩토링 계획

🧑‍🤝‍🧑 발표 자료

About

LLM이 인프라 투자 PDF 분석·시각화를 도와주는, Hi-Lens 📜

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 4

  •  
  •  
  •  
  •