1) 사용 데이터
본 연구에서는 NEU Surface Defect Database (NEU-DET)을 사용하였다. 해당 데이터셋은 총 6개의 결함 클래스로 구성되어 있으며, 클래스당 300장의 이미지를 포함해 전체 1,800장의 균형 잡힌 다중 클래스 데이터셋이다. 모든 이미지는 크기 200x200 픽셀의 그레이스케일 강재 표면 결함 이미지로, 분류 모델의 학습 및 평가에 적합한 특성을 가진다.
2) 모델 선택
OpenAI CLIP 계열의 최신 VLM인 SigLIP을 사용하였다. SigLIP은 구글이 수십억 개의 웹 이미지-텍스트 쌍으로 학습시킨 사전학습 모델로 이미지와 텍스트를 같은 임베딩 공간에 매핑해 유사도를 계산할 수 있다.
3) 프롬프트 엔지니어링(Prompt Engineering): 총 5종 프롬프트 파일 생성
결함 클래스(Patches, Crazing, Pitted_Surface, Rolled-In Scale, Scratches, Inclusion)에 대한 단순 키워드뿐 아니라 문맥이 있는 문장을 포함한 다양한 프롬프트를 설계하였다.
→ 사전적 표현, LLM 생성, 전문가 기술문, 국제 표준서(ISO 7788), 혼합 프롬프트
4) 빔서치(Beam Search): 로그 확률로 상위 k개 후보를 유지, 확장하는 탐색 기법
수백 개의 프롬프트 후보를 대상으로 빔서치를 적용하여 상위 성능을 보이는 프롬프트 조합만 남기고 탐색을 이어갔다. 이를 통해 계산량을 줄이면서 최적의 조합을 효율적으로 찾았다.
→ 각 프롬프트 조합에 대해 top-k 추출
5) 앙상블(Hard Voting): 클래스별 best prompt 1개씩 Hard Voting으로 선택
여러 프롬프트의 예측 결과를 단순 평균하는 Soft Voting 대신, Hard Voting 방식으로 다수결 투표를 적용하여 프롬프트 표현 차이에 따른 score 편차 문제를 보완하고 최종 결과의 안정성을 높였다.
→ 선택된 prompt 조합으로 최종 철강 제품의 결함 classification 수행
연구 결과
NEU-DET 데이터셋에서 테스트셋 평균 정확도 89.17%, 평균 신뢰도 79.12%를 달성하였다. 특히 paches, scratches, crazing 클래스에서는 95% 이상의 정확도를 보였으며, 별도의 재학습이나 fine-tuning 없이 사전학습 모델과 프롬프트 설계만으로 높은 성능을 달성했다는 점에서 의미가 크다.
그림 4. 모델 평가 지표
결론 및 의의
본 연구는 라벨링 데이터 없이도 철강 표면 결함을 분류할 수 있는 Zero-Shot 분류 파이프라인의 가능성을 입증하였다. 프롬프트 엔지니어링, 빔서치 탐색, 하드보팅 앙상블을 통해 단일 프롬프트에 의존하는 문제를 해결하고 안정성을 높였다. 이를 통해 제조 현장에서 모델 재학습 없이도 프롬프트 수정만으로 신속하게 적용할 수 있는 현장 친화적 AI 솔루션의 가능성을 제시하였다.
향후 계획
향후 연구에서는 연산량 감소를 위한 프롬프트 조합 최적화 및 탐색 구조 효율적으로 개선하고 Grad-CAM 기반 히트맵 시각화 등 설명 가능성(XAI)을 추가해 엔지니어가 결함 유형뿐만 아니라 결함 위치도 직관적으로 확인할 수 있도록 확장할 예정이다.