JSONL1 GDG : AI 개발코스 Week6 지난 포스팅에서 Team DIET는 보안이 중요한 공공/행정 도메인, 특히 '선생님'이라는 페르소나를 위해 온프레미스(On-Premise) 환경에서 구동 가능한 경량화 AI를 만들기로 했다.이번 주차의 핵심 과제는 모델이 학습할 데이터를 준비하는 것이다. 나는 이번 단계에서 원천 데이터 확보 및 협업 환경 구축을 담당했고, 이후 팀원들이 진행한 데이터 전처리(SFT Formatting) 과정을 코드를 통해 깊이 있게 분석해 보았다.1. 데이터 확보 및 협업 환경 구축 (My Role)우리가 목표로 하는 모델은 행정 및 법률에 특화된 모델이다. 이를 위해 양질의 한국어 법률 데이터가 필수적이었고, AI Hub의 행정법 데이터를 활용하기로 결정했다.데이터 출처: AI Hub 행정 문서 대상 기계독해 데이터문.. 2026. 1. 7. 이전 1 다음