1. RoBERTa 모델 학습

가장 먼저 서빙할 모델을 준비해놓기 위해 작년 1년 동안 RoBERTa 모델 학습+실험을 해오면서 가장 성능이 괜찮게 나왔던 '순서 랜덤 셔플+한꺼번에 학습(continuous learning X)'대로 순백의 roberta-base base 모델에 파인튜닝을 다시 했다.

학습 데이터는 제일 신문사/뉴스 주제(스포츠, 정치, 시사 등등)/문장 스타일이 다양한 문장들이 셔플되어 있는 학습 데이터로 선택했다. 약 15만 개, true-false 문장이 8만 쌍 가까이 있는 데이터다. ('final'이란 단어까지 들어가 진짜 최종 데이터라는 데이터팀의 의지가 여실히 드러나는 이름ㅋㅋ)

epoch은 그대로 3으로 학습. CPU로 돌려서 그런지 총 4시간 정도 걸렸다.

학습 완료 후의 test set performance. Accuracy는 약 0.84 정도다.

먼저 열심히 학습시킨 모델 서빙을 위해 모델 가중치와 토크나이저 관련 파일을 Colab에서 다운로드 했다. 학습에만 필요했던 옵티마이저, 스케줄러 파일은 제외했다. 서빙에 필요한 파일/필요없는 파일은 아래와 같다.

model.safetensors	학습된 가중치 (핵심!)	✅
config.json	모델 구조 정의	✅
tokenizer.json	토크나이저 설정	✅
tokenizer_config.json	토크나이저 설정	✅
special_tokens_map.json	특수 토큰 정의	✅
vocab.json	단어 사전	✅
merges.txt	BPE 병합 규칙	✅
optimizer.pt	옵티마이저 상태 (학습용)	❌
scheduler.pt	스케줄러 상태 (학습용)	❌
training_args.bin	학습 설정값	❌

그 뒤로는 학습 시 설정한 레이블이 뭔지 다시 한 번 확인했다. Binary classification 모델이므로 0과 1로 레이블된 바가 바뀌면 AI-generated <-> Human-generated가 거꾸로 나오는 참사가 일어난다... 이 프로젝트에서는 0=사람 작성, 1=AI 생성으로 설정했다.

이제 위의 표시되어 있는 파일들을 backend\model_files 경로에 넣어주면 모델 파트는 끝!

저작자표시 (새창열림)

'My > 로식이 집 만들기 프로젝트' 카테고리의 다른 글

0. 개요 (0)	2026.03.22

리자몽이 되고싶은 고라파덕

1. RoBERTa 모델 학습

'My > 로식이 집 만들기 프로젝트' 카테고리의 다른 글

티스토리툴바

1. RoBERTa 모델 학습

'My > 로식이 집 만들기 프로젝트' 카테고리의 다른 글

관련글

티스토리툴바