[LLM] LLM 생성 과정

Notice

Recent Posts

Recent Comments

Link

« 2024/12 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Tags more

Archives

Today

Total

관리 메뉴

IT/영어 공부노트

[LLM] LLM 생성 과정 본문

💻 IT/AI

[LLM] LLM 생성 과정

소저어엉 2024. 6. 17. 22:12

<랭체인으로 LLM 기반의 AI 서비스 개발하기> 책을 읽고 정리한 내용으로,
개인 공부 목적의 포스팅입니다.

~책 보러가기~

1. LLM 개발 라이프 사이클

데이터 수집 및 준비 → 모델 설계 → 모델 학습 → 평가 및 검증 → 배포 및 유지 보수

① 데이터 수집 및 준비

모델이 학습할 수 있는 형태로 데이터를 수집하고 가공한다.

데이터 수집

데이터 식별
데이터 수집

데이터 정제

데이터의 품질을 결정하는 핵심적인 과정이다.

중복 제거
노이즈 제거 : 무작위적이고 관련 없는 정보(오타, 잘못된 문장 부호, 비정상적인 문자)

데이터 전처리

데이터를 LLM에 적합한 형태로 만드는 과정

토큰화 : 텍스트를 작은 단위로 나눔
정규화 : 대소문자 통일, 어간 추출등을 통해 단어의 기본 형태로 변환

데이터 형식 변경

데이터의 형식을 일치시킴 (ex, 날짜 형식 통일)

② 모델 설계

매우 큰 신경망 아키텍처를 구축하는 것 이다. 어떤 모델로 학습할지 결정하는데, 주로 트랜스포머 모델을 기반으로 한다.

계층 수, 학습률, 배치 크기 등의 모델 학습 과정을 조절할 하이퍼파라미터를 설정한다.

③ 모델 학습

설정된 하이퍼파라미터와 모델 아키텍처를 사용해 학습한다. 모델이 데이터로부터 패턴을 학습하고, 이를 내부적으로 모델링해 작업을 수행한다.

모델링은 주어진 데이터를 기반으로 일반화된 패턴이나 규칙을 만든다.

④ 평가 및 검증

모델이 얼마나 잘 작동하는지 평가하고, 성능(답변의 정확도, 답변 속도)을 확인하는 과정이다.

이 때 수집된 데이터를 훈련, 검증, 테스트 용도로 나눠야 한다.

정확도 : 모델이 얼마나 많은 예측을 정확히 했는지
정밀도 : 양성으로 예측된 사례 중 실제 양성의 비율
재현율 : 실제 양성 사례 중 모델이 양성으로 예측한 사례의 비율
F1 점수 : 정밀도와 재현율의 조화 평균
ROC 곡선 및 AUC : 모델의 성능을 다양한 임계값에서 평가

⑤ 배포 및 유지보수

서비스를 배포하여 사용자를 두고, 수정 및 유지보수를 수행한다.

'💻 IT/AI' Related Articles

IT/영어 공부노트

[LLM] LLM 생성 과정 본문

[LLM] LLM 생성 과정

1. LLM 개발 라이프 사이클

① 데이터 수집 및 준비

데이터 수집

데이터 정제

데이터 전처리

데이터 형식 변경

② 모델 설계

③ 모델 학습

④ 평가 및 검증

⑤ 배포 및 유지보수

티스토리툴바