목록💻 IT/AI (6)
IT/영어 공부노트
책을 읽고 정리한 내용으로, 개인 공부 목적의 포스팅입니다. ~책 보러가기~RAG 구현 시 필요 요소는 데이터, 임베딩, 벡터 DB이다. 1. 임베딩이란?Embedding은 복잡한 데이터를 간단한 형태로 바꾸는 것으로, 컴퓨터가 이해할 수 있도록 정보를 숫자(벡터)로 바꾸는 것 이다. 예를들어'사과', '바나나', '컴퓨터' 를 [과일, 기술]로 바꾼다면, '사과' [1.0, 0.0]'바나나' [0.9, 0,1]'컴퓨터' [0.1, 0.9] 임베딩을 위해선 임베딩 모델이 필요하다. 2. 임베딩 모델 예시 Word2Vec단어를 컴퓨터가 이해할 수 있는 숫자인 벡터로 변환한다. 이를 통해 컴퓨터는 단어 사이의 관계를 이해하고, 비슷한 의미를 가진 단어들을 찾을 수 있다. GloVe(Global Vecto..
책을 읽고 정리한 내용으로, 개인 공부 목적의 포스팅입니다. ~책 보러가기~1. 파인튜닝(Fine-Tuning)기존의 LLM을 특정한 작업이나 상황에 맞게 조금 더 훈련시키는 과정이다. LLM을 특별한 상황에 더 잘 맞게 가르치는 것! 전문적으로 사용하고 싶은 분야를 추가적으로 학습시키는 것으로, 더 정확하고 효과적으로 대응할 수 있다. 한마디로 최적화 ! 단점학습을 위해 과도한 비용이 필요됨데이터 준비가 어려움 해서 LLM의 경우 RAG를 더 선호하는 편이다. 2. RAG(Retrieval-Augmented Generation)정보 검색과 생성을 결합한 인공지능 모델이다. RAG는 정보검색과 텍스트 생성 두 단계로 나뉜다. 정보검색단계질문 : 사용자로부터 질문이 입력된다쿼리 : 모델은 대규모의 ..
책을 읽고 정리한 내용으로, 개인 공부 목적의 포스팅입니다. ~책 보러가기~ 1. RAG란?RAG(Retrieval-Augmented Generation)는 LLM이 텍스트를 생성할 때 관련 정보를 찾아보고, 그 정보를 활용하여 새로운 텍스트를 만드는 기술로, LLM이 더 정확하고 신뢰할 수 있는 내용을 생성하도록 돕는다. 2. RAG 과정RAG는 정보검색과 텍스트 생성의 두 단계로 나뉜다. 정보검색 : AI가 대규모 정보로부터 관련 데이터를 찾음텍스트 생성 : 찾은 정보를 기반으로 새로운 텍스트 생성1) 질문입력 → 2) 검색 → 3) 유사도 검색 → 4) 랭킹 처리 → 5)결과 반환/텍스트 생성정보검색1) 질문입력 query : 사용자는 질문을 하거나 키워드를 입력한다. 2) 검색검색 엔진은 해..
책을 읽고 정리한 내용으로, 개인 공부 목적의 포스팅입니다. ~책 보러가기~LLM은 보안 및 규제 측면에서 제약이 많아 아래의 사항을 고려하여 사용해야 한다. 1. 정보 필터링LLM을 이용하는 사용자의 질문은 반드시 필터링을 해야 한다. 특히 개인정보가 입력되지 않도록 필터링 하는 것이 중요하다. ex) 개인정보가 감지되면 제거하거나 변경 2. 할루시네이션할루시네이션은 AI중 특히나 언어 모델이 부정확하거나 관련 없는 정보를 생성하는 현상을 가리킨다. 할루시네이션은 정보 검색 결과만 정확하다면 어느정도 해결할 수 있다. 또한 LLM 구현 과정 중 마지막에 할루시네이션 필터링을 추가함으로써 할루시네이션을 방지할 수 있다. 3. 편향과 공정성LLM은 학습된 데이터가 공정하지 못하다면, 모델 또한 공정하지..
책을 읽고 정리한 내용으로, 개인 공부 목적의 포스팅입니다. ~책 보러가기~1. LLM 개발 라이프 사이클데이터 수집 및 준비 → 모델 설계 → 모델 학습 → 평가 및 검증 → 배포 및 유지 보수 ① 데이터 수집 및 준비모델이 학습할 수 있는 형태로 데이터를 수집하고 가공한다. 데이터 수집데이터 식별데이터 수집데이터 정제데이터의 품질을 결정하는 핵심적인 과정이다. 중복 제거노이즈 제거 : 무작위적이고 관련 없는 정보(오타, 잘못된 문장 부호, 비정상적인 문자)데이터 전처리데이터를 LLM에 적합한 형태로 만드는 과정토큰화 : 텍스트를 작은 단위로 나눔정규화 : 대소문자 통일, 어간 추출등을 통해 단어의 기본 형태로 변환데이터 형식 변경데이터의 형식을 일치시킴 (ex, 날짜 형식 통일) ② 모델 설계매우..
책을 읽고 정리한 내용으로, 개인 공부 목적의 포스팅입니다. ~책 보러가기~ 1. 언어모델의 단계통계적 언어 모델 → 신경망 언어 모델 → 트랜스포머통계적 언어 모델초기의 언어 모델로 컴퓨터가 문장이나 단어를 얼마나 자연스럽게 표현할지를 수학적으로 계산하는 통계적 방법에 기반했다. 확률/통계적 방법의 대표로는 'n-gram'이 있다. n-gram : 일련의 단어나 문자가 얼마나 자주 함께 나타나는지를 살펴보는 방법으로, 몇 개의 단어로 나누는지에 따라 1-gram, 2-gram, 3-gram 으로 나눈다. BUT 데이터베이스를 사전에 만들어두어야 하는 번거로운 작업과, n이 커질수록 문맥을 제대로 이해하지 못하는 단점이있다. 1-gram(유니그램) : 전체 문장을 각각의 단어로 나눔 2-gram(바..