목록💻 IT (60)
IT/영어 공부노트
빌트인 타입이란, 파이썬에서 기본으로 제공하는 자료구조를 뜻한다. 1. 리스트리스트는 여러 원소를 담은 데이터 타입이다.변수에 [] 또는 list를 대입해서 선언b = []c = list() - 리스트 맨 마지막에 원소를 추가할 때는 append 사용한다.a = [1, 2, 3, 4, 5]a.append('a') - 특정 위치에 원소를 추가할 때에는 insert 사용한다. a.insert(1, 'b') - 리스트의 값 중 일부만 출력할 때는 slice 사용한다. a = [1, 2, 3, 4, 5]a[0:2] 2. 튜플리스트와 마찬가지로 여러 값을 하나로 묶는 데이터 타입이다. 괄호 사이에 1개 이상의 원소를 지정하거나, 괄호 없이 입력한 후 마지막에 콤마를 입력해서 선언한다.a = (1, 2, 3..
1. 문자열 만드는 방법 큰 따옴표로 양쪽 둘러싸기"Hello World"작은 따옴표로 양쪽 둘러싸기'Hello World'큰 따옴표 3개를 연속으로 써서 양쪽 둘러싸기"""Hello World"""작은 따옴표 3개를 연속으로 써서 양쪽 둘러싸기'''Hello World''' 2. 여러 줄의 문자열을 변수에 대입하고 싶을 때 \n 사용multiline = "Life is too short \nYou need pyton"연속된 작은 따옴표 3개 또는 큰 따옴표 3개 사용하기multiline='''Life is too shortYou need python'''3. 문자열 관련 함수문자 개수 세기 - counta="hobby"a.count('b')문자열 중 문자 b의 개수 리턴위치 알려주기 1 - finda..
랭체인 실습하는데 자꾸 The kernel appears to have died. It will restart automatically 메시지가 뜨면서 커널 재시작 하고, 안넘어가는거다,, 같은 부분에서!! 짜증나서 찾아본 오류 해결방법 윈도우 기준입니다~~ https://min23th.tistory.com/11 [주피터노트북/jupyter notebook] 커널 죽는 문제 the kernel appears to have died. it will restart automatically모델을 jupyter lab에서 돌리는데 어느 순간부터 위 그림같이 커널이 죽는 문제가 발생했다 커널이 죽는 이유는 주어진 메모리 할당량을 초과했기 때문이다. 보통의 경우에는 방법 1(config파일 내min23th.tis..
책을 읽고 정리한 내용으로, 개인 공부 목적의 포스팅입니다. ~책 보러가기~RAG 구현 시 필요 요소는 데이터, 임베딩, 벡터 DB이다. 1. 임베딩이란?Embedding은 복잡한 데이터를 간단한 형태로 바꾸는 것으로, 컴퓨터가 이해할 수 있도록 정보를 숫자(벡터)로 바꾸는 것 이다. 예를들어'사과', '바나나', '컴퓨터' 를 [과일, 기술]로 바꾼다면, '사과' [1.0, 0.0]'바나나' [0.9, 0,1]'컴퓨터' [0.1, 0.9] 임베딩을 위해선 임베딩 모델이 필요하다. 2. 임베딩 모델 예시 Word2Vec단어를 컴퓨터가 이해할 수 있는 숫자인 벡터로 변환한다. 이를 통해 컴퓨터는 단어 사이의 관계를 이해하고, 비슷한 의미를 가진 단어들을 찾을 수 있다. GloVe(Global Vecto..
책을 읽고 정리한 내용으로, 개인 공부 목적의 포스팅입니다. ~책 보러가기~1. 파인튜닝(Fine-Tuning)기존의 LLM을 특정한 작업이나 상황에 맞게 조금 더 훈련시키는 과정이다. LLM을 특별한 상황에 더 잘 맞게 가르치는 것! 전문적으로 사용하고 싶은 분야를 추가적으로 학습시키는 것으로, 더 정확하고 효과적으로 대응할 수 있다. 한마디로 최적화 ! 단점학습을 위해 과도한 비용이 필요됨데이터 준비가 어려움 해서 LLM의 경우 RAG를 더 선호하는 편이다. 2. RAG(Retrieval-Augmented Generation)정보 검색과 생성을 결합한 인공지능 모델이다. RAG는 정보검색과 텍스트 생성 두 단계로 나뉜다. 정보검색단계질문 : 사용자로부터 질문이 입력된다쿼리 : 모델은 대규모의 ..
책을 읽고 정리한 내용으로, 개인 공부 목적의 포스팅입니다. ~책 보러가기~ 1. RAG란?RAG(Retrieval-Augmented Generation)는 LLM이 텍스트를 생성할 때 관련 정보를 찾아보고, 그 정보를 활용하여 새로운 텍스트를 만드는 기술로, LLM이 더 정확하고 신뢰할 수 있는 내용을 생성하도록 돕는다. 2. RAG 과정RAG는 정보검색과 텍스트 생성의 두 단계로 나뉜다. 정보검색 : AI가 대규모 정보로부터 관련 데이터를 찾음텍스트 생성 : 찾은 정보를 기반으로 새로운 텍스트 생성1) 질문입력 → 2) 검색 → 3) 유사도 검색 → 4) 랭킹 처리 → 5)결과 반환/텍스트 생성정보검색1) 질문입력 query : 사용자는 질문을 하거나 키워드를 입력한다. 2) 검색검색 엔진은 해..
책을 읽고 정리한 내용으로, 개인 공부 목적의 포스팅입니다. ~책 보러가기~LLM은 보안 및 규제 측면에서 제약이 많아 아래의 사항을 고려하여 사용해야 한다. 1. 정보 필터링LLM을 이용하는 사용자의 질문은 반드시 필터링을 해야 한다. 특히 개인정보가 입력되지 않도록 필터링 하는 것이 중요하다. ex) 개인정보가 감지되면 제거하거나 변경 2. 할루시네이션할루시네이션은 AI중 특히나 언어 모델이 부정확하거나 관련 없는 정보를 생성하는 현상을 가리킨다. 할루시네이션은 정보 검색 결과만 정확하다면 어느정도 해결할 수 있다. 또한 LLM 구현 과정 중 마지막에 할루시네이션 필터링을 추가함으로써 할루시네이션을 방지할 수 있다. 3. 편향과 공정성LLM은 학습된 데이터가 공정하지 못하다면, 모델 또한 공정하지..
책을 읽고 정리한 내용으로, 개인 공부 목적의 포스팅입니다. ~책 보러가기~1. LLM 개발 라이프 사이클데이터 수집 및 준비 → 모델 설계 → 모델 학습 → 평가 및 검증 → 배포 및 유지 보수 ① 데이터 수집 및 준비모델이 학습할 수 있는 형태로 데이터를 수집하고 가공한다. 데이터 수집데이터 식별데이터 수집데이터 정제데이터의 품질을 결정하는 핵심적인 과정이다. 중복 제거노이즈 제거 : 무작위적이고 관련 없는 정보(오타, 잘못된 문장 부호, 비정상적인 문자)데이터 전처리데이터를 LLM에 적합한 형태로 만드는 과정토큰화 : 텍스트를 작은 단위로 나눔정규화 : 대소문자 통일, 어간 추출등을 통해 단어의 기본 형태로 변환데이터 형식 변경데이터의 형식을 일치시킴 (ex, 날짜 형식 통일) ② 모델 설계매우..
책을 읽고 정리한 내용으로, 개인 공부 목적의 포스팅입니다. ~책 보러가기~ 1. 언어모델의 단계통계적 언어 모델 → 신경망 언어 모델 → 트랜스포머통계적 언어 모델초기의 언어 모델로 컴퓨터가 문장이나 단어를 얼마나 자연스럽게 표현할지를 수학적으로 계산하는 통계적 방법에 기반했다. 확률/통계적 방법의 대표로는 'n-gram'이 있다. n-gram : 일련의 단어나 문자가 얼마나 자주 함께 나타나는지를 살펴보는 방법으로, 몇 개의 단어로 나누는지에 따라 1-gram, 2-gram, 3-gram 으로 나눈다. BUT 데이터베이스를 사전에 만들어두어야 하는 번거로운 작업과, n이 커질수록 문맥을 제대로 이해하지 못하는 단점이있다. 1-gram(유니그램) : 전체 문장을 각각의 단어로 나눔 2-gram(바..
노션 뉴스/칼럼 스크랩 보러가기 요새 블로그에 뉴스스크랩 안 올리는 이유! 저작권 문제도 복잡하고 해서 그냥 개인 노션에 스크랩하는 중입니다,, 전체보기, 뉴스스크랩, 칼럼스크랩을 하고있고, 이도 탭을 통해서 볼 수 있게 만들었습니다. 발행일, 발췌일, 요약을 기록하고, 또한 태그를 달아서 태그 필터링으로 볼 수 있게도 했습니다. 예로 금융계 글들만, 보안사고만, 보안동향만, 산업별 전략 등등만 보고싶은 것만 필터링해서 볼 수 있다는게 아주아주 큰 장점같아요. 뉴스 정리는 이 틀을 기반으로 하려고 하고있어요. 1. 요약정리, 2. 본문정리 3. 내 생각요 3개로 정리합니다. 뉴스를 읽고 알게된 점, 떠오르는 아이디어나 그런 생각을 한 줄이라도 적는게 진짜진짜 큰 도움이 되는 것 같습니다. 요..