주니어 데이터 엔지니어 우솨's 개발일지

데이터 엔지니어링 4일차 TIL 본문

데브코스

데이터 엔지니어링 4일차 TIL

우솨 2024. 3. 28. 17:21

학습내용

Hash
사전, key-value

탐욕법 (Greedy Algorithm)
현재의 선택이 마지막해답의 최적성을 해치지 않을 때
각 단계에서 그 순간이 최적이라 판단되는 것을 선택한다.

 

해쉬와 탐욕 알고리즘의 실습문제 풀이

 

1.

2.

 

3.

 

4.

 

특강 GPT

LLM(Large Language Model)

모델 훈련 : 웹상에서 존재하는 문서들이 모델의 훈련 데이터가 된다.
-품질이 중요하기에 위키피디아가 가장 많이 사용됨
-이를 코드에 적용 가능하며 이 경우 github 훈련용 데이터가 된다.
-비지도학습(Unsupervised Learning)
단점
-들어가는 비용이 상상을 초월한다.
-탄소 발생으로 지구 온난화 가속화
-데이터 주권문제

Word to Vector
-단어를 그대로 사용할 수 없고 이를 숫자도 변환 후(One-Hot encoding) 다시 N차원 공간의 벡터로 변환한다. - 워드임베딩(Word Embedding)
-데이터의 크기를 줄이고 단어간의 유사도를 측정 가능하다.
ex) king : queen = man : woman

Chat GPT(Generative Pre-trained Transformer)
-GPT를 챗봇의 형태로 파인튜닝한 것
-RLHF 훈련 (인간피드백 강화학습)

ChatGPT 4.0
Code Interpreter추가
- 코드를 작성하고 jupyter noterbook에서 실행가능
- 이미지 업로드 지원

GPTs - 개인이 커스텀화한 챗봇

파인튜닝(Fine Tuning)
기존 모델 위에 새로운 레이어를 얹어 다른 용도의 데이터로 훈련하는 것
ex)GPT를 파인튜닝한 Chat GPT

 

느낀 점

코딩테스트 준비를 하면서 프로그래머스에서 풀었던 문제들을 다시 한번 복습할 수 있었다.

그 때 내가 풀었던 풀이법과 지금 알려주시는 풀이법을 비교해보며 시간복잡도를 낮추면서 코드도 더 간결히 만들 방법에 대해 더 고민해 볼 수 있었던 시간이었다.

특강으로 요즘 핫한 ChatGPT에 대해서도 알게 되었고, ChatGPT가 본체가 아닌 GPT라는 LLM의 파인튜닝버전이라는 사실을 처음 알게되었다. 또한 GPT를 이용한 GPTs등 몰랐었던 여러 유용한 GPT의 기능들을 살펴 볼 수 있었다.