일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- KT
- ChatGPT
- hyperclovaX
- 인공지능
- OpenAI
- Meta
- LLaMA
- GPT-4
- deeplearning
- SearchGPT
- LLM
- GPT-3.5
- 생성형 AI
- Stable Diffusion
- GPT4
- 네이버
- ML
- naver
- 3기
- SKT
- nlp
- AI
- 생성형
- KoGPT
- AIVLE
- generative
- gpt
- 딥러닝
- TRANSFORMER
- Today
- Total
목록AIVLE (23)
Ttoro_Tech

https://ttoro.tistory.com/63 [AIVLE_3기]_10주차_Mini_Project(NLP) 4차 미니프로젝트 주제 다양한 1:1 문의글이 존재할 때, 문의글의 단어와 문맥 등을 파악하여 각 문의별 담당자에게 빠르게 피드백을 받을 수 있도록 문의글을 분류해보자 sub : Bareun, N-gram, Sequence ttoro.tistory.com NLP Model Bert 이전 미니 프로젝트를 진행하면서 KoBert 사용하였고 Base Model인 BERT 모델에 자세하게 정리하고자 한다. BERT(Bidirectional Encoder Representation from Transformer) [papar] BERT가 나오게 된 배경 자연어 문제를 풀기 위한 모델 전이 학습을 사용 ..

4차 미니프로젝트 주제 다양한 1:1 문의글이 존재할 때, 문의글의 단어와 문맥 등을 파악하여 각 문의별 담당자에게 빠르게 피드백을 받을 수 있도록 문의글을 분류해보자 sub : Bareun, N-gram, Sequence, KoBert, Text Classification 1. Dataset 다양한 문의 Label이 존재 코드에 관련된 문의가 가장 많은 것을 확인 할 수 있음 원격에 대한 문의가 가장 적은 것을 확인 할 수 있음 2. Data Processing NLP에서 자연어를 어떻게 전처리하는가는 매우 다양한 방법이 있으며, 방법에 따라 성능이 바뀜 이번 프로젝트에서는 다양한 처리 방법 중 데이터 증강 수집 Oversampling 형태소 분석기 영어 한국어 분리 한국어 띄어쓰기 검사 및 특수문자 ..

https://wikidocs.net/22893 15-01 어텐션 메커니즘 (Attention Mechanism) 앞서 배운 seq2seq 모델은 **인코더**에서 입력 시퀀스를 컨텍스트 벡터라는 하나의 고정된 크기의 벡터 표현으로 압축하고, **디코더**는 이 컨텍스트 벡터를 통해서 출력 … wikidocs.net Seq2Seq의 문제점 하나의 고정된 크기의 벡터에 모든 정보를 압축하려고 하니 정보 손실이 발생 RNN의 고질적인 문제인 기울기 소실(Vanishing Gradient) 문제가 발생 이러한 문제점을 해결하기 위해 등장한 Attention 개념 Attention Decoder에서 출력된 단어를 예측하는 매 시점(Time step)마다, Encoder의 전체 입력 문장을 다시 한번 참고 전체 ..

2차 미니프로젝트 2번째 주제 Kaggle Competitions : 악성 사이트 탐지 sub : CatBoost, K-Nearest Neighbor imputation(KNN Imputation) 최종 F1 Score 94.3% (상위 10위권) 1. 문제 정의 머신러닝 활용한 악성 사이트 탐지 유효한 독립변수를 선정할 것 최적의 결측치 대체 방안을 도출할 것 2. Data 분석 Train.csv 에 비해, test.csv에는 결측치가 많은 것을 확인할 수 있다. Train에서 높은 회귀 설명력을 보여주나, Test 에서는 결측치로 인해 제대로 작동하지 않음을 예상해볼 수 있다. Train 데이터에서 몇 특징 값이 한 곳으로 몰린 분포를 가진 것을 확인해볼 수 있었다. 3. 데이터 전처리 로그변환 결측..

2차 미니프로젝트 1번째 주제 날씨 데이터를 사용하여, 미세먼지 농도를 예측해보자 sub : RandomForest, XGBoost, DeepLearning 1. DataSets 강수량과 온도, SO2, O3외 QC FLAG(결측치, 정상 코드)를 가진 2021년 데이터를 Train 데이터로 사용하였고, 예측 값으로는 2022년 1시간 뒤 PM10(미세먼지)를 예측하는 문제이다. 1.1.데이터 분석 강수량과 미세먼지(PM10) : 비가 온 이후에는 미세먼지가 낮은 수치를 보여준다. 최저운고와 미세먼지(PM10) : 최저 운고와 미세먼지 간의 관계가 있을 것이다. 온도와 미세먼지(PM10) : 기온과 미세머지 수치가 영향이 있을 것이다. 2. 데이터 전처리 강수량 : 대부분의 데이터가 결측치를 가지나, 강..

3차 미니프로젝트 1번째 주제 차량 공유업체의 차량 파손 여부를 분류하자 sub : ResNet18, VGG-16, Image Classification Task 1. DataSets 주어진 데이터는 실제 차량 파손 이미지를 구하기 어려움으로, DALL-E 라는 이미지 생성 모델을 통해 학습 데이터를 생성한다. (정상 이미지 302개, 비정상 이미지 303개) train, validation, test 데이터 셋 추출 splitfolders 모듈을 사용 train:validation:test = 0.6:0.2:0.2의 비율로 나눔 각각 Car_Images_train, Car_Images_val, Car_Images_test라는 새로운 폴더에 저장하였음. 각 폴더 안에는 abnormal / normal 폴..

3차 미니프로젝트 2번째 주제 화폐를 인지 및 분류하는 딥러닝 모델을 만들어서, 시각장애인분들에게 화폐 구별에 도움이 되는 서비스를 제공하자. sub : YOLO_V5, Object Detection Task 1. DataSets 전체 DataSets은 Image와 JSON 파일이 함께 있는 데이터 각 Label 별로 이미지와 JSON 파일이 함께 존재한다. 학습을 위해 Train과 Validation 셋으로 나눔(train: 0.8, val: 0.2) 2. 데이터 분류 모듈 : Split-folders [pip] 입력 폴더 path와 저장할 path를 넣으면 ratio 비율로 train, val, test 폴더를 자동 생성해주는 모듈 param 중 group_prefix = 2를 할 경우, 이름이 같은..
다양한 머신러닝 모델 1. Linear Regression 회귀? 회귀(영어: regress 리그레스[*])의 원래 의미는 옛날 상태로 돌아가는 것을 의미한다. 영국의 유전학자 프랜시스 골턴은 부모의 키와 아이들의 키 사이의 연관 관계를 연구하면서 부모와 자녀의 키사이에는 선형적인 관계가 있고 키가 커지거나 작아지는 것보다는 전체 키 평균으로 돌아가려는 경향이 있다는 가설을 세웠으며 이를 분석하는 방법을 "회귀분석"이라고 하였다. 이러한 경험적 연구 이후, 칼 피어슨은 아버지와 아들의 키를 조사한 결과를 바탕으로 함수 관계를 도출하여 회귀분석 이론을 수학적으로 정립하였다. - 위키백과 단순 회귀 독립변수 개수로 회귀분석을 단순 회귀와 다중 회귀로 분류 단순 회귀 독립 변수 하나와 종속변수 하나가 1 : ..
얼마나 맞추었는가? 예측값 0 1 실제값 0 20(True Negative) 30(False Positive) 1 30(False Negative) 40(True Positive) 정확도 Accuracy 정분류율 전체 중에서 Positive 와 Negative로 정확히 예측한 (TN + TP) 비율 Negative를 Negative로 예측한 경우도 옳은 예측임을 고려하는 평가 지표 $$ 정확도 = \frac {20 + 40} {20 + 30 + 30 + 40}$$ $$ Accuracy = \frac {TN + TP} {TN + FP + FN + TP}$$ 정밀도 Precision Positive로 예측한 것(FP + TP) 중에서 실제 Positive(TP)인 비율 ex) 코로나로 예측한 환자 중에서 실..
Regression Metrics, 회귀 평가 방법 회귀 모델이 정확한 값을 예측하기는 사실상 어려움 예측 값과 실제 값에 차이$($$=$오차$)$가 존재할 것이라 예상 예측 값이 실제 값에 가까울 수록 좋은 모델 예측한 값과 실제 값 차이$($$=$ 오차$)$로 모델 성능 평가 기호 실제값$(y)$ 우리가 실제 예측하고 싶은 값, Target 이 값과 비교해 머신러닝 알고리즘 성능 평가 우리가 관심을 갖는 오차는 이 값과 예측 값의 차이 예측값$(\hat{y})$ 머신러닝 알고리즘으로 우리가 새롭게 예측한 값 이 예측 값이 얼마나 정확한지 알고 싶은 상황 최소한 평균값 보다는 좋아야 함 평균값보다 얼마나 잘 예측했는지 궁금 평균값$(\bar{y})$ 이미 알고 있는, 기존에 예측한 값 최소한 이 평균값..