[부스트캠프 AI Tech]WEEK 07

Notice

Recent Posts

Tags more

Link

Github

Today

Total

관리 메뉴

hye-log

[부스트캠프 AI Tech]WEEK 07_DAY 30 본문

Boostcourse/AI Tech 4기

[부스트캠프 AI Tech]WEEK 07_DAY 30

iihye_ 2022. 11. 1. 18:57

🥪 개별학습

[9] Ensemble

1. Ensemble

1) 더 나은 성능을 위해 서로 다른 여러 학습 모델을 사용하는 것

2) Ensemble of Deep NN

- Low Bias, High Variance -> Overfitting

3) Model Averaging(Voting)

- 서로 다른 모델에게 각각의 특성이 있을 때 ensemble 효과가 있음

- hard voting : 높은 모델의 결과만 고려하는 것(다수결)

- soft voting : 모든 모델의 결과를 고려하는 것(평균)

4) Cross Validation

- valid set을 학습에 활용할 수는 없을까?

5) Stratified K-Fold Cross Validation

- 가능한 경우를 모두 고려

- 분리할 때 Class 분포까지 고려함

- 만약 K=5 라면 5개의 모델이 만들어지고 각 모델은 80%의 train, 20%의 valid 분포를 가지게 됨

6) TTA(Test Time Augmentation)

- 테스트할 때 augmentation 하는 것

- 출력된 여러 가지 결과를 앙상블

- 모델의 일반화를 위해서 사용함

7) 앙상블 효과가 확실히 있지만 그만큼 학습, 추론 시간이 소요됨

2. Hyperparameter Optimization

1) Hyperparameter

- 시스템의 매커니즘에 영향을 주는 주요한 파라미터

- learning rate, batch size, loss, optimizer, dropout, regularization, k-fold, hidden layer, ...

2) Optumna

- 파라미터 범위를 주고 그 범위 안에서 trials 만큼 시행

🥪 오늘의 회고

데일리 스크럼 때는 validation 결과랑 test 결과랑 차이가 많이 나서 왜 그럴지 고민해봤다. validation은 99% 가까이 나오는 반면에 test는 70% 언저리에 있어서 데이터 분포 때문에 차이가 난다고 생각했다. 그런데 밤에 돌려본 모델도 validation은 잘 나오는데 test가 잘 나오지 않아서 overfitting이 아닌가 의심했었다.. 피어세션 때 내린 결론은 train과 valid를 나눌 때 랜덤하게 나누다보니 feature가 아니라 사람을 학습해서 우리가 만든 모델이 overfitting 된 것 같다는 의견이 모였다. 그래서 overfitting을 해결하기 위해서 다양한 방법을 제안했고, 그 중에서 나는 게시판에 올라온 multi-label classification을 적용시켜보기로 했다. 방법은 다 주어져 있어서 하나씩 따라했는데 약간 코드에 오류가 있어서 계속 디버깅 중이다ㅠ-ㅠ

728x90

저작자표시 비영리 변경금지

'Boostcourse > AI Tech 4기' 카테고리의 다른 글

[부스트캠프 AI Tech]WEEK 07_DAY 32 (0)	2022.11.04
[부스트캠프 AI Tech]WEEK 07_DAY 31 (0)	2022.11.02
[부스트캠프 AI Tech]WEEK 07_DAY 29 (0)	2022.11.01
[부스트캠프 AI Tech]WEEK 06_DAY 28 (0)	2022.10.28
[부스트캠프 AI Tech]WEEK 06_DAY 27 (0)	2022.10.27

'Boostcourse/AI Tech 4기' Related Articles

Comments

hye-log

[부스트캠프 AI Tech]WEEK 07_DAY 30 본문

[부스트캠프 AI Tech]WEEK 07_DAY 30

'Boostcourse > AI Tech 4기' 카테고리의 다른 글

티스토리툴바