- Today
- Total
목록Boostcourse (94)
hye-log
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bo3Mtb/btrTCgQDw2X/tJe6ryOr44DSn2adVOUc3k/img.png)
🫖 오늘의 회고 캠퍼들이 작업한 데이터셋은 팀원들이랑 나누어서 쭈욱~ 검수하고(!!) 새로운 데이터셋이 뭐가 좋을지 찾아보는 시간을 가졌다.. ICDAR 2017 데이터의 경우에는 기존에 부캠에서 제공하는 데이터이고, 2019 데이터의 경우에는 기존에 부캠에서 제공한 데이터랑 약간 겹치는 부분이 있는 데이터이다. (2017이랑도 겹침! 이걸 어떻게 아냐면 2017 데이터 검수를 3번하면 알 수 있음!!ㅋ-ㅋ) AI Hub에서 한국어 간판 데이터셋을 활용해보고자 했으나, annotation을 보면 간판 위주로 라벨링하다보니 나머지 글씨들은 모조리 unknown 처리해버려서 엄청난 박스를 다시 그려야 하는 문제점이 있다..(그래서 성능도 잘 안 나오는듯?) 결국 ICDAR 데이터 위주로 사용해보는걸로..(!!)
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bscbmG/btrTuAmBu6l/FAglu7X4vXQzwCF9XfsDAK/img.png)
🫖 오늘의 회고 이번 대회에서 제공되는 데이터셋이 기본 데이터셋 + 캠퍼들이 작업한 데이터셋 두 가지로 주어지는 데, 지난 주에는 기본 데이터셋 500여 장 정도를 보고 전사 잘못된 부분을 수정하는 작업을 했다..! 전사 고치는 일은 생각보다 별거 아니라서 금방(...) 했는데, 캠퍼들이 작업한 데이터셋은 annotation 다시 + 전사 수정하느라 시간이 꽤 오래 걸렸다! 그래도 주말 동안에 많이 해서 오늘 나머지 검수 작업 하고 실험 돌려보았다..+_+ 사실 성능이 드라마틱하게 오르는 것도 아니고, 지난 기수 대회를 찾아보면 private이랑 public이랑 점수 차이가 꽤(?) 나는거 같아서 현재 리더보드 상의 점수가 정말 좋은건지는 잘 모르겠다.. 아무튼 이제 검수 작업이 거의 다 끝나면 어떤 데..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/ptoVg/btrTgRwdnBO/rv8OYvVpdokIE1kDqJ3ud1/img.png)
🎂 오늘의 회고 강의 들어야 하는데~~ 망해써!!! 대회가 재밌다.. 사실 annotation 하는 게 재밌는거 아닐까..? 데이터셋에서 전사 잘못된 거나 오류가 있는 부분이 있길래 조금 수정하고 돌려보니까 성능이 약간 올랐다. 그래서 어? 이거 해야하는 건가 생각하고 수정 작업 시작.. 피어세션 때에는 수정하면서 애매한 부분은 캡쳐해두었다가 이야기하면서 어떻게 고쳐야 할지 방법을 찾아보았다. 생각보다 술술 풀리는구먼!! 확실히 이번 대회에서 느낀 건 같은 데이터셋이라도 품질이 정말정말 중요하다는 것을 다시 한 번 배우는 거 같다. 대회가 2주라는 짧은 시간동안 이루어지는 관계로 주말에도 데이터 수정 작업 해보는걸로..🤓
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/oPf2O/btrTcEo5UB0/xWFI8UK1h7ouJ1RPRQMN2K/img.png)
🎂 개별학습 [3] OCR Technology and Services 1. OCR Technology 1) OCR(Optical Character Recognition) - 글자 인식 - 예전에는 문서 위주의 task -> 지금은 눈에 보이는 어떤 글자든 가능 - 글자 영역 찾기(Text Detection) + 영역 내 글자 인식(Text Recognition) 2) Offline handwriting VS Online handwriting - Offline handwriting : (입력) 이미지 -> (출력) 글자값 - Online hadnwriting : (입력) 좌표 시퀀스 -> (출력) 글자값 3) Text Detector - 단일 객체 검출 : 입력 이미지가 미리 약속된 클래스 중 어디에 속하..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/FEkcs/btrS4YI0n2h/hFYk77UPlJHf76ko2gV18k/img.png)
🎂 개별학습 [6] Annotation Guide 1. 가이드라인 1) 가이드라인 : 좋은 데이터를 확보하기 위한 과정을 정리해 놓은 문서 - 좋은 데이터 : 골고루 모여 있고, 일정하게 라벨링 된 데이터 - 일관성이 중요함! - 특이 케이스를 고려해야 함 - 동일 가이드라인에 대해 같은 해석이 가능하도록 명확하게 작성해야 함 2) 데이터셋 제작 파이프라인 - 서비스 요구사항 - 제작 목적 설정 : 목적, 모델의 in/out - 가이드라인 제작 : 어떤 이미지인지, 어떻게 라벨링할지 - raw image 수집 : 크롤링, 크라우드 소싱 등 - annotation(라벨링) - 모델링 - 성능 평가/분석 [8] Annotation 도구 소개 1. 데이터의 양과 질 1) Train-data - Data cle..