- Today
- Total
목록분류 전체보기 (276)
hye-log

🫖 오늘의 회고 지금까지 전사 고치기 + 박스 고친 데이터들 합쳐서 돌려봤는데 생각보다 성능이(...) 떨어졌다.. 왜 그런거지... 중간 점검 차원에서 전사 고친 데이터 + 박스 일부 고친 데이터를 합쳐서 돌렸을 때는 성능이 괜찮았는데 왜 작업을 다 하고 나니까 성능이 떨어진건지 모르겠다..ㅠ-ㅠ 새로운 데이터셋 찾아서 json 파일 합치고 돌려보고, 제출하려고 하니까 자꾸 디스크 용량이 부족하다고 해서 이것저것 삭제 중...인데도 아직도 용량 부족 뜸..ㅠㅠㅠ 이미지를 많이 추가한 것도 아닌데 왜 자꾸 오류가 뜨는건지 모르겠넹...

🫖 오늘의 회고 캠퍼들이 작업한 데이터셋은 팀원들이랑 나누어서 쭈욱~ 검수하고(!!) 새로운 데이터셋이 뭐가 좋을지 찾아보는 시간을 가졌다.. ICDAR 2017 데이터의 경우에는 기존에 부캠에서 제공하는 데이터이고, 2019 데이터의 경우에는 기존에 부캠에서 제공한 데이터랑 약간 겹치는 부분이 있는 데이터이다. (2017이랑도 겹침! 이걸 어떻게 아냐면 2017 데이터 검수를 3번하면 알 수 있음!!ㅋ-ㅋ) AI Hub에서 한국어 간판 데이터셋을 활용해보고자 했으나, annotation을 보면 간판 위주로 라벨링하다보니 나머지 글씨들은 모조리 unknown 처리해버려서 엄청난 박스를 다시 그려야 하는 문제점이 있다..(그래서 성능도 잘 안 나오는듯?) 결국 ICDAR 데이터 위주로 사용해보는걸로..(!!)

🫖 오늘의 회고 이번 대회에서 제공되는 데이터셋이 기본 데이터셋 + 캠퍼들이 작업한 데이터셋 두 가지로 주어지는 데, 지난 주에는 기본 데이터셋 500여 장 정도를 보고 전사 잘못된 부분을 수정하는 작업을 했다..! 전사 고치는 일은 생각보다 별거 아니라서 금방(...) 했는데, 캠퍼들이 작업한 데이터셋은 annotation 다시 + 전사 수정하느라 시간이 꽤 오래 걸렸다! 그래도 주말 동안에 많이 해서 오늘 나머지 검수 작업 하고 실험 돌려보았다..+_+ 사실 성능이 드라마틱하게 오르는 것도 아니고, 지난 기수 대회를 찾아보면 private이랑 public이랑 점수 차이가 꽤(?) 나는거 같아서 현재 리더보드 상의 점수가 정말 좋은건지는 잘 모르겠다.. 아무튼 이제 검수 작업이 거의 다 끝나면 어떤 데..

🎂 오늘의 회고 강의 들어야 하는데~~ 망해써!!! 대회가 재밌다.. 사실 annotation 하는 게 재밌는거 아닐까..? 데이터셋에서 전사 잘못된 거나 오류가 있는 부분이 있길래 조금 수정하고 돌려보니까 성능이 약간 올랐다. 그래서 어? 이거 해야하는 건가 생각하고 수정 작업 시작.. 피어세션 때에는 수정하면서 애매한 부분은 캡쳐해두었다가 이야기하면서 어떻게 고쳐야 할지 방법을 찾아보았다. 생각보다 술술 풀리는구먼!! 확실히 이번 대회에서 느낀 건 같은 데이터셋이라도 품질이 정말정말 중요하다는 것을 다시 한 번 배우는 거 같다. 대회가 2주라는 짧은 시간동안 이루어지는 관계로 주말에도 데이터 수정 작업 해보는걸로..🤓

🎂 개별학습 [3] OCR Technology and Services 1. OCR Technology 1) OCR(Optical Character Recognition) - 글자 인식 - 예전에는 문서 위주의 task -> 지금은 눈에 보이는 어떤 글자든 가능 - 글자 영역 찾기(Text Detection) + 영역 내 글자 인식(Text Recognition) 2) Offline handwriting VS Online handwriting - Offline handwriting : (입력) 이미지 -> (출력) 글자값 - Online hadnwriting : (입력) 좌표 시퀀스 -> (출력) 글자값 3) Text Detector - 단일 객체 검출 : 입력 이미지가 미리 약속된 클래스 중 어디에 속하..