본 포스트는 DocTr의 GeoTr 과정을 상세히 저술합니다.
* 본 포스트에 사용되는 모든 자료는 직접 코드를 살펴보고 시각화하여 만든 것이니, 사용하실 분은 댓글 남겨주시길 바라겠습니다.
이전 과정을 보시면 이해가 더 원활할 것 같으니, 아래를 보고 오시는 것을 추천드립니다.
🔻 1편
2023.03.15 - [비전딥러닝/논문review] - DocTr_1
DocTr_1
본 포스팅에서는 DocTr의 전체적인 과정과 논문 리뷰를 합니다. 구체적인 동작 구조와 코드 리뷰는 2편을 참고하시길 바랍니다! 논문 url https://arxiv.org/pdf/2110.12942.pdf DocTr 이전 선행연구들 DocTr Proce
chaem.tistory.com
🔻 2편
2023.03.16 - [비전딥러닝/논문review] - DocTr_2_UNETP
DocTr_2_UNETP
본 포스트는 DocTr의 세부적인 동작 구성과 코드 리뷰를 담은 포스트입니다. * 본 포스트에 사용된 모든 자료는 코드를 살펴보고 직접 만든 것이니, 혹시 사용하실 분이 계신다면, 댓글 남겨주시
chaem.tistory.com
🔻 3편
2023.03.16 - [비전딥러닝/논문review] - DocTr_3_GeoTr
DocTr_3_GeoTr
본 포스트는 DocTr의 GeoTr 과정을 상세히 저술합니다. * 본 포스트에 사용되는 모든 자료는 직접 코드를 살펴보고 시각화하여 만든 것이니, 사용하실 분은 댓글 남겨주시길 바라겠습니다. 이전 과
chaem.tistory.com
Position_embedding은 Encoder에서 했던 과정과 완전히 동일하다.
➡️ 3편 참고 :
2023.03.16 - [비전딥러닝/논문review] - DocTr_3_GeoTr
DocTr_3_GeoTr
본 포스트는 DocTr의 GeoTr 과정을 상세히 저술합니다. * 본 포스트에 사용되는 모든 자료는 직접 코드를 살펴보고 시각화하여 만든 것이니, 사용하실 분은 댓글 남겨주시길 바라겠습니다. 이전 과
chaem.tistory.com
진짜로 기억이 안나네,, 갑자기 어디서 [1,3,288,288]이 나왔을까,...
일단 coordinate 정보를 가지고 어떻게 저떻게 뚝딱 만들고 있네여,,
생각해보니 원본 사이즈가 [1,3,288,288]이었던 것 같은데, coordinate 정보가 중요한 거니 아마 그냥 저 demension만 가진 아무 텐서나 만들었을 겁니다 모...
쨌든 이거랑 Decoder의 최종 output인 [1,256,36,36]이랑 같이 Update_block으로 들어갑니다..
끝입니다... 이렇게 최종 output인 [1,2,288,288]의 shape을 가진 Flow map이 나왔네요
이제 이걸로 종이를 피는 작업 (dewarping)을 하는 것이죠~
(사실 illumination correction transformer 가 남았으나 모르는 척할 예정.)
긴 글 읽어주셔서 감사합니다.
'비전딥러닝 > 논문review' 카테고리의 다른 글
DocTr_3_GeoTr (1) | 2023.03.16 |
---|---|
DocTr_2_UNETP (0) | 2023.03.16 |
DocTr_1 (0) | 2023.03.15 |
DewarpNet (0) | 2022.11.25 |
[Object Detection] Yolo + traditional Solution (0) | 2022.11.20 |