논문스터디 | ViLBERT

Image Captioning

Video Captioning

visual storytelling : 여러자의 이미지로 이야기 만들기

Object recognition : 이미지 내 객체 인식

visual QA : visual Question-Answering

- 이미지와 야채를 자를 칼이 있나요가 같이 제시하면 AI System이 답을 한다.

- 이미지풀과 텍스트를 제시하면 AI System이 텍스트에 해당되는 이미지 선택

각 Vision -> 인코더 -> CV(context Vector)

각 Word -> 인코더 -> CV(context Vector)

다른 곳에서 가져온 key, value를 넣어서 값 생성 후 softmax로 값 변환

BERT : 마스킹을 해서 다음 문장이 맞는지 아닌지 판단.

- Pretraning task

1. Vison들간의 관계들이 학습이 됨

v1에 해당되는게 마스킹 되었다면, 그 객체가 어떤 객체인지 classificaiton

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

설모의 방