논문스터디 | ViLBERT | 2021.10.12

IT/인공지능

논문스터디 | ViLBERT | 2021.10.12

황설모 2021. 10. 12. 22:26

Image Captioning

Video Captioning

visual storytelling : 여러자의 이미지로 이야기 만들기

Object recognition : 이미지 내 객체 인식

visual QA : visual Question-Answering

- 이미지와 야채를 자를 칼이 있나요가 같이 제시하면 AI System이 답을 한다.

- 이미지풀과 텍스트를 제시하면 AI System이 텍스트에 해당되는 이미지 선택

각 Vision -> 인코더 -> CV(context Vector)

각 Word -> 인코더 -> CV(context Vector)

다른 곳에서 가져온 key, value를 넣어서 값 생성 후 softmax로 값 변환

BERT : 마스킹을 해서 다음 문장이 맞는지 아닌지 판단.

- Pretraning task

1. Vison들간의 관계들이 학습이 됨

v1에 해당되는게 마스킹 되었다면, 그 객체가 어떤 객체인지 classificaiton