IT/인공지능
논문스터디 | ViLBERT | 2021.10.12
황설모
2021. 10. 12. 22:26
Image Captioning
Video Captioning
visual storytelling : 여러자의 이미지로 이야기 만들기
Object recognition : 이미지 내 객체 인식
visual QA : visual Question-Answering
- 이미지와 야채를 자를 칼이 있나요가 같이 제시하면 AI System이 답을 한다.
- 이미지풀과 텍스트를 제시하면 AI System이 텍스트에 해당되는 이미지 선택
각 Vision -> 인코더 -> CV(context Vector)
각 Word -> 인코더 -> CV(context Vector)
다른 곳에서 가져온 key, value를 넣어서 값 생성 후 softmax로 값 변환
BERT : 마스킹을 해서 다음 문장이 맞는지 아닌지 판단.
- Pretraning task
1. Vison들간의 관계들이 학습이 됨
v1에 해당되는게 마스킹 되었다면, 그 객체가 어떤 객체인지 classificaiton