Date
Sep 3, 2024
Type
only Students
Contributors

Notice / Previous Week
[전체]
[From Team 철]
[From Team 헌]
Memos
전체 모델 구조 설계도
- CV 파트
- Input: 원본 이미지
- Output: 대상 클래스 + 색상 라벨
- YOLO의 output은 여러 방법이 존재. 1. 배경을 특정 색상으로 칠한 이미지 2. 마스킹 이미지.
- 학습된 대상에 대해서는 클래스도 알 수 있음.
- 가능한 케이스 다양하게 주기
- Superpixel에서 output을 dict로 어떤 물체가 어떤 색상을 갖고 있는지.
- Input size 조절 시도 예정
- LLM 파트
- Input: 프롬프트 + 원본 이미지 + CV 부분 Output
- Output: 색상 설명
- 설명의 맥락에 대해서는 LLM에 원본 이미지를 넣기 때문에 괜찮을 것으로 생각됨.
- dict를 넣어보고 결과가 좋지 않으면 Superpixel 이미지를 넣는 것으로 진행.
- 처리 속도를 높히고자 dict을 넣으려 했음
- Microsoft semantic kernel 사용하면 될 듯.
- SAM은 사용자가 정보를 주어야 해서 폐기, YOLO로 변경 후 다시 작업 진행 예정.
- 다음 주 중으로 sample 만드는 것을 목표
- 자세한 파이프라인은 추후에 각 부분이 어느정도 완료되면 논의 예정.
- Metric
- 텍스트를 만드는 모델에 대한 몇 가지 정략적 평가 방법이 있었음. 성능 평가 Metric Reference
- temperature 조절과 관련된 ref 찾아보기
- Chart화 하여 metric 정리해두기
- 여러 논문 searching 해보기
- Test data 만들어서 1)색칠된 이미지가 들어갔을때 2)dictionary가 들어갔을 때 두 case 비교하여 어떤게 평가 점수가 높게 나오는지 test
*DIAG 랩실 논문 작성 정리되면 교수님과 면담(단독?) 예정.
*기숙사 환급 신청은 진행 완료됨.
*추석 연휴 주는 각자 팀별로 진행 후 9/24에 보고할 것.
*UGRP 종료 후 논문 작성이 진행될 수 있으니 각자 참여 여부 생각해둘 것.