null | Eddie’s Blog

Date

Oct 24, 2024

Type

only Students

Contributors

예산 현황

항목	내역	단가(원)	수량	금액(원)
일반수용비	실험실습비(유저스터디, 인당 63,750원*10명, 2회)	637,500	2	1,275,000
ㅤ	학회 등록비	1,300,000	1	1,300,000
ㅤ
ㅤ	실험실습비(LLM API 활용)	150,000	1	150,000
ㅤ	~~기숙사 활용비~~	~~300,440~~	5	~~1,502,200~~
소계	ㅤ	ㅤ	ㅤ	4,227,200
국내 여비	~~국내학회여비(Google Conference) * 5명~~	~~122,200~~	5	~~611,000~~
ㅤ	~~국내학회여비 (Gen AI Innovation Korea Conference) * 6명~~	~~255,300~~	6	~~1,531,800~~
소계	ㅤ	ㅤ	ㅤ	2,142,800
사업 관리비	회의비 30,000원 * 3회 * 7명(6명+교수님)	210,000	3	630,000 (현재 202,000원 사용)
소계	ㅤ	ㅤ	ㅤ	630,000
자산 취득비
소계	ㅤ	ㅤ	ㅤ	0
합계	ㅤ			7,000,000

~~API +~~ 실험실습비 합해서 140만원 남음

( 학회등록비(130) + 회의비(42) + 학회여비(25) )

예산 사용방법 안내

GPT API + 실험 참여자 인건비 제공

GPT API 사용

저희가 개발중인 인공지능 모델에 대한 성능검증을 비교하기 위해 GPT API를 사용할려고 하는데요, 일반 GPT 월구독제 형태가 아니라, 크레딧을 일정금액 충전하여, 테스트를 진행할 때마다 일정금액이 차감되는 형태입니다. 여기서 일정금액(예: 100,000원 일괄충전)을 충전할 때 UGRP 예산 사용이 가능한지 궁금합니다.

▶ 사용가능합니다.

실험 참여자 인건비 제공

개발된 인공지능 모델에 대해 사람들의 직접평가를 모집하고, 이에 대한 보수를 지급하고자 하는데, 이 부분도 '실험실습비'나 '전문가활용비'와 같은 비목에서 사용이 가능한 범위인지 궁금합니다. 실험대상은 언어분야의 전문가분들을 대상으로 실시할 것 같습니다. (혹여나 DGIST내 학생들을 대상으로 실험을 진행했을 때에도 보수지급이 가능한지 궁금합니다.)

▶ 사례비 지급은 가능하며, 일반수용비에서 지출가능합니다.

▶ 우선, 해당 건은 UGRP 직접구매 시스템(포털)에 등록하지 않고 담당자에게 관련 서류를 제출해 주시면 피험자 계좌로 사례비를 지급할 예정입니다.

따라서 아래 요청드리는 서류들을 꼭 잘 챙겨서 제출해 주시길 바랍니다.

< 실험 진행 전 제출서류>

담당자가 별도로 임상시험 진행에 대한 내부절차를 진행해야 하므로 아래 서류를 작성하여 제출요청

심의결과서(IRB 승인서 또는 심의결과통보서)

※ IRB 승인서는 필수 제출서류가 아니라 IRB 심의 대상 여부를 담당부서에 문의 후, 심의 대상일 경우 "심의 후 승인서"를 심의 대상이 아닐 경우, "심의 면제대상"에 대한 문서로 대체할 것

연구계획서

피험자 모집공고문

피험자동의서(양식)

개인정보수집이용동의서

<실험진행 후 제출서류>

실험 진행 후에는 피험자에게 반드시 필요 서류들의 서명을 받아주시고 아래 서류를 제게 제출해 주셔야 피험자에게 사례비 지급이 가능합니다.

피험자 동의서

개인정보수집이용동의서

사례비 지급받을 계좌정보 (은행명, 계좌번호, 예금주)

실험확인서(결과물)

Metric Performance [정량평가, non-Usability Test]

(원본 이미지만 넣었을 때 vs. 원본 이미지 + superpixel 이미지 넣었을 때)

1. Distinct(D-1, D-2) - 다양성 측정

Distinct 점수가 높으면 다양한 표현이 사용되었음을 나타냄. (중복된 단어가 전체 문장대비 적을수록 수치 높아짐)

D-1, D-2 계산기 (unigram, bigram 이용)

결과

a끼리 비교

D-1과 D-2 모두 원본 이미지+superpixel 했던 것이 더 수치적으로 높음.

b끼리 비교

D-1과 D-2 모두 원본 이미지만 넣었던 것이 더 수치적으로 높음.

※ 오히려 다시 생성했을 떄 superpixel의 효과를 덜 보는 것일 수도..???

(D-1)원본 이미지만 입력한 경우

a : 0.85

b : 0.84

평균 : 0.845

(D-1)원본 이미지+superpixel 입력한 경우

a : 0.90

b : 0.78

평균 :0.84

(D-2)원본 이미지만 입력한 경우

a : 0.97

b : 0.98

평균 : 0.975

(D-2)원본 이미지+superpixel 입력한 경우

a : 0.98

b : 0.97

평균 :0.975

결론: 처음 생성한(a) 애들은 superpixel 같이 넣은 게 수치적으로 더 좋았으나, 다시 생성했을 떄는 오히려 낮아짐

2. BLEU

BLEU는 정답이 되는 reference sentence와 모델로부터 생성된 문장인 generated sentence 간의 단어나 구(phrase)의 일치도를 측정하는 방식

→ 이건 정답이 되는 단어들을 직접 선별 이후 (선별 기준은 어떻게?? 고민 혹은 서칭 필요)

(1) reference sentence에 포함된 n-gram의 수

(2) 문장의 전체 n-gram 수

구해서 (1)/(2) 구하면 될듯

BLEU 계산기 (Python)

Chat GPT 를 이용하여 3가지 output을 reference sentence로 설정하여 평가

결과

원본 이미지만 입력한 경우

a : 8.130741229756141e-232

b : 9.234000551200452e-79

평균 : 4.617000275600226e-79

원본 이미지+superpixel 입력한 경우

a : 8.064150654269574e-232

b : 2.377399199602412e-155

평균 : 1.188699599801206e-155

→ 원본 이미지+superpixel을 입력한 경우 단어 일치도가 낮ㅗ다….(원하는 방향이랑 다른 결과)

3. BEER (BEtter Evaluation and Ranking)

텍스트의 자연스러움, 일관성 및 문맥 적합성을 평가 (텍스트 품질을 평가)

BEER 계산기

결과

원본 이미지 (a) 와 Ref 1번째 문장 BEER Score: 0.1874

원본 이미지+Superpixel (a) 와 Ref 1번째 문장 BEER Score: 0.2893

원본 이미지 (b) 와 Ref 1번째 문장 BEER Score: 0.3282

원본 이미지+Superpixel (b) 와 Ref 1번째 문장 BEER Score: 0.3282

(a)에서만 Superpixel을 넣은 것이 수치적으로 높게 평가됨.

처음 생성한(a) 애들은 superpixel 같이 넣은 게 수치적으로 더 좋았으나, 다시 생성했을 떄는 오히려 낮아짐 → n-gram이 들어가니 Distinct랑 유사하게 결과물이 나오는 듯

4. Lexical diversity

서로 다른 단어들이 얼마나 많이 사용되었는지 확인함으로써 어휘의 다양성 수치화

코드

결과

원본 이미지만 입력한 경우

a : 0.8536585365853658

b : 0.8409090909090909

평균 : 0.8472838137472284

원본 이미지+superpixel 입력한 경우

a : 0.9

b : 0.7846153846153846

평균 : 0.8423076923076923

→ 원본 이미지+superpixel을 입력한 경우 어휘 다양성이 낮다….(원하는 방향이랑 다른 결과)

Metric Performance [Usability Test]

BENCHMARK METRIC 개발

본 연구에서는 다양한 전처리 조건에서 대규모 언어 모델(LLM)이 생성하는 색상 설명의 품질과 다양성을 평가하기 위한 벤치마크 메트릭을 제안하고 평가한다. 구체적으로, 평가의 기초가 되는 네 가지 메트릭을 선정했다: Distinct (D-1, D-2), BLEU, BEER (Better Evaluation and Ranking), Lexical Diversity. 이 메트릭들은 생성된 설명에서 ‘다양성’과 ‘정확성’이라는 두 가지 측면을 다루기 위해 선택되었다.

이 평가의 목적은 Superpixel 및 YOLO와 같은 전처리 기법이 원본 이미지만 사용할 때와 비교하여 색상 설명 생성에 어떤 영향을 미치는지 분석하는 것이다. 전처리된 이미지와 원본 이미지를 모두 LLM 입력으로 포함함으로써, 생성된 설명의 품질과 다양성 차이를 평가하기 위한 명확한 기준을 수립하고자 한다.

Distinct (D-1, D-2): 생성된 설명에서 유니그램과 바이그램의 고유성을 측정하여 다양성을 정량화한다. 높은 점수는 표현 범위가 넓고 풍부한 설명 세트를 반영한다.

BLEU: 참조 설명과 생성된 설명 간의 n-그램 중첩을 기반으로 일치도를 평가한다. 이는 모델 출력이 사람이 직접 제공하는 설명(Reference Text)과 얼마나 밀접하게 일치하는지를 나타낸다.

BEER (Better Evaluation and Ranking): 구문적 및 의미적 고려사항을 결합하여 출력 정확도와 관련성을 세부적으로 평가한다. BLEU와 보완적으로 작용하며, 순위 기반 평가를 포함한다.

Lexical Diversity: 어휘 사용의 변화를 측정하여 설명이 얼마나 다양하고 표현력이 풍부한지를 강조한다.

이러한 메트릭을 결합함으로써 전처리 방법이 LLM 생성 설명의 품질에 미치는 영향을 엄격히 평가할 수 있도록 하며, 이미지에서 세밀한 색상 정보를 포착하는 데 있어 전처리 방법이 어떤 영향을 미치는지 분석할 수 있다.