Date
Aug 14, 2024 14:00
Type
with Prof.
Contributors
미팅 준비자료
통계 미팅(준비자료)시각장애인 통계 조사_정리본주 Target을 시각장애인으로 가야할 지, 아니면 창작자 쪽으로 가야할 지?
어떤 집단을 핵심으로 잡아서 Target하는게 핵심이 아니라, Color Description을 구현하는 것 자체가 Main이므로, 이게 왜 필요한 지 Justification정도의 수준으로 나열하는 것이 좋을 것 같다.
Ex. 시각장애인 쪽으로도 쓰일 수 있고, 창작자분들께도 쓰일 수 있고, 등등등
Rich Color Description에 대한 사회적 니즈는 많다. 예를 들어, ‘시각장애인이나 색맹은 색깔에 대한 Description이 없는데, 이러한 기술을 통해 도움을 받을 수 있고, 인테리어나 창작 수업에서도 도움을 받을 수 있다’는 것을 이야기하는 정도로!
다만, Rich Color Description에 대한 개발이 아직 미비해서, 직접 개발하여 Usability(유용성)를 테스트해봐야 할 것. 이때, Usability 테스트에서는 시각장애인보다 일반인들을 대상으로 모집하는 것이 훨씬 쉬울 것임.
Description을 평가할 Metric은 어떤 것이 될 수 있을지?
- Accuracy (오브젝트를 다르게 명명하지 않고, 제대로 명명하는가?)
- Expression Richness (얼마나 풍부한가?)
- 형용사의 개수
- 수사를 도와주는 어휘의 개수
- 이미 있는 기술(다른 논문)에서도 따와서 비교
- Ex. ‘이 기술의 Richness는 3.5였는데, 우리는 5.4더라’
- BaseLine을 설정하고, 그것을 바탕으로 비교하는 작업 필요
- Lexical Diversity (어휘 다양성): 텍스트에서 사용되는 고유 단어의 비율을 측정함. 대표적인 지표로 Type-Token Ratio (TTR), Moving-Average TTR (MATTR), Measure of Textual Lexical Diversity (MTLD) 등이 있음.
- Moving-Average Type-Token Ratio (MATTR)
- Measure of Textual Lexical Diversity (MTLD)
1. Type-Token Ratio (TTR)
텍스트에서 고유한 단어(Types)의 수를 전체 단어(Tokens) 수로 나눈 값. 높은 TTR은 더 다양한 어휘 사용을 나타냄을 의미함. 그러나 TTR은 텍스트의 길이에 민감하며, 짧은 텍스트에서는 비율이 높아지는 경향 있음.
TTR의 단점을 보완하기 위해 고안된 방법으로, 텍스트의 길이에 따른 영향을 줄이기 위해 일정한 길이의 슬라이딩 윈도우를 사용하여 TTR을 계산. 이 방법은 텍스트의 길이에 관계없이 Lexical Diversity를 보다 안정적으로 측정할 수 있음.
텍스트의 길이에 독립적으로 Lexical Diversity를 평가하는 방법. 일정한 TTR 임계값에 도달할 때까지의 단어 수를 측정하여, 다양한 길이의 텍스트에서도 일관된 Lexical Diversity를 평가할 수 있음. (긴 텍스트에서도 Lexical Diversity 평가가능.)
- Syntactic Smoothness (문장이 얼마나 자연스럽고 말이 되는가?)
- Compute할 수 있는 방법이 없을 것임. 그래서 User Test를 해보면서 문장이 자연스러운지 수치화하는 것을 추천
- 추가 searching한 부분
- BLEU(Bilingual Evaluation Understudy)
- 많은 자연어 처리 모델이 생성 평가를 할 때 사용하는 방법으로 ‘목표로 하는 문장과 모델이 생성한 문장이 일치하는 정도’를 수치화 한 지표로 파이썬에서 NLTK 패키지를 사용하여 BLEU를 쉽게 계산 가능
- Perplexity (PPL): 언어 모델이 텍스트 시퀀스를 얼마나 잘 예측하는지를 측정하는 지표로, 언어 모델의 유창성을 나타냄. 낮은 perplexity는 텍스트가 모델이 훈련된 데이터와 구문적으로 유사하다는 것을 의미하며, 이는 Syntactic Smoothness와 직결될 수 있음.
Comment
*이렇게 짧게라도 자주 미팅하는 것이 생산적이고 좋은 것 같음. 10~15분정도 고민거리 간단하게 자주 이야기합시다!
앞으로 해야할 일
- Justification 수준으로 여러 분야로 쓰일 수 있다는 Case들을 정리(시각장애인, 창작 ← 조금 더 구체적으로!?)
- Color Expression Richness에 대한 Metric을 찾을 수 있도록 유사한 기술들을 서칭해야 함.
