[2020.05.15 기록] 페이스북 발표 논문 번역(7) 데이터 품질


연어입니다.



Data Quality 데이터 품질

To improve the quality of the collected conversations, we filter out any conversations where one of the speakers speaks less than 3 words per message; starts their conversation with a greeting despite previous utterances existing in the conversation; uses all-caps too frequently; repeats themselves too much; writes a message that gets flagged by a safety classifier; or, if they are the guided speaker, always accepts suggestions verbatim without changing them.

Messages cannot be over 30 words or copy persona strings exactly.

각 화자의 메세지에서 3 단어 미만인 경우, 이전 대화에 했었음에도 다시 인사말로 시작하는 경우, 대문자를 남발하는 경우, 너무 자주 반복하는 경우, 보안상 안전 분류기에 플래그 설정해 둔 메세지를 적는 경우, 안내된 발화자로서 토씨 하나 틀리지 않게 (영혼없이) 반응하는 경우의 대화들은 걸러내어 수집한 대화의 품질을 향상시킨다.

메세지들은 30자를 넘거나 페르소나 문자열을 적확히 복사하는 것을 허용하지 않는다.

  • flag (플래그 설정): (깃발을 꼽아두듯이) 컴퓨터에 무엇을 기억해 두거나 약속된 신호를 프로그램이 감지할 수 있도록 남겨두는 행위

Skill Annotations 기술적 주석

We also asked crowdsource workers to rate individual utterances as exhibiting one of four possible modes:

  • Knowledge: using factual information (“I've heard that in some places, lifeguards also help with other sorts of emergencies, like mountain rescues!”) (Dinan et al., 2019b)
  • Empathy: understanding and acknowledging implied feelings (“I'm sorry to hear that. I wish I could help you figure it out”) (Rashkin et al., 2019)
  • Personal situations: past circumstances in a person’s life (“I finally got that promotion at work! I have tried so hard for so long to get it!) (Rashkin et al., 2019)
  • Personal background: a person’s personality, interests, and attributes (“I am into equestrian sports.”) (Zhang et al., 2018)

크라우드 소싱 작업자에게 4가지 가능한 모드 중 하나를 뽑아내 개별적인 발화를 평가하도록 요청할 수도 있다.

  • 지식: 사실에 기반한 정보를 사용한다.(예: "일부 지역에서 구조대원이 산악 구조와 같은 다른 종류의 비상사태를 도울 수 있다고 들었습니다")
  • 공감: 내포된 감정을 이해하고 인식한다. (예: "그러하셨다니 유감입니다. 문제를 해결할 수 있도록 도와드리겠습니다")
  • 개인적인 상황: 개인사에서의 과거 상황 (예: "마침내 직장에서 승진했습니다! 승진을 위해 정말 오랫동안 노력했습니다")
  • 개인 배경: 개인의 성격, 관심사, 특성 (예: "나는 승마에 빠져 있습니다"

All utterances in over 700 conversations from the validation set of the BST dataset, from both guided and unguided workers, were annotated in this manner for 7,380 annotations collected in total. Workers were able to select as many attributes as they wished for each utterance.

To avoid workerspecific bias, each crowdsource worker was limited to performing annotations on 10 conversations, and 123 total workers contributed annotations. Most analysis in this paper refers to three datasets, and the utterance classifier was trained with three dataset labels as classes.

이런 식으로, 모든 안내 및 비안내 작업자는 BST 데이터셋에서 유효성 검증한 700개 이상의 대화내 발화로부터 총 7,380개의 주석을 수집하고 처리해 나간다. 작업자는 각 발화에 대해 가능한 한 많은 속성을 선택할 수 있다.

각 크라우드 소싱 작업자에는 작업자별로 편중될 수 있는 바이어스를 피하도록 10개의 대화에만 주석을 달도록 제한했으며, 총 123개의 작업자가 주석에 기여하였다. 본 논문 분석의 대부분은 발화 분류자가 3개의 데이터셋을 라벨별로 분류하여 학습한 것에 기반한다.


However, the ED dataset contains both “Speaker” utterances that describe personal situations, and ”Listener” utterances, where the Listener responds with empathy (the ED benchmarks trains on both sides but evaluates only on the Listener side).

We therefore break down annotations into four types, with two types covering responses about “personal topics”: personal background (which is the focus of ConvAI2) and personal situations (talked about in ED).

하지만 ED 데이터셋은 개인 상황을 설명하는 '화자'의 발언과 공감하며 반응하는 '청자'의 발언을 모두 포함한다. (ED 벤치마크는 양쪽 모두를 학습하지만 '청자' 측으로서만 평가한다.

그에 따라 (ConvAI2에 초점을 둔) 개인적 배경과 (ED에서 언급했던) 개인적 상황의 두 유형을 포함한 네 유형으로 나누어 처리해 나간다.


20200502_162602.jpg

Table 3: Breakdown of conversations by number of modes, showing that most BST dataset conversations exhibit multiple modes. Workers were asked to choose if each utterance of a conversation demonstrated knowledge, empathy, personal situations, or personal background. Over 70% of the conversations annotated demonstrated at least 3 of the 4 modes.

(표3.) 대부분의 BST 데이터셋 대화가 (의도한 바에 따라) 각 모드별로 분류되어 표시된다. 작업자는 대화 문장들을 지식, 공감, 개인적인 상황, 개인 배경으로 구분하도록 요청받는다. 주석이 달린 대화의 70% 이상이 4가지 모드 중 최소한 3가지 이상을 나타내고 있음이 증명되었다.


Results in Table 3 show that the dataset indeed contains a reasonably balanced blend of these qualities. Over 70% of conversations annotated contained at least 3 of 4 modes.

Overall, workers’ annotation counts are 43.7% for personal background, 20.5% for knowledge, 20.3% for empathy, and 15.4% for personal situations.

(표3)의 결과는 데이터셋이 품질면에서 합리적으로 균형잡혀 블렌딩되어 있음을 나타낸다. 주석이 달린 대화의 70% 이상이 네 가지 모드 중 최소한 세 가지 이상을 포함하였다.

작업자 주석수 전체를 놓고 보면, 개인 배경이 43.7%, 지식이 20.5%, 공감이 20.3%, 개인 환경이 15.4%이다.

This supports the finding from our utterance classifier that the vast majority of conversations feature more than one mode, where utterance modes are defined as the predicted dataset provenance per utterance.

In order to avoid excessive annotator bias and keep annotations discriminative, we limit the maximum number of annotations per worker and check that annotators did not select all modes for each utterance.

이는 개별 발화에 기반해 예측된 데이터셋대로 발화 모드에서 하나 이상의 광범위한 대화 특성에 대해 발화 분류기가 추론한 바를 뒷받침한다.

주석의 과도한 편중을 피하고 주석간의 구분을 유지하기 위해 작업자 당 최대 주석수를 제한하였으며 각각의 주석별로 고루 모드가 선택하지 않았는지 체크하였다.


Comments 0