[2020.05.06 기록] 페이스북 발표 논문 번역(5) 블렌딩 기술


연어입니다.



[3] Blending Skills in a Conversation 대화에서의 블렌딩 기술

A model separately trained on a variety of skills might be able to do well on each of them in isolation, but still struggle to seamlessly blend them over the course of a single conversation where it has to navigate whether a given utterance calls for informative knowledge or empathy, for example. It must learn to switch between skills, each time incorporating previous dialogue context which may contain utterances from either partner relating to multiple skills, and on some turns may have to blend skills into a single response.

다양한 기술로 트레이닝된 개별적인 모델은 각 기술별로 구분된 상태에서는 훌륭히 작동할 수 있지만 하나의 대화 과정에서 완벽히 융합되는 것은 여전히 ​​어려우므로 지식이나 감정같은 유익한 발언들이 있을지 탐구해야 한다.

이전 대화의 컨텍스트 통합할 때마다 서로의 기술과 관련 발언들이 포함될 수 있고, 경우에 따라서는 기술을 하나의 응답에 블렌딩해야 할 수도 있으므로 반드시 기술간 전환 방법을 배워야 할 것이다.


[3.1] BlendedSkillTalk

In order to gauge how successful a model is at this blended objective, we collect BlendedSkillTalk, a small crowdsourced dataset of about 5k conversations in English where workers are instructed to try and be knowledgeable, empathetic, or give personal details about their given persona, whenever appropriate. We collect conversations from 2,679 workers, with each worker participating in an average of 5.4 conversations in the train set and a maximum of 15 conversations.

The dataset consists of 4,819 train-set conversations, 1,009 validationset conversations, and 980 test-set conversations. We ensure that the sets of workers involved in collecting the train, validation, and test sets are completely disjoint to prevent our models from benefiting from learning about specific workers’ biases (Geva et al., 2019). On average, there are 11.2 utterances (5.6 pairs from the two workers) in each conversation in the train set. This dataset is available through the ParlAI framework(https://parl.ar/)

이 블렌딩 작업에서 모델의 성공 여부를 측정하기 위해 약 50,000개의 영어 대화가 포함된 소형 크라우드소싱 데이터셋인 BlendedSkillTalk를 수집했으며, 이 데이터셋은 작업자들이 주어진 역할에 적절한 지식과 감정, 디테일한 개인 사항들까지 제공받아 이해하고 노력한 것이다. 총 2,679 명의 작업자로부터 대화를 수집하였으며, 각 작업자들은 평균 5.4 회, 최대 15 회의 트레이닝 대화에 참여하였다.

데이터셋에는 4,819개의 훈련용셋, 1,009개의 검증셋, 그리고 980개의 테스트셋 대화가 포함되었다. 여기엔 작업자 그룹을 완전히 분리하여 모델이 특정 작업자 그룹으로부터 편중된 바이어스에 걸리지 않도록 하였다. 트레이닝에서는 대화를 할 때마다 평균 11.2개(5.6개씩 한 쌍)의 발화를 얻었다. 데이터셋은 ParlAI 프레임 워크를 통해 얻을 수 있다.

  • 훈련용셋, 검증셋, 테스트셋 : 본문의 train-set, vlidationset, test-set을 직관적으로 이해하게끔 번역하였습니다. 위키피디아에는 딥러닝용 데이터셋로 크게 Training, Test, Validation, Holdout 데이터셋으로 구분지어 소개해 두었습니다.

An example conversation from BlendedSkillTalk is shown in Figure 1. In this example, we see that the speakers inject knowledge, empathy, and personal background, and generally that the conversation invokes different skills while flowing naturally.

BlendedSkillTalk 대화를 (그림 1.)에 예시로 나타내었다. 예시에서, 화자가 지식, 공감, 개인적 배경을 섞어 넣으며 대화가 자연스럽게 흐르면서도 다른 기술들을 불러일으키는 것을 볼 수 있다.

20200502_162309.jpg

Figure 1. Sample conversation from the BlendedSkillTalk dataset, annotated with four conversation mode types (PB: personal background; K: knowledge; S: personal situation; E: empathy). The guided (G) and unguided (U) workers are given personas and a topic. The conversation has been seeded with two utterances from a conversation sampled from WoW. When the guided worker selected one of the suggestions, it is shown in shaded grey.

(그림 1.) 네 가지 유형의 대화 모드(PB 개인 배경, K 지식, S 개인 상황, E 공감)로 주석을 단 BlendedSkillTalk 데이터셋 대화의 예.

훈련에 대하여 안내 받은 (G)작업자와 안내 받지 않은 (U)작업자에게 각각의 페르소나(역할)와 이야기 테마를 부여한다. 대화에는 샘플링한 WoW에 포함된 두 종의 단어(발화)가 담겨있다. 제안 중 하나를 선택하면 제안은 회색으로 음영 처리된다.


Guided Collection 안내 된 (응답) 모음

In order to prevent workers from getting stuck in a set “mode” of conversation (in which they consistently use one specific skill) or from being too generic, we provide responses from models that have been trained towards a specific skill as inspiration to one of the two workers in the conversation. That worker is free to either use and modify or ignore those responses.

Thus, each conversation involves an “unguided” speaker and a “guided” speaker, with the unguided speaker talking first. Whenever it is the guided speaker’s turn to respond, we show them three suggested responses, one each from three single-task polyencoder (Humeau et al., 2019) models trained on the ConvAI2, ED, and WoW datasets. These are the same models we use as baseline conversational agents for individual skills as well.

작업자가 '특정 기술을 지속적으로 사용하는' 대화 모드나 너무 전형적인 대화 모드에 빠지지 않도록 기술별로 트레이닝된 모델 응답들을 한 작업자에게 제공하여 전체적인 대화를 고무시킨다. 제공받은 작업자는 이러한 응답을 자유롭게 사용하거나, 수정 또는 무시할 수 있다.

그렇게 각 대화마다 '안내 된' 화자 및 '안내 되지 않은' 화자가 있으며, 안내되지 않은 화자가 먼저 이야기한다. 화자가 여기에 응답할 차례가 될 때마다 ConvAI2, ED, WoW 데이터셋들으로 훈련한 세 개의 싱글태스크-멀티엔코더(polyencoder) 모델로부터 각각 한 개씩 총 3개의 제안된 응답을 보여준다. 이 모델은 기술별로 기본 챗봇으로 사용하는 모델과 동일하다.

A breakdown of the choices of guided speakers is shown in Table 1, showing a reasonably balanced choice of suggestions. Workers decide to use them in 20.5% of utterances, which affects the overall dialogues. Interestingly, 46.1% of the time (versus 33.3% at chance), the unguided speaker continues in the same mode as the previous utterance by the guided speaker, according to the classifier.

Thus, the BlendedSkillTalk dataset mimics natural conversation by featuring both continuity (“stickiness” in the conversation mode) and mode blending within a single conversation.

(표 1.)은 화자의 합리적이고 균형 잡힌 선택을 보여주고 있다. 작업자는 발화의 20.5% 이내에서 선택해 사용하며 전체적인 대화에도 영향을 미친다. 흥미로운 점은, 안내 되지 않은 화자가 46.1%(우연이라면 33.3%의 확률)의 시간 동안 이전의 안내 된 화자와 같은 방식으로 말한다는 것이다.

그러므로 BlendedSkillTalk 데이터셋은 연속성(대화 모드에서의 '고착성')과 개별 대화 블렌딩 모드를 모두 사용하여 자연스럽게 대화를 모방한다고 볼 수 있다.


Comments 0