Text Style Transfer 텍스트 스타일 변환 데이터셋 조사


  • informal → formal
  • toxic → neutral
  • democratic → republican(분석 중)
  • impolite → polite(분석 중)
  • shakespeare → modern
  • positive → negative


병렬 데이터셋이 아닌데 대체 뭘로 학습을 하고, 평가를 했다는 거지? 의문이 드는 데이터셋은 아직 찾는 중..

informal → formal


  • 비공식적인 언어로 작성된 문장을 공식적인 언어로 다시 작성하는 태스크
  • 주로 병렬 데이터셋인 GYAFC (Grammarly’s Yahoo Answers Formality Corpus) 데이터셋을 사용
    • 총 110,000개의 비공식/공식 문장 쌍을 포함
    • Yahoo Answers는 질문 답변 포럼으로, 많은 수의 비공식 문장을 포함
    • 5단어보다 짧거나 25단어보다 긴 문장을 제거
    • 비즈니스, 엔터테인먼트 및 음악, 여행, 음식 등 여러 도메인으로 구성
    • 저자는 가장 비공식적인 문장이 포함된 두 가지 특정 도메인을 대상으로 작업
    • 엔터테인먼트와 음악, 가족 및 관계 영역에 가장 비공식적인 문장이 포함되어 있다는 것을 발견 → 이를 이용
  • 예제

Dear Sir or Madam, May I Introduce the GYAFC Dataset: Corpus, Benchmarks and Metrics for Formality Style Transfer (https://arxiv.org/pdf/1803.06535v2)



toxic → neutral


  • 유해한 언어를 정제하는 텍스트 해독 작업
  • 주로 Paradetox 병렬 데이터셋을 이용
    • Toloka.ai 크라우드소싱 플랫폼을 이용하여 구축
      1. Generation of Paraphrases: 사용자에게 내용을 유지하면서 주어진 문장에서 독성 제거 요청
      2. Content Preservation Check생성된 패러프레이징 문장과 원래 문장을 사용자에게 보여주고 의미 판단 요청
      3. Toxicity Check: 마지막으로 독성 제거하는 데 성공했는 지 확인
    • 11,939개의 유해 문장에 대한 의역(문장 당 평균 1.66개의 패러프레이징)을 얻었고, 총 19,766개의 패러프레이징 수집
    • https://github.com/s-nlp/paradetox

  • 예제



shakespeare → modern


  • 현대 영어에서 셰익스피어 영어로 텍스트를 변환하는 태스크
  • 예제
modern shakespeare
A jumbled confession can only receive a jumbled absolution . Riddling confession finds but riddling shrift .
I love rich Capulet's daughter . Then plainly know my heart's dear love is set On the fair daughter of rich Capulet .
We're bound to each other in every possible way , except we need you to marry us . As mine on hers , so hers is set on mine , And all combined , save what thou must combine By holy marriage .



positive → negative


  • 가장 많이 사용되는 태스크로, 부정적인 → 긍정적인 문장 또는 그 반대로 변환하는 태스크
  • Yelp, Amazon 데이터셋이 유명
  • 두 데이터셋 모두 리뷰 데이터로 학습데이터는 positive(1), negative(0)와 같이 label만 있으나 테스트로는 병렬 데이터셋 제공
  • Yelp
Positive Negative
Ever since joes has changed hands it's gotten better and better. ever since joes has changed hands it 's just gotten worse and worse

  • Amazon
    • 병렬인 평가 데이터셋 1000 문장
Positive Negative
this is honestly the only case i've kept for so long. his is honestly the only case i ve thrown away in the garbage .



