본문 바로가기

자연어처리

[논문리뷰] Style-Specific Neurons for Steering LLMs in Text Style Transfer LLM(Large Language Model)을 이용한 TST(Text Style Transfer)에서 스타일 특정 뉴런을 활용하는 방법 sNeuron-TST 제안출력 문장의 스타일 다양성과 유창성(fluency)을 높이기 위해 source 및 target 스타일과 관련된 뉴런을 식별source 스타일 전용 뉴런을 비활성화 → target 스타일 단어의 확률을 높이는 전략 사용이로 인한 fluency 저하 문제를 해결하기 위해 개선된 contrative decoding 방법 제안IntroductionTST의 목표는 문장의 의미는 유지하면서 원본 스타일에서 목표 스타일로 변환하여 문장을 생성하는 것LLM이 TST를 포함하여 다양한 NLP 태스크에서 예외적으로 높은 성능을 보임그러나 LLM은 스타일을 변환하.. 더보기
[논문리뷰] Delete, Retrieve, Generate: A Simple Approach to Sentiment and Style Tran 논문: https://arxiv.org/pdf/1804.06437소스코드: https://github.com/lijuncen/Sentiment-and-Style-Transfer2018년도에 나온 RNN을 사용한 꽤나 오래된 논문요즘 관심을 가지는 검색과 결합한 스타일 변환 논문이라서 읽어봄 Abstract텍스트 스타일 변환은 문장의 특정 속성(e.g., 감정)을 바꾸는 동시에 속성과 무관한 내용은 유지하는 작업저자는 이전 연구에서 사용된 적대적 학습이 고품질 결과 생성에 어려움이 있음을 지적텍스트 속성이 종종 독특한 구절로 표시된다는 관찰에 기반하여 더 간단한 방법 제안효과적인 방법으로 원래 문장의 속성과 관련된 구절 삭제 → 목표 속성 관련 구절 검색 → RNN으로 결합 → 생성실험 결과, 이 방법은 .. 더보기
[논문리뷰] Politeness Transfer: A Tag and Generate Approach 논문: https://arxiv.org/pdf/2004.14257소스코드: https://github.com/tag-and-generate/이 논문은 문장의 의미를 유지하면서 공손하지 않은 문장을 공손한 문장으로 변환하는 태스크 수행이를 위해 공손한 정도를 자동으로 라벨링한 139만 개 이상의 문장으로 된 데이터셋 공개공손 변환을 포함하여 여섯 가지 스타일 변환 태스크에 대해 "Tag and Generate" 파이프라인 설계이 파이프라인은 tagger와 generator라는 두 가지 모듈로 구성tagger: 원본 스타일의 단어나 구를 식별하여 [TAG] 토큰으로 대체generator: tagger의 출력을 입력으로 받아 대상 스타일의 문장 생성기존에 입력 문장에 대하여 수정이 필요한 부분을 guide하기.. 더보기
Text Style Transfer 텍스트 스타일 변환 데이터셋 조사 Tasksinformal → formaltoxic → neutraldemocratic → republican(분석 중)impolite → polite(분석 중)shakespeare → modernpositive → negative 병렬 데이터셋이 아닌데 대체 뭘로 학습을 하고, 평가를 했다는 거지? 의문이 드는 데이터셋은 아직 찾는 중..informal → formal 비공식적인 언어로 작성된 문장을 공식적인 언어로 다시 작성하는 태스크주로 병렬 데이터셋인 GYAFC (Grammarly’s Yahoo Answers Formality Corpus) 데이터셋을 사용총 110,000개의 비공식/공식 문장 쌍을 포함Yahoo Answers는 질문 답변 포럼으로, 많은 수의 비공식 문장을 포함5단어보다 짧거나 2.. 더보기
[논문리뷰 ] Dialogue Chain-of-Thought Distillation for Commonsense-aware Conversational Agents(DOCTOR) 최근에 상식 추론에 관해서 연구를 진행하고 있으며, 그 과정에서 CoT와 Distillation method에 대해 조사하는 중paper: https://arxiv.org/pdf/2310.09343github: https://github.com/kyle8581/DialogueCoT챗봇은 사람처럼 자연스럽게 대화하기 위해서 일반 상식 추론 사용 필요일반 상식에 대한 추론 능력으로 대화에 산재되어 있는 암묵적인 정보를 이해하고 응답하는 데 사용 가능그러나 LLM에서도 single hop에서 나타나는 key evidence를 통합하고 구별하는 태스크는 챌린지따라서 대화에서 multi-hop reasoning(CoT)을 가능하게 하는데 집중제안 방법은 Knowledge Distillation Framework:.. 더보기