본문 바로가기

딥러닝논문리뷰

[논문리뷰] Style-Specific Neurons for Steering LLMs in Text Style Transfer LLM(Large Language Model)을 이용한 TST(Text Style Transfer)에서 스타일 특정 뉴런을 활용하는 방법 sNeuron-TST 제안출력 문장의 스타일 다양성과 유창성(fluency)을 높이기 위해 source 및 target 스타일과 관련된 뉴런을 식별source 스타일 전용 뉴런을 비활성화 → target 스타일 단어의 확률을 높이는 전략 사용이로 인한 fluency 저하 문제를 해결하기 위해 개선된 contrative decoding 방법 제안IntroductionTST의 목표는 문장의 의미는 유지하면서 원본 스타일에서 목표 스타일로 변환하여 문장을 생성하는 것LLM이 TST를 포함하여 다양한 NLP 태스크에서 예외적으로 높은 성능을 보임그러나 LLM은 스타일을 변환하.. 더보기
[논문리뷰 ] Dialogue Chain-of-Thought Distillation for Commonsense-aware Conversational Agents(DOCTOR) 최근에 상식 추론에 관해서 연구를 진행하고 있으며, 그 과정에서 CoT와 Distillation method에 대해 조사하는 중paper: https://arxiv.org/pdf/2310.09343github: https://github.com/kyle8581/DialogueCoT챗봇은 사람처럼 자연스럽게 대화하기 위해서 일반 상식 추론 사용 필요일반 상식에 대한 추론 능력으로 대화에 산재되어 있는 암묵적인 정보를 이해하고 응답하는 데 사용 가능그러나 LLM에서도 single hop에서 나타나는 key evidence를 통합하고 구별하는 태스크는 챌린지따라서 대화에서 multi-hop reasoning(CoT)을 가능하게 하는데 집중제안 방법은 Knowledge Distillation Framework:.. 더보기