EMNLP1 [논문 리뷰] Compressing Context to Enhance Inference Efficiency of Large Language Models LLM의 추론 효율을 높이기 위한 Context 압축 기법, Selective Context에 대한 논문 리뷰를 시작하겠다.이 논문은 LLM이 긴 Context를 처리할 때 발생하는 메모리·속도 문제를 해결하기 위해, 입력 Context에서 중복된(redundant) 내용을 자동으로 제거하는 방법을 제안한다.Motivation (왜 이 연구가 필요한가?)요즘 LLM을 활용할 때 RAG(Retrieval-Augmented Generation) 를 많이 사용한다.RAG : 모델이 학습하지 않은 정보를 Context로 주어 Hallucination(환각)을 줄이는 방식그런데 만약 이 Context가 점점 길어진다면 어떻게 될까?문제 1 : 메모리와 속도 Transformer 기반 LLM은 Self-Attent.. 2026. 3. 25. 이전 1 다음