원문 : https://huggingface.co/blog/open-deep-research
날짜 : 2025.2.4
서론
최근 OpenAI에서 Deep Research를 출시했습니다. Deep Research는 웹 검색을 통해 더 정확한 답변을 할 수 있는 기능입니다. GAIA 벤치마크 데이터셋으로 테스트했을 때 Deep Research의 성능은 1-shot 평균으로 67%를 달성했다고 합니다. 가장 어려운 문제인 Level3는 47.6%의 평균 성능을 보였습니다. 아래 이미지에서 원색 막대 그래프가 웹 검색을 활용한 LLM의 성능이고, 빗금 막대 그래프가 LLM만 이용한 결과입니다. 한마디로 웹 검색을 기반으로 하니 LLM 성능이 좋아지더라는 것입니다.
구성 요소
Code Agent
컬럼 필진은 오픈 소스를 이용해서도 Deep Research 같은 웹 검색 기반 LLM 시스템을 구현할 수 있는지 실험했습니다. 이러한 시스템을 AgentFramework라고 하겠습니다. AgentFramework에서 가장 중요한 요소 중 하나는 CodeAgent입니다. ChainOfThoughts를 굉장히 효율적으로 처리하는 방법입니다. 아래 예시는 스마트폰을 싸게 살 수 있는 나라를 물어보고 있습니다. LLM은 나라별 스마트폰 가격을 조사해야겠다고 생각(Think)하죠. 기존에 Text/Json 기반으로 Agent를 실행할 때는 나라별로 여러번 Action을 수행해야 했습니다. 하지만 반복문을 이용하는 코드 Script를 작성하도록 한다면 Action을 한번만 수행하면 됩니다. Wang et al. (2024) 논문에서는 Code Action을 이용하면 평균적으로 Action Step이 평균적으로 30% 더 적어진다고 밝혔습니다. 레이턴시가 짧아질 뿐더러 비용도 절약할 수 있겠죠.
Web Browser
OpenAI에서는 웹 브라우저 Agent로 Operator 를 제공하고 있습니다. 하지만 필진의 목표가 오픈소스로 시스템을 구현하는 것이기 때문에 다른 오픈소스 웹 브라우저가 필요한데요. 필진들이 직접 개발한 Agent 개발 프레임워크인 smolagent에 간단한 웹브라우저를 구현했습니다.
Text Inspector
pdf, docx 등 포멧으로 되어 있는 텍스트 파일을 읽기 위해서는 Text Inspector가 필요합니다. Web Browser와 마찬가지로 smolagent 라이브러리에 Text Inspector를 구현했습니다. 필진이 밝히기를 마이크로소프트의 Magentic-One agent를 차용해서 크게 바꾸지 않고 구현했다고 합니다. Text 뿐만 아니라 이미지 검색을 위한 Agent도 구현했다고 하네요.
결론
이렇게 간단한 오픈소스로 구현했음에도 GAIA Validation 리더보드에서 평균 점수 55.15%를 달성해 3위에 올랐네요. (참고로 LLM은 OpenAI의 o1 모델을 이용했습니다.) 추가로 Code Action을 사용하지 않았을 때는 성능이 33%까지 떨어졌다고 하니, Code Agent가 단순히 비용 효율에만 이점이 있을 뿐만 아니라 정확도 개선에도 큰 역할을 했습니다.
개인적인 의견으로는 완전한 오픈소스로 구현한다면 LLM 모델까지 DeepSeek처럼 오픈소스로 바꾸면 성능이 어떨지 궁금합니다.
'AI > 자연어' 카테고리의 다른 글
오픈 소스를 활용한 RAG 구현 (0) | 2024.01.16 |
---|---|
[세미나 리뷰] RAG : Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (0) | 2024.01.12 |