Local Deep Research
로컬에서 나만의 연구 조수 운영하기
About
- 강력한 AI 기반 연구 도구, 여러 LLM과 웹 검색을 사용해 깊이 있는 반복 분석을 수행
- ArXiv, Wikipedia, Google, PubMed, DuckDuckGo, SerpAPI, 로컬 RAG, The Guardian 등의 검색 기능을 통합
고급 연구 기능
- 자동화된 심층 연구: 지능적인 후속 질문 생성
- 출처 추적 및 검증: 인용 및 출처 자동 추적
- 반복 분석: 다단계 반복 분석으로 포괄적 커버리지 제공
- 전체 웹페이지 콘텐츠 분석: 스니펫이 아닌 전체 콘텐츠 기반 분석
유연한 LLM 지원
- 로컬 모델 지원: Ollama 기반의 로컬 AI 처리
- 클라우드 모델 지원: Claude, GPT 등 클라우드 LLM 지원
- Langchain 모델 호환: 다양한 Langchain 모델 지원
- 모델 선택 가능: 성능, 응답 속도 등에 따라 모델 설정 가능
풍부한 출력 옵션
- 상세 연구 결과: 인용 포함된 상세한 보고서 제공
- 종합 연구 보고서: 포괄적인 연구 결과 제공
- 빠른 요약: 핵심 내용 요약 가능
- 출처 추적 및 검증: 출처 추적 및 검증 지원
프라이버시 중심 설계
- 로컬 실행 가능: 로컬 모델 사용 시 모든 데이터가 사용자 기기에 저장됨
- 검색 설정 가능: 개인정보 보호 강화
- 투명한 데이터 처리: 데이터 처리 방식 명확하게 공개
향상된 검색 통합
- 자동 검색 엔진 선택: 검색 엔진을 쿼리 내용에 따라 자동 선택
- Wikipedia 통합: 신뢰할 수 있는 사실 검색
- arXiv 통합: 과학 논문 및 학술 연구 검색
- PubMed 통합: 의학 및 생물 의학 연구 자료 검색
- DuckDuckGo 통합: 일반 웹 검색 (속도 제한 가능)
- SerpAPI 통합: 구글 검색 결과 제공 (API 키 필요)
- Google Programmable Search: 사용자 정의 검색 설정 (API 키 필요)
- The Guardian 통합: 뉴스 및 저널리즘 콘텐츠 검색 (API 키 필요)
- 로컬 RAG 검색: 개인 문서 검색 가능 (벡터 임베딩 사용)
- 전체 웹페이지 콘텐츠 검색: 웹페이지 전체 내용 검색 가능
- 출처 필터링 및 검증: 신뢰할 수 있는 출처로 필터링 가능
- 검색 매개변수 설정 가능: 검색 범위, 기간 등 설정 가능
로컬 문서 검색 (RAG)
- 벡터 임베딩 기반 검색: 개인 문서에서 내용 검색 가능
- 사용자 정의 문서 컬렉션 생성: 주제별로 문서 그룹화 가능
- 프라이버시 보호: 모든 문서는 로컬에서 처리됨
- 지능적 청킹 및 검색: 문서 내용을 청킹 및 검색
- 다양한 문서 형식 호환: PDF, 텍스트, Markdown 등 지원
- 통합 메타 검색 자동 적용: 로컬 및 웹 검색 통합 가능
웹 인터페이스
- 대시보드 제공: 직관적인 인터페이스
- 실시간 진행 상황 업데이트: 연구 진행 상태 실시간 제공
- 연구 이력 관리: 이전 연구 기록 접근 및 관리 가능
- PDF 보고서 내보내기: 연구 보고서 PDF로 다운로드 가능
- 연구 관리: 진행 중인 연구 중단 또는 삭제 가능
지원 검색 엔진 옵션
- Auto: 쿼리에 따라 자동 엔진 선택
- Wikipedia: 일반 정보 및 사실 검색에 적합
- arXiv: 과학 및 학술 논문 검색에 적합
- PubMed: 생물 의학 및 의학 연구에 적합
- DuckDuckGo: 개인 정보 보호 중심의 일반 웹 검색
- The Guardian: 뉴스 및 저널리즘 검색 (API 키 필요)
- SerpAPI: 구글 검색 결과 제공 (API 키 필요)
- Google Programmable Search: 사용자 정의 검색 (API 키 필요)
Hacker News 의견
- Local Deep Research – ArXiv, wiki and other searches included | Hacker News
- 지역적(로컬)이고 저해상도(로파이)인 공간을 위한 노력에 박수를 보냄. 그러나 문서의 예시를 읽어보니 결과물이 다소 혼란스러운 느낌임
- 중간 단계가 하나 이상 필요하다고 생각함. 예를 들어, 그래프 데이터베이스를 사용하여 LLM이 정보를 저장하고 상호 연결성을 확인하며 스스로 질문을 던져 최종 보고서를 생성할 수 있음
- 최종 보고서는 사용자가 질문하거나 직접 편집할 수 있는 인터랙티브 HTML 파일이 될 수 있음
- Onyx라는 유사한 오픈 딥 리서치 도구가 있으며, UI/UX가 더 나은 것 같음. 저자가 이 도구를 로컬로 포팅하는 것을 고려할 수 있음
- 이 프로젝트가 좋지 않다는 것이 아니라, 많은 오픈 딥 리서치 프로젝트가 사라질까 걱정됨. 사람들이 가장 관심 있는 부분에 집중하여 협력하는 것이 더 나을 것임
- 인터넷을 소스로 임베딩을 추가하고 싶다면 exa.ai를 시도해보길 권장함. Wikipedia, 수천 개의 뉴스 피드, Github, 7천만 개 이상의 논문을 포함함
- 참고: 나는 창립자 중 한 명임
- 웹 검색과 문서 임베딩 방법이 있지만, 결과가 임베딩에서 세부 사항이 손실되어 미흡함. 이 방법이 더 나은지 궁금함
- 최근에 RAG를 위해 큐레이션된 구조화된 정보를 사용하여 사전 처리된 로컬 컬렉션이 이 동적 검색 접근 방식에 좋은 보완이 될 수 있다고 생각함
- LangChain을 사용한 것을 보았으며, txtai를 확인해볼 가치가 있음
- 현재 OpenAI의 딥 리서치에서 자주 발생하는 실패 모드는 낮은 권위의 출처에서 답을 가져와 과학 저널인 것처럼 참조를 제공하는 것임. 이런 출처는 가치 있는 내용을 거의 포함하지 않으며, 다른 출처가 고품질이어도 저품질 출처가 모든 것을 망침
- 이미 큐레이션한 콘텐츠(북마크)를 강조하면 신호 대 잡음비(SNR)를 크게 향상시킬 수 있음