LegalHalluLens: Typed Hallucination Auditing and Calibrated Multi-Agent Debate for Trustworthy Legal AI

Paper ID: 2606.18021 • 1 Upvotes

Multi-Agent Hallucination Legal-AI Evaluation Agent RAG

LegalHalluLens: Typed Hallucination Auditing and Calibrated Multi-Agent Debate for Trustworthy Legal AI

📝 핵심 요약

법률 AI의 환각(Hallucination)을 유형별로 분석하고, 이를 기반으로 정밀한 멀티 에이전트 토론을 수행하여 신뢰성을 높이는 감사 프레임워크

📖 상세 내용

법률 워크플로우에 도입된 AI의 환각율은 높지만, 기존의 통합 지표는 오류의 구체적인 유형이나 방향성을 파악하기 어려워 실무적 대응이 불가능합니다. 이를 해결하기 위해 본 논문은 LegalHalluLens 프레임워크를 제안합니다. 이 프레임워크는 법률적 맥락에 맞춘 4가지 유형별 환각 프로파일링, 누락과 허위 생성 편향을 관리하는 RDI(Risk Direction Index), 그리고 유형별로 보정된 멀티 에이전트 토론 파이프라인을 포함합니다. 실험 결과, 통합 지표에 가려졌던 유형별 오류 차이를 식별하였으며, 제안된 토론 파이프라인은 적은 파라미터로도 상용 API 수준의 성능을 보였습니다. 결과적으로 이 프레임십은 법률 AI의 투명한 감사와 신뢰할 수 있는 에이전트 설계를 지원합니다.

🔑 주요 내용 (Key Points)

법률 특화 4대 유형(수치, 시간, 의무/권리, 사실) 기반의 환각 프로파일링 기술
누락과 허위 생성 사이의 편향을 단일 스칼라로 관리하는 RDI(Risk Direction Index) 도입
측정된 오류 유형에 따라 Skeptic(회의론자)과 비대칭 게이트를 적용하는 정밀 멀티 에이전트 토론

💡 실무적 가치 (Relevance)

단순히 '정확도'라는 지표에 의존하지 않고, 법률 도메인에서 치명적인 특정 오류 유형을 식별하고 이를 에이전트 로직에 반영하는 실무적 방법론을 제시합니다.

✅ 추천 액션 (Actionable Items)

도메인 특화 데이터셋(예: 계약서)을 활용한 유형별 오류 분석 파이프라인 구축
단순 토론이 아닌, 특정 오류 유형을 타겟팅하는 'Skeptic' 에이전트 역할 정의 실험
모델의 성능 지표를 RDI와 같은 방향성 지표로 변환하여 평가 체계 구축

View on Hugging Face View PDF (arXiv)