AI 정렬

AI 시스템을 인간이 의도한 목표, 선호, 윤리 원칙에 맞게 조정하는 것

AI 정렬(AI alignment) 연구는 인공지능(AI) 분야에서 AI 시스템을 인간이 의도한 목표, 선호도 또는 윤리적 원칙에 맞게 조정하는 것을 목표로 한다. AI 시스템은 의도한 목표를 달성하면 정렬된 것으로 간주된다. 잘못 정렬된 AI 시스템은 일부 목표를 추구하지만 의도한 목표는 추구하지 않는다.

AI 디자이너가 AI 시스템을 조정하는 것은 원하는 동작과 원하지 않는 동작의 전체 범위를 지정하는 것이 어려울 수 있기 때문에 어려울 수 있다. 이러한 어려움을 피하기 위해 그들은 일반적으로 사람의 승인을 얻는 것과 같은 더 간단한 프록시 목표를 사용한다. 그러나 이 접근 방식은 허점을 만들거나, 필요한 제약 조건을 간과하거나, 정렬된 것처럼 보이는 AI 시스템에 보상을 줄 수 있다.

잘못 정렬된 AI 시스템은 오작동하거나 해를 끼칠 수 있다. AI 시스템은 프록시 목표를 효율적으로 달성할 수 있지만 의도하지 않은, 때로는 유해한 방식(보상 해킹)으로 달성할 수 있는 허점을 찾을 수 있다. AI 시스템은 또한 주어진 목표를 달성하는 데 도움이 되기 때문에 권력 추구나 생존과 같은 원치 않는 도구적 전략을 개발할 수도 있다. 또한 시스템이 배포되기 전에는 감지하기 어려울 수 있는 바람직하지 않은 긴급 목표를 개발하여 새로운 상황과 데이터 배포에 직면할 수도 있다.

오늘날 이러한 문제는 언어 모델, 로봇, 자율주행차, 소셜 미디어 추천 엔진과 같은 기존 상용 시스템에 영향을 미친다. 일부 AI 연구자들은 이러한 문제가 부분적으로 시스템의 높은 성능으로 인해 발생하기 때문에 더 많은 성능을 갖춘 미래 시스템이 더 심각한 영향을 받을 것이라고 주장한다.

제프리 힌턴, 스튜어트 러셀 등 많은 선도적인 AI 과학자들은 AI가 초인적인 능력에 접근하고 있으며 잘못 정렬될 경우 인류 문명을 위험에 빠뜨릴 수 있다고 주장한다.

AI 정렬은 AI 안전의 하위 분야로, 안전한 AI 시스템을 구축하는 방법을 연구한다. AI 안전의 다른 하위 필드에는 견고성, 모니터링 및 기능 제어가 포함된다. 조정에 따른 연구 과제에는 AI에 복잡한 가치 주입, 기만적인 AI 방지, 확장 가능한 감독, AI 모델 감사 및 해석, 권력 추구와 같은 긴급 AI 행동 방지 등이 포함된다. 정렬 연구는 해석 가능성 연구, (적대적) 견고성, 이상 탐지, 보정된 불확실성, 형식 검증, 선호도 학습, 안전에 중요한 공학, 게임 이론, 알고리즘 공정성, 사회 과학 등과 관련이 있다.

같이 보기

편집