조작적 조건화

조작적 조건화(操作的條件化, 영어: operant conditioning)는 행동주의 심리학의 이론으로, 어떤 반응에 대해 선택적으로 보상함으로써 그 반응이 일어날 확률을 증가시키거나 감소시키는 방법을 말한다.^[1] 여기서 선택적 보상이란 강화와 벌을 의미한다. 조작적 조건화는 작동적 조건화(作動的條件化), 도구적 조건화(道具的條件化, instrumental conditioning)라고도 한다.

고전적 조건화처럼 인간의 반사적 행동을 학습을 통하여 조건화하였듯이 반사적이지 않은 다른 행동들도 조건화할 수 있다는 것을 말한다. 이 이론은 심리학자인 버러스 스키너(Burrhus F. Skinner)에 의해 널리 알려졌는데, 그는 사전에 원했던 행동을 했을 때 그 대가로 체계적인 보상을 줌으로써 동물들에게 춤이나 재주, 탁구를 가르쳐서 조작적 조건화의 효과를 입증했다.^[2]

조작적 조건화는 특정 행동을 유도할 수 있기 때문에 마케팅과 광고에 많이 이용되고 있다.^[3]

반응행동과 조작행동

반응행동은 고전적 조건화에서 사용된 반응과 같이 자극에 의해 직접적으로 유발된 반응으로 침을 흘리는 행동이나 동공의 수축, 무릎 반사 등이 이에 속한다. 반면에 조작행동은 어떤 자극에 의해 일어나는 것이 아니라 스스로 일어나는 행동, 혹은 어떤 자극이 있었다고 하더라도 그것이 무엇인지 알 수 없었던 경우의 행동을 말한다. 스키너는 외부적 자극에 초점을 맞춘 고전적 조건화를 S(Stimulus)형 조건화라고 칭하면서 조작에 관심을 가진 조작적 조건화를 R(Response)형 조건화라고 구분하기도 했다.

즉, 조작행동은 어떤 유기체가 능동적으로 환경에 작용을 가하는 행동을 말한다. 조작행동으로 형성되는 조건을 조작적 조건화라고 하는데, 유기체가 행하는 조작행동은 결과에 따라 증가하기도 하고 감소하기도 한다. 이를 통해 어떤 반응을 증가시키거나 감소시키는 것이 조작적 조건화인 것이다.

스키너 상자

조작적 조건형성은 스키너 상자를 통해 실험되고 증명되었다. 스키너 상자는 빈 상자 안에 지렛대가 하나 들어 있으며, 이 지렛대는 먹이통과 연결되어 있어 지렛대를 누르면 먹이가 나오도록 되어 있다. 이 상자를 가지고 조작적 조건형성을 실험했는데, 그 과정은 다음과 같다.

배고픈 상태의 흰 쥐를 스키너 상자에 넣는다.
이렇게 배고픈 상태로 만드는 것을 박탈이라고 한다.
흰 쥐는 스키너 상자 안에서 돌아다니다가 우연히 지렛대를 누르게 된다.
지렛대를 누르자 먹이가 나온다.
지렛대와 먹이 간의 상관관계를 알지 못하는 쥐는 다시 상자 안을 돌아다닌다.
다시 우연히 지렛대를 누른 흰 쥐는 또 먹이가 나오는 것을 보고 지렛대를 누르는 행동을 자주 하게 된다.
이러한 과정이 반복되면서 흰 쥐는 지렛대를 누르면 먹이가 나온다는 사실을 학습하게 된다.

위의 실험에서 흰 쥐가 지렛대를 누르는 행동은 먹이에 의해 강화된 것이다. 만약 지렛대를 눌렀을 때 먹이가 나오지 않았다면 지렛대를 누르는 행동을 학습하지 못했을 것이다. 이렇게 어떤 행동을 한 뒤에 유기체가 원하는 것을 제공하는 것을 강화(Reinforcement)라고 한다. 고전적 조건화에서는 강화를 조건화의 과정에서 무조건자극(UnConditioned Stimulus)을 부여하는 것으로 명명했지만 조작적 조건화에서는 조건화의 과정에서 부여하는 보상을 의미하는 것으로 쓰는 것이다. 조작적 조건화가 이루어지기 위해서는 강화가 중요한 역할을 한다.

강화이론

스키너는 유기체가 어떤 행동을 한 결과가 스스로에게 유리하면 그 행동을 더 자주 하게 된다고 보았다(1953). 이때 그 행동의 결과로 주어진 것으로 행동의 빈도를 높이는 자극을 강화인(Reinforcer)이라고 하는데(Chance,1999), 이런 강화인은 일차적 강화인과 이차적 강화인으로 나누어 볼 수 있다.

먼저 일차적 강화인(Primary Reinforcer)은 유기체의 행동을 직접적으로 증가시킬 수 있는 강화인이다. 예를 들면 음식이나 물과 같은 것이 되겠는데, 당장 배고픈 유기체에게 음식으로 만족을 주는 것으로써 바로 다음 행동을 증가시킬 수 있다. 반면에 이차적 강화인(Secondary Reinforcer)은 유기체의 행동을 바로 증가시키지 못한다. 하지만 일차적 강화인과 연합하여 행동을 증가시킬 수 있는데, 쿠폰이나 토큰 등이 이에 해당한다. 즉, 쿠폰이나 토큰으로도 유기체를 강화할 수 있지만 그것은 유기체를 직접 강화하는 것이 아니라 일차적 강화인과 교환할 수 있기 때문에 강화가 가능하다는 것이다.

이차적 강화인으로써 가장 대표적인 것이 돈이다. 돈은 여러 종류의 일차적 강화인과 교환할 수 있기 때문에 일반화된 강화인이라고 부르기도 한다.

정적강화와 부적강화

강화는 어떤 행동을 한 뒤에 유기체가 원하는 자극을 제공하여 행동의 빈도수를 높이는 것을 말한다. 하지만 선호자극의 제공 뿐 아니라 혐오자극의 제거로도 유기체를 강화시킬 수 있는데, 선호자극의 제공으로 행동의 빈도수를 높이는 강화를 정적강화라고 하고 혐오자극의 제거로 행동의 빈도수를 높이는 강화를 부적강화라고 한다.

정적강화(Positive Reinforcement)는 선호자극의 제공으로 유기체를 강화시킨다. 교사가 학생들의 발표를 유도하기 위해 발표를 할 때마다 추가점수를 제공하거나 사탕을 하나씩 주는 것은 정적강화의 예가 되는데, 여기서는 발표라는 행동의 빈도수를 높이기 위해 추가점수나 사탕이라는 선호자극을 제공함으로써 학생을 강화시킨 것이 된다.

반면에 부적강화(Negative Reinforcement)는 혐오자극의 제거로 유기체를 강화시키는 것을 말한다. 부적강화도 정적강화처럼 결과적으로 유기체가 유리하다고 느끼게끔 하는 것이지만 선호자극을 제공하지 않고 혐오자극을 제거하는 것으로 강화한다는 점에서 차이가 있다. 화장실 청소를 하도록 되어 있는 아이에게 '오늘 수업에 열심히 참여하면 화장실 청소를 하지 않아도 좋다'라고 이야기하여 아이가 수업에 열심히 참여하였다면, 화장실 청소라는 혐오자극을 제거함으로써 수업에 열심히 참여하는 행동을 증가시킨 것이 된다.

강화 스케줄

계속적 강화(연속 강화) : 바람직한 행동이 나타날 때마다 지속적으로 강화하는 것
간헐적 강화(부분 강화) : 바람직한 행동이 나타났을 때 주기적 또는 평균적으로 강화하는 것이다.
- 간헐적 강화에는 시간 간격에 따라 강화하는 간격(interval)강화와 반응 횟수에 따라 강화하는 비율(ratio)강화가 있다.
- 간격강화와 비율강화 각각에는 고정적(fixed) 강화와 변동적(variable) 강화가 있다.

고정간격(fixed interval,FI)

변동간격(variable interval,VI)

고정비율(fixed ratio,FR)

변동비율(variable ratio,VR)

정적 처벌과 부적 처벌

조작적 조건화에서는 단지 유기체가 하는 행동의 빈도를 증가시키는 것만을 이야기하지는 않는다. 어떤 행동을 수정하기 위해서는 특정 행동의 빈도를 감소시킬 필요가 있는데, 이때 혐오자극을 제공하거나 선호자극을 제거함으로써 행동의 빈도수를 감소시킨다(Chance, 1999). 이렇게 행동의 빈도를 증가시키는 강화와 대별되는 것이 약화(벌)이다.

벌은 유기체의 행동의 결과로 어떤 선호자극을 제거하거나 혐오자극을 제공하는 것을 의미한다. 특히 혐오자극을 제공하는 것을 수여성 벌이라고 하는데, 수여성 벌의 대표적인 예로 체벌을 들 수 있다. 학생이 바람직하지 못한 행동을 했을 때 교사가 체벌을 가함으로써 그 행동을 더 이상 하지 않게 만드는 것이다.

반면에 선호자극을 제거하는 벌은 박탈성 벌이라고 한다. 박탈성 벌은 그동안 받아오던 강화인을 제거한다는 말과 같다. 박탈성 벌의 대표적인 예로 '타임아웃'(Time out)이 있다. 타임아웃은 어떤 학생이 교실을 시끄럽게 하는 경우, 그 학생을 일시적으로 교실 밖으로 추방하는 것이다. 편하게 교실에서 앉아 공부할 기회와 친구들과 함께 있을 기회를 박탈당하는 것은 직접적인 혐오자극을 부여하는 것이 아니라 선호자극을 제거하는 박탈성 벌에 해당한다.

자극(이익과 불이익)의 정적 , 부적 강화 및 처벌^[4]^[5]

항목	정적(적극적)	부적(소극적)
강화	이익의 제공	불이익의 회수
약화(처벌)	불이익의 제공	이익의 회수

처벌을 적용할 때 주의해야 하는 점

처벌을 적용할 때 주의해야 하는 점은, 유기체가 스스로 바람직하지 않다고 여기는 행동을 했는데에도 불구하고 처벌을 제공하지 않는다면 유기체는 그 행동이 틀린 행동이 아닐 수 있다고 믿는다는 것이다. 처벌에는 이와 같은 부작용이 가능한데, 가장 대표적인 부작용은 처벌을 받은 유기체는 다른 유기체에게 공격적인 행동을 자주 보인다는 것이다.^[6] 혹은 부정적인 정서반응과 거짓말, 변명 등의 회피반응을 보이기도 한다.^[7] 이러한 처벌의 부작용의 다양한 측면으로부터 처벌의 문제점이 지적된다.

하지만 불가피한 상황이라면 다음을 고려해야 한다.^[8]^[9]^[10]^[11]

처벌의 강도는 강할수록 그리고 즉각적으로 제공할수록 바람직하지 못한 행동의 인식이 보다 분명하다는 점에서 그 필요성이 제기된다. 그러나 주어지던 벌이 없으면 부적강화로 여길 가능성이 있다는 점에서 문제 행동이 일어날 때마다 처벌을 제공해야 한다는 부수적인 문제점을 발생시키며 또한 행위와 처벌간에 객관적이고 합리적인 타당성이 강해야한다는 점은 처벌이 목적하는 행동의 감소를 위한 필요충분조건이 아니다는 것이 대부분 심리학자들의 관점이다. 따라서 바람직하지 못한 행동은 벌을 제공하기보다는 또는 제공하더라도 대안적 행동을 확실히 제시하고 선택의 필요성을 중립적으로 제안해야 한다.

또한 처벌은 '문제 행동이 일어날 때마다 처벌을 제공해야 한다. 주어지던 벌이 없으면 부적강화로 여길 가능성이 있다.'라는 처벌계획에서처럼 문제행동과 그에대한 처벌은 제공자(처벌자)와 처벌받는 이와의 관계에서 관심이라는 자극과 반응이 강화되고있을수있다는 또다른 측면에서처럼 처벌계획이 왜곡될경우 부정적으로 노출될수있다는점에서 안정적이지않다는 견해가 있다. 따라서 처벌과 보상을 동시에 사용하는 것이 처벌만을 사용하는 것보다는 유의미할 수 있다.

프리맥 원리

프리맥(Premack,1962)은 물질적 자극이 아닌 스스로의 행동도 강화인 역할을 할 수 있음을 알게 되었다. 프리맥에 의하면 유기체가 자주 하는 행동은 잘 하지 않는 행동을 증가시키기 위한 강화인으로 사용될 수 있다. 쉽게 예를 들자면 컴퓨터게임을 좋아하는 아이에게 일정한 양의 수학문제를 풀게 한 뒤에 컴퓨터게임을 하도록 허락하는 것이다. 이렇게 되면 컴퓨터게임은 수학문제를 풀게 하기 위한 강화인으로써 작용하게 되는 것이다.

그러나 컴퓨터게임을 먼저 한 뒤 수학공부를 시키면 효과가 없다. 프리맥 원리의 강화인은 어떤 긍정적 행동을 한 뒤에 제공해야 바른 효과를 얻을 수 있다.

같이 보기

참고 자료

(이철원. (1997). 처벌과 보상이 충동성집단의 문제해결과제 수행에 미치는 영향. Korean Journal of Clinical Psychology , 16(1), 75-86.) http://www.dbpia.co.kr/Journal/articleDetail?nodeId=NODE06370753#none

각주

↑ 박준성 <내 생애의 첫 심리학> 메이트북스 2021년 p117
↑ [네이버 지식백과] 조작적 조건화 이론 (광고 핵심 이론, 2013. 2. 25., 이명천, 김요한)
↑ 박준성 <내 생애의 첫 심리학> 메이트북스 2021년 p119
↑ [참고](최신정, 이계훈, 문광수, 오세진. (2014). 정적강화와 부적강화가 고객 서비스 행동에 미치는 상대적 효과. 한국콘텐츠학회논문지, 14(1), 423-434.)https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE02349012&language=ko_KR
↑ (자녀가 지각한 부모의 긍정적 강화가 비언어적 행동에 대한 민감성에 미치는 영향,한국상담학회Vol.7 No.2 [2006])http://www.riss.kr/link?id=A99779870
↑ (Chance,1999)
↑ (Sternberg&Williams,2002)
↑ [참고](김영채,2001)
↑ Temporal relationship between response and punishment. Camp, David S.,Raymond, George A.,Church, Russell M. 1967 Journal of Experimental Psychology, 74(1), 114–123) https://doi.org/10.1037/h0024518
↑ (Timeout punishment: Rate of reinforcement and delay of timeout -John G. Carlson University of Hawaii USA Received 13 November 1970, Available online 27 August 2004) https://doi.org/10.1016/0023-9690(72)90045-8
↑ (ATTACK, AVOIDANCE, AND ESCAPE REACTIONS TO AVERSIVE SHOCK , N. H. Azrin , R. R. Hutchinson , D. F. Hake -First published:March 1967) https://doi.org/10.1901/jeab.1967.10-131

외부 링크

[1] 박준성 <내 생애의 첫 심리학> 메이트북스 2021년 p117

[2] [네이버 지식백과] 조작적 조건화 이론 (광고 핵심 이론, 2013. 2. 25., 이명천, 김요한)

[3] 박준성 <내 생애의 첫 심리학> 메이트북스 2021년 p119

[4] [참고](최신정, 이계훈, 문광수, 오세진. (2014). 정적강화와 부적강화가 고객 서비스 행동에 미치는 상대적 효과. 한국콘텐츠학회논문지, 14(1), 423-434.)https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE02349012&language=ko_KR

[5] (자녀가 지각한 부모의 긍정적 강화가 비언어적 행동에 대한 민감성에 미치는 영향,한국상담학회Vol.7 No.2 [2006])http://www.riss.kr/link?id=A99779870

[6] (Chance,1999)

[7] (Sternberg&Williams,2002)

[8] [참고](김영채,2001)

[9] Temporal relationship between response and punishment. Camp, David S.,Raymond, George A.,Church, Russell M. 1967 Journal of Experimental Psychology, 74(1), 114–123) https://doi.org/10.1037/h0024518

[10] (Timeout punishment: Rate of reinforcement and delay of timeout -John G. Carlson University of Hawaii USA Received 13 November 1970, Available online 27 August 2004) https://doi.org/10.1016/0023-9690(72)90045-8

[11] (ATTACK, AVOIDANCE, AND ESCAPE REACTIONS TO AVERSIVE SHOCK , N. H. Azrin , R. R. Hutchinson , D. F. Hake -First published:March 1967) https://doi.org/10.1901/jeab.1967.10-131

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]