글로벌 세계 대백과사전/교육/교육의 이론과 실제/교육의 측정과 평가/교육평가의 목적과 근본원리

글로벌 세계 대백과사전

교육평가의 목적

敎育評價－目的

교육평가가 어떤 목적을 가지며, 어떤 기능을 수행하고 있는가에 대해서는 시대의 변천과 사회의 차이에 따라 여러모로 생각되고 있다. 예를 들어 학력의 평가, 지식·적성의 검사, 성격·행동의 평가, 학교평가 등, 평가의 분야나 종류에 따라 다른 점이 있는데, 일반적으로 말해서 관리목적·지도목적·학습목적·연구목적을 생각할 수가 있다. 이 4가지 중의 어느 하나 혹은 둘 이상의 목적 밑에서 평가가 행하여지며, 이용되는 것이다.

관리목적의 교육평가

管理目的－敎育評價

예를 들어 고교·대학의 입학선발을 목적으로 학력검사가 시행된다면, 조사서(調査書)에 중점을 두고 선발하는 경우에도 그 조사서에 기록하는 자료를 만들기 위해서는 역시 평가가 필요하다. 만일 그 평가가 신뢰할 수 없는 것이라고 한다면, 그에 의해 작성된 조사서도 신뢰할 수 없는 것이 되며, 그와 같은 조사서를 중시해서 입학선발을 한다는 것은 위험하기 짝이 없다. 따라서 내신서(內申書) 중시의 입학선발 방식에는 필연적으로 타당성·신뢰성이 있는 평가를 항상 그 학교에서 행하고 있다는 전제가 있어야 한다.

이상은 입학선발을 위한 평가의 이용이고, 공공단체나 사업체의 직원채용에도 이용되고 있다. 그런 곳에서도 중·고등학교나 대학에서의 조사서에만 의존하는 곳도 있겠지만, 대부분의 경우 기업체 독자적인 테스트·면접 등을 아울러 행하고 있다.

입학이건 취직이건, 요컨대 선발목적을 위한 평가의 이용은 교육평가의 역사로 보더라도 예부터 있어 온 일이다. 앞에서 말한 과거제도도 바로 이것으로, 매우 오래된 평가목적이다. 예를 들면, 오늘날의 고교입시 문제나 대학입시 문제 등은 여전히 중요한 평가의, 관리목적 이상의 문제이다. 이와 같이 선발목적의 평가는 낡고도 새로운 문제이다.

가격의 인정, 면허증의 수여에 있어서도 반드시 어떤 평가가 필요해진다 이것도 관리목적으로서의 평가이다.

또한 학교에서는 단위의 합부(合否) 인정, 진급결정의 필요성에서 평가가 요구된다. 능력별(能力別) 학급편성 및 어떤 아동을 특수학교에 넣는 것을 결정하기 위한 특수아동의 판별을 위해서도 평가가 요구된다. 이것들은 관리적 성격이 강한 평가이다.

더 나아가 통지표 작성이나 생활기록부의 작성을 위해서도 평가가 필요해지는데, 이것도 일부는 관리적인 성격을 가진 평가라고 할 수 있다. 이상과 같이 관리적 성격이 강한 평가의 일군(一群)이 존재하며, 이런 종류와 목적을 위한 평가는, 특히 부정확(不正確)하거나 불공평해서는 안 된다. 따라서 평가의 신뢰성이나 객관성 그 자체에 생명이 있다고 할 수 있다.

지도목적의 교육평가

指導目的－敎育評價

교사의 입장에서, 교사가 자기지도의 결과를 반성하고, 그 성공점과 실패점을 확인하여 이것을 배경으로 금후의 지도계획이나 지도법(指導法)을 수정하고 개선하는 데 평가를 이용하는, 그러한 평가목적이 있다. 좀더 분류해서 살펴보면 다음과 같은 평가도 이에 포함된다.

(1) 학습지도와 표리일체가 되어 그 효과를 높이는 데 쓰인다.

(2) 학생의 성격 행동·환경 등을 알아서 학생의 효과적인 도덕교육이나 생활지도에 이용한다.

(3) 교육계획·지도법, 혹은 교재·교구(敎具)의 유효성을 음미하고, 그 개선을 꾀한다.

(4) 학생의 개인차를 분명히 하고, 그 개성에 맞는 지도를 할 수 있게 돕는다.

(5) 특히 표준화검사 등에 의해 자기학교(自己學校)나 입학 후의 학생의 전국적인 성적수준을 알고, 학교의 업적에 일정한 수준을 유지함과 동시에, 교사 자신의 안심감(安心感)을 구한다.

학습목적의 교육평가

學習目的－敎育評價

지도목적이 교사 입장의 평가목적인 데 대해서 학습목적은 학생 입장에서 본 평가의 이용목적이며, 학생에게 자기 스스로 자기학습의 진보상황을 자기평가하도록 이용하는 것이다.

바둑·장기·탁구 등은 자기평가에 열심일 때에 가장 훌륭하게 이룰 수 있는 것인데, 그 때문에 테스트라든가 평가를 교사의 전유물(專有物)로 하지 않고 그 일부를 학생 자신에게 자기평가시켜서 양도(讓渡)하는 것이다. 그리고 평가가 갖는 장점(長點)을 교사를 매개로 하지 않고 학생 자신에게 직접 흡수시키는 것이다. 이를테면 수업시간에 적당히 질문을 던져 모든 학생에게 그 질문내용에 대해 과연 자신이 이해하고 있는가 아닌가, 알고 있었는데 잊어버렸는가를 확인하게 한다. 또한 답안은 정답(正答)에 ○표, 오답(誤答)에는 ×표를 붙여 반드시 돌려주어 한 문제 한 문제 자기검토를 하도록 명한다. 또한 계산·받아쓰기, 그 밖에 학생에게 채점시킬 수 있는 테스트를 자기채점을 하게 한다. 이와 같은 방법에 의해서 자기평가를 장려하고, 그리하여 평가를 학생 자신의 것으로 만들어 주는 것이다.

이와 같은 평가의 이용법에는 이른바 테스트주의의 폐단도 따르지 않고, 어떤 의미에서는 평가의 규준적(規準的) 용법이라고도 할 수 있다. 금후의 평가의 활용으로서는 가장 중시되어야 할 목적이다.

연구목적의 교육평가

硏究目的－敎育評價

연구목적 평가의 목적·기능은 평가가 교육의 실험연구에 이용될 수 있다는 점이다. 예컨대 A, B 2가지 지도법의 우열(優劣)을 결정하려고 할 때, 혹은 학교가 하나의 새로운 교육계획을 실시하여 그 효과를 얻고자 할 때 반드시 어떤 테스트나 관찰을 필요로 한다. 역사적으로 보더라도 미국의 '8년 연구(The Eight－year Study)'처럼 반드시 평가법(評價法)의 연구와 그에 대한 활용을 동시에 수반하고 있다. 이상과 같은 것이 교육평가의 목적이며, 이러한 목적을 위해서만 평가가 필요해지는 것이다.

교육평가의 근본원리

敎育評價－根本原理

교육평가의 기본원리에 관해서, '8년 연구'에 있어서 평가위원회(評價委員會)가 세운 근본가정(根本假定)을 참고로 하면서 다음에 열거해 보려고 한다. 이들 원리의 몇 가지는 앞에서도 논술한 바 있다.

(1) 교육계획은 그 교육계획의 목표가 어느 정도 현실적으로 달성되고 있는가를 찾아냄으로써 평가된다. 그리고 교육계획의 종국적(終局的)인 목표는 인간의 의식이나 행동형(行動型)의 변혁을 꾀하는 데 있는 이상, 교육평가는 이 같은 변화가 현실적으로 학생들의 신상에 어느 정도 일어나고 있는가를 분명히 하는 과정이 된다. 좀더 구체적으로 말하면, 학생이 얼마나 이해를 깊이 하고 지식을 더하고 있는가, 얼마나 기술을 신장하고 얼마나 올바른 사고방식을 지니게 되었는가, 민주적 태도는 얼마나 깊어졌는가, 예술적 경험은 어느 정도 얻고 있는가 하는 것 등을 분명히 하는 것이 평가이다.

(2) 인간의 행동은 매우 복잡하여, 이것을 단일개념(單一槪念)이나 차원(次元)을 가지고 적절하게 기술한다는 것은 어려운 일이다. 따라서, 학생들 업적의 어느 부분을 평가하는 데 있어서도 단일위상(單一位相)이나 차원에 관한 단일의 측정결과(득점)를 자료로 하여 이것을 행하기는 불가능하다. 그러므로 분석된 여러 방면의 위상에 대한 다각적인 자료, 더 나아가서는 계속적으로 여러 개의 시점(時點)에서 구하여진 자료에 의거하여 평가되어야만 한다.

(3) 평가는 통일체로서의 인간을 중심으로 통합적으로 행해져야만 한다. 학생이 자기행동의 유형(pattern)을 형성하여 가는 그 과정이야말로 중요한 평가목표이다. 자칫하면 평가가 학생의 지식·기능·사고방식·태도·흥미 등 행동의 각 방면을 개별적으로 평가하는 데 그치고, 이들을 서로 연관시키려는 노력이 결여되기 쉽다. 그렇게 하면 통일체로서의 인간부재(人間不在)의 평가로 끝나고 만다. 어떠한 경우에 있어서나 지식은 기술과 분리될 수 없으며, 사고방식 혹은 태도나 흥미와도 분리되어 존재하지는 못한다. 각종의 행동유형은 서로 밀접한 관련을 맺고 있어 훌륭한 통일체를 이루고 있다. 따라서 학생이 자기의 여러 가지의 반응을 서로 관련시키는 능력의 발달은, 그 학생의 발달의 중요한 평가이며, 따라서 평가의 주요부분이기도 하다.

(4) 평가는 또한 독단적이어야 한다. 장점·단점의 소재, 그 중에서도 특히 중요한 것은 단점의 결함을 분명히 나타내는 것이라야 한다. 앞으로 무엇을 어떻게 해야겠다는 방향의 암시(暗示)가 그곳에서 나와야만 한다. 또한 가능하다면 그 원인까지도 시사(示唆)할 수 있는 것이 되면 더욱 좋다.

(5) 평가의 기술은 평가목표에의 타당성·신뢰성의 견지에서 각종각양의 것이 이용되어야만 한다. 결코 필답검사(筆答檢査)나 수량적(數量的) 처리만으로 한정시켜서는 안 된다. 물론 테스트는 중요한 평가의 기술이지만, 그 밖에 관찰기록·일화(逸話)기록·질문지법(質問紙法)·면접법·체크리스트·평정척도(評定尺度)·행동기록·작품분석(作品分析) 등으로 그 평가의 기술을 더욱 확대시켜 나가야만 한다. 그리고 어떤 기술을 쓸 것인가 하는 평가기술의 선택은, 평가목표로서의 행동종류에 대한 타당성 있는 개념이어야만 한다.

(6) 교사가 평소에 시도하고 있는 평가의 성격은 교사의 지도와 학생의 학습 쌍방이 취해야 할 입장을 좌우하는 것이다. 즉 어떤 교사가, 평가는 이러한 방면의 평가가 가장 중요하다는 생각을 갖고 있으면, 자연히 그것이 그 교사의 지도의 중점을 좌우하게 되며, 또한 교사가 지식방면에만 중시해서 평가한다면, 학생은 자연히 그 같은 내용만 집중하여 공부하게 된다. 그러므로 교육평가는 단순한 착상(著想)만으로 이를 행해서는 안 된다. 즉 충분한 계획성과 조직을 가지고 임해야 하는 것이다.

교육평가의 유형

敎育評價－類型

진단평가

診斷評價

진단평가(diagnostic evaluation)는 형성평가(形成評價)·총합평가(總合評價)와 마찬가지로 학생행동의 어느 측면에 관해 가치화(價値化)·의사결정·기술(記述)·분류를 목적으로 한다. 그러나 첫째, 교수가 시작되는 시초에 학생을 적절히 배치하려는 것, 둘째, 학생이 학습에서 갖는 결함의 진단이라는 두 가지 목적이 진단평가를 다른 유형의 평가와 구별시키는 주된 특징이다.

교수가 시작되기 이전에 실시하는 진단평가의 경우는 학생이 학습을 시작하기 전에 그가 어떤 시발단계(始發段階)에 놓여 있는가를 결정한다. 이 목적을 위한 진단은 대개 세 가지 형태로 나누어 볼 수 있다. 첫째로는, 계획된 학습단위의 목표를 성취하는 데 선행조건이 된다고 추측되는 시발행동 및 기능을 학생이 소유하고 있는가 없는가를 결정하는 것이며 둘째는, 주어진 학습단위 혹은 과정의 목표를 학생이 이미 통달(通達)했는지, 그럼으로써 보다 높은 수준의 학습 프로그램을 제공해야 하는지 여부를 결정하려는 것이며, 셋째는, 학생이 지니고 있는 어떤 특성, 예컨대 흥미·성격·직업·적성·기능·선행학습사(先行學習史) 등에 비추어 분류하고, 그에 따라 적절한 교수전략(敎授戰略)이나 교수방법의 대안(代案)을 제공하려는 것의 세 가지로 요약할 수 있다.

진단평가의 둘째 형태는 교수가 진행 중일 때 주는 것으로, 이 평가의 주된 기능을 학생이 학습에서 나타내는 계속적인 결함의 원인 및 그 밑에 놓여 있는 환경을 결정하려는 것이다. 형성평가도 물론 학습 도중의 학습결함을 진단하는 기능을 갖고 있다. 그러나 형성평가는 학습목표에 관련해서 교수방법 및 교재(敎材) 자체의 개선에 의해 학습을 개선·증진(增進)시키려는 것인 데 반해, 진단평가는 이 같은 개선으로 교정되지 않는 신체적·정서적·문화적 환경 결함을 찾으려는 데 있다.

최근 우리나라에서 학생집단을 여러 가지 형태의 동질집단으로 분류하고 그에 따라 적절한 교수방법을 투입하고 있는 현상을 볼 수 있다. 이같은 배치기능에 관련해서 진단평가는 중요한 역할을 한다.

형성평가

形成評價

formative evaluation

형성평가란 학습 및 교수가 진행되고 있는 유동적(流動的) 상태에 있는 도중에 학생에게 송환효과(送還效果,feed-back)를 주고, 교육과정을 개선하며, 수업방법을 개선하기 위해 실시하는 평가이다. 이 같은 형성평가는 학생의 학습을 증진시키기 위한 목적뿐 아니라, 그에 뒤이어 교수방법을 개선하고 교육과정에 어떤 개선을 초래하기 위해 실시하는 평가이다. 또한 학습이 끝난 다음에 실시하는 총합평가(總合評價)와는 달리 학습이 형성되고 있는 시기에 실시하는 평가이기 때문에 학습증진의 극대화(極大化)가 이뤄지도록 해야 하는 것이 목적이다. 이것은 곧 형성평가를 통하여 이 같은 목적을 달성할 수 있는 증거를 붙잡아야 하고, 평가 때문에 학생이나 교사에게 부정적인 효과를 미치지 않도록 통제하지 않으면 안 된다. 형성평가의 두드러진 특징은 다음과 같다.

첫째, 형성평가는 교수·학습이 아직 유동적인 시기에 교과·교수·학습의 개선을 위해 실시하는 평가이다. 형성평가의 목적은 점수를 매기거나, 학생의 성적을 판정하려거나, 교사의 능력을 평가하려는 것이 목적이 아니라, 학생의 학습을 증진시키기 위해 무엇을 개선해야 할 것인가를 찾으려는 평가이다.

둘째, 형성평가는 교수·학습과정을 제일차적으로 이끌어 가고 개선해 가야 할 교사가 제작하는 것이 원칙이다. 총합평가나 진단평가는 평가전문가나 측정전문가가 제작할 수도 있고, 또 때로는 평가이론이나 기술에 해박한 지식과 경험을 가진 전문가가 제작한 평가도구가 더 유용한 정보를 제공해 줄 수도 있다. 그러나 형성평가는 지금 진행 중인 프로그램에 관해 어떤 정보를 얻으려는 것이기 때문에 가르치는 교사 자신이 이것을 제작하는 것이 도리어 합당하다.

셋째, 교육목표 혹은 교수목표를 기초로 평가를 한다는 것이 형성평가의 중요한 특징의 하나이다. 즉 목표지향평가(criteri-on-referred evaluation)를 한다는 것이다. 교육과정이건, 교과목이건, 교과서이건, 그것은 학생이 어떤 목표를 달성하도록 짜여진 경험의 조직체이다. 이같이 설정해 놓은 목표를 학습상황에서 성취하고 있느냐 없느냐를 결정하는 일이 교사의 역할이다. 목표가 결정되기 전에 교육과정이 있을 수 없으며, 목표도 모르는 채 수업을 할 수는 없는 일이다.

형성평가의 중요한 목적은 이같이 설정된 목표를 학생이 수긍할 만한 정도로 성취하고 있느냐를 결정하는 일이며, 성취하지 못했을 때 어디에 개선을 가져와야 할 것인가를 결정하는 정보를 제공하려는 데 있다.

총합평가

總合評價 summative evaluation

총합평가는 한 학습과제·단위·교과가 끝난 다음이나 기말(期末)·연말(年末)에 총합적으로 교육목표의 달성 정도를 평가하는 것이다. 총합평가와 형성평가의 차이점은 첫째, 평가의 목적이 다르다. 총합평가는 전체 교과목이나 혹은 그것의 중요한 부분에 걸친 부분적인 성과가 어느 정도 달성되었는지의 정도를 총평하는 것이 목적이다. 즉 형성평가가 학습의 형성에 목적이 있다면, 총합평가는 행정적 의사결정에 그 목적이 있다.

둘째, 총합평가는 대개 한 한기가 끝날 때, 1회 혹은 필요에 따라서 두 번 정도 과하는 것이 보통이다. 때에 따라서는 1년에 한 번 과하는 경우도 있다. 이에 비해 형성평가는 교과가 포괄하고 있는 학습과제에 적어도 한두 번씩 실시한다. 대개의 경우 학습이 시작되기 전에 진단평가를 하고, 이를 기초로 예비학습이 끝나면 본학습에 들어가서 형성평가를 수시로 과한다. 총합평가는 학습이 끝난 다음에 과하는 빈도가 드문, 길이가 긴 검사라고 할 수 있다.

교육목표와 평가

敎育目標－評價

교육평가는 우선 교육목표의 선정 및 세분화에 이바지 한다. 교육평가는 교육목표의 과학적·경험적 준거를 형성하는 역할을 한다. 어떤 목표가 달성 가능한 것인지, 어느 목적이 어느 집단의 학생에게 적합한 것인지, 어느 목표가 장기간에 걸쳐 달성할 수 있는 것이며 어느것이 단기간에 달성할 수 있는 것인지, 또 어느 목적이 전이와 적용의 폭이 넓으며 어느 목적이 전이와 적용의 폭이 좁은지 등 교육목표에 관련된 제 문제평가에 의하여 판단되어야 한다. 또 이러한 교육목표의 외적타당도 이외에 내적타당도로서 교육평가는 교육목표의 세분화에 크게 이바지한다. 교육활동은 준거를 설정해 놓고 이것을 달성하려는 과정이다. 그러므로 목표는 교수단계에 따라 무엇을 가르칠 것이며, 어떤 행동에 변화를 가져오게 할 것인지 하는 의식의 정도와 세분화의 수준에 따라 목표 지향적인 정도가 결정된다. 교육평가는 일반적으로 진술된 이 같은 교육목표를 세분화시켜, 그것을 교수－학습과정에 직결시키는 데 도움을 줄 뿐 아니라, 교육평가의 방향과 증거수집에도 지향성을 갖게 한다.

교육목표를 결정하는 것은 주로 교사의 자유재량에 크게 의존한다. 물론 상부에서 하달된 교육목표가 일반적인 방향을 결정하기는 하지만, 교수－학습과정에서 목표를 세분화하고 결정하는 것은 교사의 손에 달려 있다. 그러므로 학기 혹은 학년이 시작되기 전에 교사는 자기의 교수결과로 학생에게 일어날 행동의 변화를 자기자신에게 뿐만 아니라 분명히 드러내 보일 수 있을 정도로 명백히해야 한다. 이 명료성의 정도에 따라 교재의 선택, 교수전략은 결정되기 마련인데, 교육평가의 증거는 이것에 이바지 한다.

학습경험의 선정·조직과 평가

學習經驗－選定·組織－評價

학습경험의 선정 및 조직에도 교육평가의 증거는 기여 한다. 교육목표가 세분화되고 그것이 목적으로 확정되면, 다음에 있어야 할 교육활동은 어떤 학습경험이 이 목적을 달성하는 데 가장 적절한 것인가를 결정해야 한다. 교재·교구·교과서와 같은 유형적인 자료도 있고, 학습활동이나 프로그램에 의한 무형적인 경험이 그 자료가 될 수도 있다. 교육평가는 이와 같은 학습경험의 선정에서 첫째, 이 같은 특정집단의 학생에게 이 같은 학습경험이 적절한지를 고려하고, 둘째, 특정한 내용 및 경험이 어느 정도 교육적 효능이 있는지를 결정하는 데 도움을 주어야 한다.

어떤 학습경험이나 내용을 학생에게 제공할 때 거기에는 기대하는 가정이 은연중에 잠재해 있다. "X라는 학습경험을 이학생에게 주면 Y라는 행동의 변화가 일어날 것이다"라는 가정이다. 이러한 인과적(因果的) 관계가 성립할 수 있느냐를 판단하는 데 교육평가에서 제공하는 각종 증거가 도움을 준다. 또한 한 가지 행동변화를 시키기 위해서 제공할 학습경험은 다양할 수 있다. 그러나 다양한 학습경험의 교육적 유효도는 다르다. 여기에 가장 최대의 효과를 올릴 수 있는 학습경험의 선정에 교육평가의 증거는 도움을 준다.

또한 이같이 선정된 학습경험을 어떻게 조직하느냐는 것은 교수－학습의 유효도에 결정적인 역할을 한다. 더욱이 교과를 조직하는 구조에 따라 학습에 치명적인 영향을 미친다는 브루너의 '지식의 구조'이론은 이것을 가장 잘 대표하고 있다. 만약 한 교과의 지식구조가 적절하게 조직 되기만 하면 어떤 교과목이나 누구에게든지 가르칠 수 있다는 브루너의 명제는 학습경험의 조직이 얼마나 결정적인 것인가를 시사한다. 교육평가는 이 조직의 교육적 유효도를 결정하는 데 역시 이바지한다.

그러나 여기에서 고려해야 할 것은 교과의 구조가 '학습 과정의 구조'와는 같은 형으로 일치하지 않는다는 사실이다. 흔히 한 분야의 지식의 구조는 학습의 구조와 일치한다고 보고 있다. 한 교과목이 전문가가 사고(思考)하고 체계지은 지식의 구조로 조직되었을 때는 그렇지 않았을 경우보다 훨씬 학습에 능률을 주고, 학습의 전이(轉移) 효과도 크다는 것은 말할 필요조차 없다. 그러나 이 같은 교과의 구조 이외에 실제 학습과정의 구조가 있으며 이것이 서로 유기적인 관계를 맺지 못할 때 교수는 실패한다. 학습과정의 구조는 학생의 능력·흥미·동기(動機) 등 학습자가 지니는 행동변인(行動變因)과 학습이론에서 제공하는 여러 가지 학습의 조건이 포함된다. 즉, 학습의 구조는 교육적 관점에서 고려되고 결정되어야 한다. 교육평가는 이 두 구조 사이의 관계가 유기적으로 관련되어 있는지, 두 구조가 기대하는 행동변화를 초래할 가능성이 있는지에 관한 증거를 제공해 준다.

교수－학습과정과 평가

敎授－學習過程－評價

최근 교수－학습과정에 관한 논의가 많다. 이것은 곧 교육의 성패에 결정적 영향을 주는 것이 교수－학습과정의 질에 달려 있기 때문이다.

교수전략이란 일종의 예술적 기교에 속한다. 마치 조각가가 하나의 조각품을 제작할 때 흙·역학·음영 등에 관한 과학적 지식도 동원되지만 동시에 그의 독특한 기예적 수공에 더 의지하는 바 큰 것과 마찬가지로 교사도 학생의 시발행동(entry behavior), 학습이론, 교과의 지식 등 과학적 지식을 동원하지만 동시에 그에 못지 않게 자기나름의 수업방법에 따라 교수변인을 투입한다.

이 같은 교수전략의 중요한 변인으로 논의되고 있는 것이 학습자의 시발행동에 관한 정보와 그 이용, 교수－학습과정의 개별화, 학습과제의 계열화, 학습자의 긍정적 동기유발도 지적할 수 있다. 평가가 교수－학습과정에 공헌하는 측면은 첫째, 어떤 교수방법이 어떤 특성의 학생에게 적절한 것인지 하는 정보를 제공해 주며, 둘째, 학습과정 중에 학생에게 빈번히 평가를 실시함으로써 학생의 학습결과를 확인하고 그에 의해 수업을 수정 및 적정화시키는 데 이바지할 수 있다는 점이다.

누구에게나, 또는 어느 교과, 어느 학습 시기에 있어서나 똑같이 좋은 효과를 나타내는 단일한 교수방법은 존재하지 않는다. 교사는 처음에 적절하다고 생각한 교수대안을 투입한 다음 학생의 반응을 형성평가에 의해 얻고, 이것을 기초로 교수방법 중 어디에 무엇이 적절치 않은가를 발견할 수 있다. 이렇게 해서 얻어진 정보에 의해 다시 교수방법을 개선해 나감으로써 가장 적절한 교수 방법을 찾게 된다.

교육측정·평가의 난점

敎育測定·評價－難點

손다이크(E. L. Thorndike)가 1918년에 발표한 논문에서 "존재하는 것은 어떤 것이든 양적(量的)으로 존재한다. 그러므로 양적인 측정이 가능하다"라고 한 발언은 교육측정운동에 활력소가 되어 더욱 활기를 띠게 하였다. 엄격한 의미에서는 교육측정도 자연과학의 물리(物理)측정이나 화학측정 같은 과학적 엄밀성을 이상으로 삼고 있고, 또 그러한 방향으로 움직이고 있다. 그러나 이념과 방향은 같을지라도 인간행동을 대상으로 하는 교육측정은 물리나 화학에서의 측정과는 좀 다른 여건에 놓이게 된다. 이러한 특수여건이 바로 교육측정·평가의 난점인 것이다. 이러한 난관을 극복하여 보다 과학적 측정방법으로 접근하는 길이 측정·평가의 최대 임무인 것이다. 교육측정·평가의 난점을 열거하면 아래와 같다.

측정대상의 불분명

測定對象－不分明

교육측정의 대상은 교육목적이며, 이 교육목적을 달성하는 것은 학습자 자신이다. 바꾸어 말하면 설정된 교육목적을 향해 학습하는 학습자의 행동을 측정의 대상으로 삼는다. 그런데 인간행동이라는 대상은 물리측정처럼 길이·온도·무게와 같이 눈으로 분명히 붙잡을 수 있는 것이 아니다. 가령 사고력·응용력·협동력을 측정한다고 할 때 그것이 주는 개념은 매우 모호한 느낌을 준다. 그렇다고 해서 모두가 그런 것은 아니다. 기억력, 지각의 횟수, 높이뛰기의 정도 등은 비교적 파악하기 쉬운 대상이다. 그러나 고등정신기능(高等精神機能)에 속하는 사고력·비판력·응용력·종합력과 정의적(定意的)인 면에 속하는 창의력·감상력·흥미·태도 등은 거의 붙잡을 수 없는 것이 현실이다. 이와 같이 교육측정에는 여러 가지 난관이 놓여 있고, 이론적 가정을 세우기에는 아직 여러 가지 기초자료가 부족하지만, 보다 과학적 측정방법에 도달하리라는 희망과 신념은 이들 장애를 넘게 할 것이다.

측정방법의 불명

測定方法－不明

자연과학에서는 측정방법이 자명(自明)하다. 길이는 자로, 무게는 저울로 온도는 온도계로, 시간은 시계 등으로 그 속성에 따라 그것을 측정하는 도구도 뚜렷하다. 따라서 오차(誤差)의 범위도 제한되어 있다. 교육측정에서는 방법과 도구가 모두 불명하다. 흔히 있는 일이지만 사회생활고사가 국어능력을 반 이상 측정하고 있는가 하면, 사고력을 측정한다는 것이 기억력만을 측정하는 경우가 허다하다. 가령 협동심을 측정한다고 할 때 반에 따라 꽃 가꾸기를 하게 했다면, 흔히 꽃 가꾸는 기능을 측정하게 되거나 꽃에 대한 이해력만 측정하는 경우를 볼 수 있다. 이와 같이 협동심을 측정하는 데는 어떤 측정방법과 도구가 적합한지조차 불명한 것이 오늘의 측정실태이다. 그러나 이러한 애로도 측정이론의 정화, 여러 가지 실험적 연구, 측정방법의 실증적 검증 등을 통해서 타개할 수 있을 것이다. 그 실례로 필답검사의 경우를 들 수 있다. 한동안은 주관식 또는 논문식이 유행되다가 객관식 또는 선다형이 범람하고, 다시 주관식에 쏠리는 경향이 있는데, 이는 측정대상과 피험자(被驗者)에 따라 적절한 측정방법이 요구되며, 다양한 측정도구의 개발을 제기하기 때문이다.

측정의 간접성

測定－間接性

물리측정은 대개 직접적이다. 쌀 한 가마니의 무게는 80kg이라든가, 철수의 키가 170cm라는 등 측정도구를 사용하여 직접 측정한다. 교육측정에서는 이런 경우가 거의 없다. 협동심을 측정한다고 하여 청소를 시킨다거나 기마전을 하게 할 때, 흔히 이용할 수 있는 방법은 이들의 움직임을 관찰하는 것밖에 없다. 그 가운데서 협동심이 될 수 있는 요인을 발견하여 그에 기초해서 평가하게 된다. 어떤 경우에도 협동이나 협동심을 직접적으로 파악할 수 없다. 물리측정의 경우에는 간접적인 방법일지라도 양이 분명히 드러나지만, 교육측정은 대개 포괄적인 범위를 밝히는 데 그친다. 가령 전기는 붙잡을 수도 볼 수도 없지만, 암페어기에 나타난 반응을 보고 그 양을 측정한다. 그러나 협동심은 '많다' '적다' 등의 극히 모호한 범주를 조심스럽게 짐작할 따름이다. 측정치(測定値)나 평가기준을 물리학에서처럼 엄밀하고 정확하게 수량적으로 표시한다는 일이 심리학이나 교육학에서는 쉽지 않은 일이다. 이것이 교육측정·평가의 또 하나의 난점이다.

수량화의 모험

數量化－冒險

교육측정이나 평가에서 자연과학의 여러 양화방법(量化方法,quantification)을 도입하여 응용하는 것이 그래도 가장 안심할 수 있는 길이다. 그러나 인간행동을 다루는 교육학이나 심리학에서 양화(量化)는 매우 조심스러운 일이다. 가령 3cm＋5cm＝8cm라는 물리측정은 무리가 없는 수치의 조작(操作)이지만, 국어 50점＋사회 50점＝100점이라는 가산작업은 바로 측정이론의 허점을 드러내는 것이다. 이 100점이라는 수치는 절대성도 없고 속성도 다른 수치를 한데 뭉쳐놓았을 뿐 아무런 의미가 없다. 또 수학 90점이 있다고 하자. 그것이 물리측정에서처럼 30점의 3배의 수준이라고 판단할 수는 없다. 이와 같이 교육학이나 심리학에서 사용하는 것은 대개가 서열척도(序列尺度,ordinal scale)가 아니면 동간척도(同間尺度,interval scale)이다. 즉 수학 90점은 30점에 비해 '훨씬 좋은 성적'이라는 정도의 서열을 말하는 데 그친다. 그래서 교육측정에서는 이러한 수치를 보다 절대성을 가지도록 'Z점수'나 'T점수' 등으로 전환하고 있지만, 자연과학의 경우에 비해 모험성을 배제하기 어렵다. 교육측정이나 평가에서 사용하는 측정치의 종수(種數)와 그 조작적 의미를 살펴보면, 이와 같은 모험의 의미를 쉽게 이해할 수 있다. 측정에서 나오는 수치(측정치)로는 그것을 측정해서 나오는 척도의 성질에 따라 대개 네 가지로 나눈다.

(1) 명명척도(命名尺度,nominal scale) ― 운동선수의 백 넘버·군번·우편번호 등의 수치는 단지 명목만을 표시해 준다. 가령 '김철수'라는 이름 대신에 10번이라는 배번(背番)을 붙여 편리하게 사용할 때 명명척도가 된다. 교육에서 예를 든다면 남녀를 1·2로, 도시·농촌을 1·2로 표시하는 것과 같이 명목가치만 있을 뿐 아무런 조작도 하지 못한다.

(2) 서열척도(序列尺度,ordinal scale) ― 키의 순으로 번호를 정한다든가, 학력에 따라 순위를 정할 때처럼 어떤 순서가 주어진 척도, 교육에서 예를 든다면 국어과·수학과 등의 학력순위를 말한다. 이 척도는 동간성(同間性)이 없어 가감 등의 조작은 할 수 없으나 대상집단 내의 위치 등을 가리키는 1번이 2번보다 작다는 1＜2의 부등식(不等式)의 관계는 성립한다.

(3) 동간척도(同間尺度,interval scale) ― 이 척도는 ＋·－의 가감(加減) 조작은 가능하지만, ×·÷의 조작을 할 수 없는 것이 특징이다. 예를 들어 온도계의 경우 10℃－5℃＝15℃－10℃라는 관계를 성립하지만, 5℃×2＝10℃ 라는 관계는 성립하지 않는다.

(4) 비율척도(比率尺度,ratio scale) ― 이것은 cm·g과 같은 척도치이며, 부등식(不等式)·등식(等式)·곱하기·나누기의 모든 조작이 가능한 완전한 척도이다. 이것이 바로 우리가 바라는 척도치이다. 그러나 교육이나 심리학에서 다루고 있는 측정치란 거의 서열척도·동간척도들이다. 여러 가지 평정점수(評定點數)·백분위(百分位)점수 등은 서열척도이며, IQ·원점수 등은 동간척도에 불과하다. 따라서 이들 수치가 절대적 의미를 갖도록 Z점수·T점수로 변환하는 것이 수량화에 따르는 위험성을 제거할 수 있는 길이라 하겠다.

<朴炯植>