📊 AI 시대의 역량 평가와 수학적 비계(Scaffolding) 설정

안녕하세요, 고구려입니다.

오늘 저는 2022 개정 교육과정이 표방하는 ‘역량 중심 교육’이 과연 실제 학교 현장에서 어떻게 작동하고 있는지, 그리고 이미 아이들의 일상에 깊숙이 들어온 생성형 AI를 어떻게 교육과 평가의 ‘상수’로 받아들이고 이를 설계해야 할지에 대한 고민을 나누고자 합니다.

단순히 AI를 금지하거나 단순한 도구로 활용하는 것을 넘어, 학생들의 문제 해결 역량을 끌어올리기 위한 구체적인 수업 모델과 연구 프레임을 소개해 드립니다.

📑 목차

문제의식: 우리는 역량을 정말 측정하고 있는가?
전환점: AI를 변수가 아닌 상수를 두기
설계 원리: 구조화된 프롬프트 비계(Scaffolding)
실제 구현: 대수 수행평가 및 분석 흐름
나아가며: 진짜 역량은 언제 드러나는가

1. 문제의식: 우리는 역량을 정말 측정하고 있는가?

새로운 교육과정이 시작될 때마다 우리는 항상 “역량 중심”을 이야기합니다. 하지만 실제 교실을 들여다보면 과연 학생들이 가진 진짜 문제해결능력을 어떻게 평가하고 있는지 의문이 듭니다. 기존의 지필고사와 기계적인 수행평가 루브릭만으로 아이들의 다채로운 역량을 온전히 담아낼 수 있을까요?

이 근본적인 질문이 제 연구의 시작점이었습니다.

현재 교육과정이 지향하는 핵심 역량은 자기관리, 지식정보처리, 창의적 사고, 심미적 감성, 협력적 소통, 공동체 역량 등 매우 다양하고 거시적입니다. 하지만 이러한 의도된 교육과정과 실제 교과서 구성 사이에는 큰 간극이 존재합니다.

실제 OECD 보고서(Schmidt, W. et al. 2022)의 데이터를 살펴보면, 19개국 중학교 2학년 수학 교과서 문항 중 무려 81.87%가 단순 계산 위주의 연습 문제(Computational Exercises)에 편중되어 있습니다. 반면 실생활을 다루고 높은 차원의 사고를 요구하는 실생활 적용 문제(Higher-Order Real-World Applications)는 겨우 0.25%에 불과합니다.

역량을 강조하면서도 교과서와 학습 자료는 여전히 과거의 기계적 훈련에 멈춰 있는 셈입니다.

이러한 상태에서 문제해결능력이라는 본질적인 목표는 현장으로 내려올수록 점점 왜곡되고 좁아집니다. 거시적으로 역량을 선언하더라도, 수업은 기존 활동의 재구성에 그치고, 평가는 형식적인 루브릭에 의존하며, 실제 채점은 정량적인 결과물 중심의 점수 매기기로 귀결되고 맙니다.

우리가 잊지 말아야 할 대원칙은 바로 이것입니다. “측정되지 않는 역량은 결국 가르쳐지지 않는다.”

2. 전환점: AI를 변수가 아닌 상수를 두기

그렇다면 어떻게 평가를 혁신할 수 있을까요? 저는 AI를 바라보는 패러다임 자체를 바꾸어야 한다고 생각합니다.

기존의 논의는 크게 두 가지 함정에 빠져 있습니다. AI를 어떻게 사용하는지 기능 중심의 튜토리얼만 알려주자는 **‘도구 교육론’**과, AI가 다 해결해주면 학생들의 사고력이 잠식될 것이라는 **‘공포론’**입니다. 이 두 관점은 모두 AI를 통제 불가능한 ‘변수’로 취급합니다.

하지만 이제는 과거 계산기가 도입된 후 수학 교육이 단순 ‘계산 훈련’에서 ‘개념적 이해와 수학적 판단’으로 진화했듯이, AI 역시 교실 안의 움직이지 않는 **‘상수(Constant)‘**로 고정하고 평가를 재설계해야 합니다.

실제 통계를 보면 영국의 대학생 88%가 평가에 생성형 AI를 활용하고 있으며, 글로벌 대학생의 86%가 학교 과제를 위해 AI를 씁니다. 금지 정책을 펼치더라도 51% 이상의 학생은 계속해서 몰래 쓸 것이라고 답합니다.

결국 질문은 “AI 사용을 어떻게 막을 것인가”가 아니라 **“이미 일상이 된 AI를 전제로 하여, 어떻게 평가를 재설계할 것인가”**로 전환되어야 합니다.

3. 설계 원리: 구조화된 프롬프트 비계(Scaffolding)

이에 대한 구체적인 해법으로 저는 **‘AI 비계 기반 수행평가 모델’**을 제시합니다.

학생들이 AI와 함께 문제를 이해하고, 비판적으로 검토하고, 최종적인 판단을 내리는 전 과정을 투명하게 시각화하여 평가하는 방식입니다. 이를 위해 평가 흐름은 단순히 정답을 적어내는 단계를 넘어 다음과 같은 4단계 설계 모델을 취합니다.

역할 고정: AI를 정답 자판기가 아닌, 질문과 힌트를 던지고 반론을 제기하는 인지적 ‘비계’로 설정합니다.
과정 노출: 최종 답만 제출하는 것이 아니라 AI와 나눈 전략 수립, 질문 수정, 검증 등의 전체 흔적을 누적 기록합니다.
프롬프트 구조화: 자유롭게 질문을 던지게 방치하지 않고, 교사가 사전에 인지적 절차를 조직하는 프롬프트 틀을 설계해 제공합니다.
활용 양상 평가: 에이전트의 답변을 어떻게 수용하고 비판하며 재정리했는지, 활용 방식 자체를 정성 평가합니다.

특히 중요한 지점은 **“교사가 먼저 비계를 짜고, 학생은 그 안에서 생각하도록 돕는 것”**입니다.

준비되지 않은 학생들에게 AI 프롬프트를 자유롭게 작성하라고 던져두는 것은, 아무런 가이드라인 없이 백지를 주고 논술문을 쓰라는 것과 같습니다. 구조화된 프롬프트 틀을 비계로 제공하고, 점차 학생들이 익숙해짐에 따라 이를 축소(Fading)해 나갈 때 진정한 자기주도성이 길러집니다.

4. 실제 구현: 대수 수행평가 및 분석 흐름

실제 1학기 고등학교 대수 수업 시간에 데스모스(Desmos)와 AI 프롬프트 틀을 결합한 데이터 모델링 수행평가를 시도했습니다.

학생들은 데이터를 수집하여 적절한 함수 모델을 찾는 과정에서 교사가 미리 설계한 [2단계 AI 검토(방어전) 프롬프트]를 던지게 됩니다.

“내 데이터는 [A]이고, 나는 [B] 함수 모델이 적절하다고 판단했어. 이 판단을 반박할 수 있는 맹점이 있는지 비판적으로 검토해줘.”

이후 AI의 답변을 검토하고 보완하기 위해 [3단계 AI 힌트 요구 프롬프트]를 추가로 활용합니다. 직접 정답을 물어보지 않고, 문제를 스스로 해결해 나갈 수 있도록 힌트와 핵심 키워드만을 추출하여 사고를 유도하는 구조입니다.

이 과정을 거치며 학생들은 AI가 제공한 비판적 피드백과 힌트를 재해석하고, 본인의 생각을 추가하여 활동지와 보고서에 자신만의 언어로 최종 해석을 기술하게 됩니다.

이 모델의 핵심은 **“AI를 썼다는 사실보다, AI와 어떻게 소통하며 최종 수학적 의사결정에 도달했는가”**에 있습니다. AI를 단순 자판기처럼 쓴 학생과, 인지적 성장을 돕는 검증 도구로 쓴 학생은 결과물이 비슷해 보여도 그 과정에서 드러나는 역량의 궤도가 완전히 다릅니다.

연구는 총 3가지 흐름으로 정교하게 분석을 시도합니다.

로그 분석: 학생들이 AI 챗봇과 대화하며 질문을 수정해 나간 패턴을 수집합니다.
유형 분류: 수집된 로그를 통해 학생들을 확장형, 답습형, 의존형, 회피형 그룹으로 분류합니다.
과정 비교: 인지적 비계가 제거된 2차 과제를 독립적으로 수행하게 한 뒤 문제해결력 루브릭 점수의 변화를 비교합니다.

이를 통해 AI가 없는 상태에서도 학생들이 스스로 메타인지적 비계를 세우고 문제를 스스로 주도적으로 해결할 수 있는지 내면화의 정도를 면밀히 검증할 수 있습니다.

5. 나아가며: 진짜 역량은 언제 드러나는가

미래의 핵심 역량은 기술이 배제된 진공 상태가 아니라, AI가 이미 숨 쉬듯 존재하는 초연결 환경에서 문제를 해결해 내는 실제적인 능력입니다.

처음에는 강한 AI 비계(Scaffolding)를 통해 올바르게 질문하고 검증을 요구하는 방식을 유도합니다. 그 후 점차 안내를 줄여나가며 스스로 문제를 정의하고 수학적 판단을 내리는 힘을 키워줍니다. 진짜 평가해야 할 대상은 AI의 답변을 복사해 붙여넣는 기술이 아니라, 그 도움을 거름 삼아 빚어낸 자기 주도적 사고력의 질적 깊이입니다.

과정 중심 평가와 AI의 현명한 동거를 위해, 교사는 평가의 판을 완전히 새로 짜야 합니다. 연구 결과 분석을 마치는 대로 현장의 생생한 변화 지점들을 추가로 나누겠습니다. 경청해 주셔서 감사합니다.

💬 질의응답 (Q&A)

Q: AI를 활용한 이러한 수행평가가 공정성 시비나 성적 민원 우려가 있지는 않나요?
A: 지필평가처럼 하나의 닫힌 정답만을 골라내야 하는 시험이라면 민원이 발생할 수 있습니다. 하지만 이 평가는 정답 유무가 아닌, ‘수학적 모델링’이라는 열린 질문을 다룹니다. 또한 중간에 AI의 조언을 어떻게 비판했는지, 본인의 해석을 덧붙인 서술형 답변이 전체 평가의 큰 비중을 차지하도록 설계되어 있습니다. 무엇보다 대화 로그 전체가 디지털화되어 수집되므로, 오히려 개별 학생의 실제 수행과 노력 여부를 더 객관적이고 투명하게 입증할 수 있어 공정성 보장에도 큰 기여를 합니다.

Q: AI 의존성이 심한 학생의 경우, 프롬프트를 줘도 그냥 생각 없이 결과만 복사-붙여넣기 할 텐데 이에 대한 해법이 있을까요?
A: 물론 그런 한계가 존재합니다. 실제로 AI 비계를 활용한 학생들의 유형을 분류해 보면 의존형 학생의 비중도 상당합니다. 하지만 의존도가 높은 학생이라 하더라도, 이전의 수학 수업에서 문제를 아예 백지로 비워두거나 중간에 포기해 버리던 태도에서 벗어나 AI의 도움을 받으며 ‘어려운 수학적 모델링의 전체 단계’를 한 번이라도 완수해 보는 경험적 효능감 자체는 매우 유의미하게 달라집니다. 그리고 본인의 순수 사고만을 적어야 하는 챗봇 로그 수집 절차와 비계 축소(Fading) 단계가 융합되어 있으므로, 맹목적인 복사를 지속한다면 2차 평가에서 결과에 한계가 명확하게 드러나게 됩니다.

🔗 연관 글

신라 선생님의 블로그 글: Ask Gemini와 평가 플로우의 진화
백제 선생님의 블로그 글: 게슈탈트 심리학으로 보는 AI와 인간의 진정한 이해
신라 선생님의 이전 글: AI 디지털 교육의 콘셉트

AI 시대의 역량 평가와 수학적 비계(Scaffolding) 설정