📏 AI 기반 줄 치기 유사도 평가

안녕하세요, 백제입니다.

저는 지금 고3을 담당하고 있어서, 문제 풀이를 최적화하는 수업을 매일 합니다.
그런데 그걸 하다 보면 종종 현타가 옵니다.
‘이게 과연 영어 교육의 본질일까?’ 하는 질문에서요.

오늘은 그 고민에서 시작해, 비판적 읽기를 점수화하는 형성 평가 시스템을 직접 프로토타입까지 만들어 본 이야기입니다.

📑 목차

문제의식
핵심 아이디어 — 줄 치기를 의미 벡터로
기술 구조
유사도 평가 방식
교육적 의미
Devil’s Advocate와 연결 — AI 피드백과 인지 갈등
수집 가능한 데이터
연구적 가치
한계와 주의점
향후 확장

1. 문제의식

영어 교과의 가장 큰 목표 중 하나는 읽기(reading) 입니다. 그런데 지금의 읽기 평가에서 목적은 오로지 ‘최종 정답’ 입니다. 학생이 어떻게 읽었든 안 읽었든, 마지막에 정답에 동그라미를 친 학생이 맞은 학생입니다.

이게 무슨 뜻이냐면, 학생이 어느 부분을 중요하게 읽고 있는지는 시험지에 전혀 기록되지 않는다는 것입니다.

오지선다형이 표준이 된 데에는 사실 정답이 있습니다. 찍는 확률을 20%로 낮추기 위해서입니다. (참고로 미국·토익의 사지선다는 25%지만, 출제 부담이 적어 그쪽으로 갑니다.) 즉 우리가 쓰는 평가의 메커니즘은 ‘어떻게 채점할 것인가’ 라는 행정적 효율 위에 만들어져 있고, ‘어떻게 읽었는가’ 는 그 메커니즘 안에 들어 있지 않습니다.

저는 수업에서 학생들에게 ‘답을 잘 찍는 법’을 설명하고 있는 제 모습을 종종 봅니다. 그럴 때마다 회의가 듭니다 — 줄 치기야말로, 그 학생이 어떻게 사고했는지를 보여 주는 가장 직접적인 데이터가 아닐까 하는 생각이 들어서요.

2. 핵심 아이디어 — 줄 치기를 의미 벡터로

핵심 아이디어는 단순합니다.

교사/전문가가 핵심이라고 판단한 문장에 기준 벡터를 부여합니다.
학생이 강조한 문장을 임베딩(embedding) 벡터로 변환합니다.
두 벡터의 의미 유사도를 계산해 점수화합니다.
그래서 완전히 일치하지 않아도 부분적으로 맞는 이해도를 점수에 반영할 수 있습니다.

설계하면서 가장 조심한 한 가지가 있습니다. “기계가 중요하다고 판단한 것을 인간이 얼마나 따라잡았는가” 라는 그림이 되면 곤란하다는 점입니다. 자칫 ‘AI가 인간보다 더 잘 이해한다’는 메시지로 비칠 수 있으니까요. 그래서 중요한 문장을 정의하는 일은 최종적으로 교사가 합니다. AI는 채점·피드백을 거들 뿐, 판단의 권한은 교사에게 남깁니다.

3. 기술 구조

전체 구조는 네 단계입니다.

학생 Highlighting 입력: 지문 위에 형광펜처럼 드래그해 중요한 문장을 표시합니다. 한 번 표시는 노란색, 두세 번 강조하면 색이 진해지며 가중치가 올라갑니다.
Sentence Embedding 생성: 표시된 문장을 벡터로 변환합니다.
Cosine Similarity 계산: 전문가 청크와의 의미 유사도를 측정합니다.
Firebase 및 로그 데이터 저장: 모든 표시·수정·제출 과정이 기록됩니다.

저희 학교가 아이패드 기반이라서, 학생들에게 가장 익숙한 인터랙션이 밑줄/형광펜이었습니다. 그래서 단어 클릭이 아니라 드래그로 표시하게 만들었습니다.

4. 유사도 평가 방식

이 평가는 이분법적이지 않습니다.

동일 문장이 아니어도 의미가 비슷하면 점수를 부여합니다.
표면적 키워드보다 문맥 의미를 중요하게 평가합니다.
그래서 정답/오답 이분법이 완화됩니다.

학생이 줄 친 부분이 전문가 판단과 100% 일치하지 않더라도 70%, 80%처럼 부분 점수가 가능합니다. 가장 중요한 문장 / 어느 정도 중요한 문장 / 덜 중요한 문장 / 중요하지 않다고 판단된 문장 — 이렇게 그라데이션으로 다뤄집니다.

유사도 측정은 코사인 유사도(cosine similarity) 를 썼습니다. 다만 문맥적 의미의 최종 판단은 사람이 합니다. 특히 형성 평가, 그리고 위계가 있는 비문학 지문에 잘 맞는 도구라고 봤습니다.

5. 교육적 의미

이 평가 도구로 우리가 얻는 것은 다음과 같습니다.

학생의 읽기 전략 분석이 가능해집니다. 어느 문장에 가장 먼저 줄을 쳤는지, 어느 부분을 가장 진하게 강조했는지가 모두 기록됩니다.
핵심 정보 탐색 능력을 정량적으로 측정할 수 있습니다.
결과 위주 평가에서 과정 중심 평가로 한 걸음 옮겨갑니다.
학생이 표시한 데이터를 바탕으로 AI 기반 맞춤 피드백을 줄 수 있습니다.

6. Devil’s Advocate와 연결 — AI 피드백과 인지 갈등

저는 이 도구를 단순한 채점기로만 두고 싶지 않았습니다. 그래서 중간에 AI 피드백 단계를 끼워 두었습니다.

AI가 학생이 강조한 부분에 반박을 던집니다. (“혹시 이 부분이 더 중요하지는 않을까요?”)
학생은 자신의 근거를 재검토합니다.
이 과정에서 인지 갈등(cognitive conflict) 이 유발됩니다.
학생이 선택을 바꿔 가는 줄 치기의 변화 자체가 연구 데이터가 됩니다.

학생은 피드백을 읽고 ‘유지하기’ 또는 ‘수정하기’ 를 선택합니다. 최종 제출 시점에는 ‘피드백 전 선택’과 ‘피드백 후 선택’이 함께 비교되어 남습니다. 단순 오지선다의 인지 갈등(매력적인 오답 vs 정답)이 아니라, ‘무엇이 더 중요한가’ 라는 더 입체적인 사고를 다룰 수 있게 됩니다.

7. 수집 가능한 데이터

기존 시험으로는 좀처럼 얻을 수 없던 데이터들이 자연스럽게 쌓입니다.

최초 강조 위치 — 학생이 처음 어디부터 중요하다고 느꼈는가
AI 반박 후 수정 여부 — 외부 자극에 자신의 사고를 어떻게 다루는가
최종 강조 변화 — 사고의 결말이 어디로 갔는가
유사도 점수 변화 — 학생의 이해가 어떻게 정교화되었는가
근거 정교화 정도 — 강조 강도와 분포의 패턴

학생이 어떤 읽기 과정을 거쳤는지가 통째로 데이터로 남는다는 점이 이 도구의 진짜 가치라고 생각합니다.

8. 연구적 가치

이 데이터는 단지 채점에서 끝나지 않습니다.

읽기 과정을 정량적으로 분석할 수 있는 자원이 됩니다.
메타인지·비판적 사고에 대한 연구로 확장될 수 있습니다.
학습자의 주의(attention) 패턴을 들여다볼 수 있는 창이 됩니다.

저는 이 데이터를 다운로드해 분석하면, 학생들의 읽기 전략과 정보 탐색 능력에 대한 빅데이터가 된다고 봅니다.

9. 한계와 주의점

물론 한계도 분명합니다.

유사도가 항상 올바른 이해를 의미하지는 않습니다.
어떤 학생은 굉장히 창의적으로 새로운 결을 따라 글을 읽습니다. 그렇게 읽은 학생을 ‘유사도 낮음’이라는 이유로 평가절하해 버릴 위험이 있습니다.
임베딩 모델 자체가 가지는 편향도 존재합니다.
그래서 교사 판단과의 병행이 반드시 필요합니다.

이 도구는 교사의 판단을 보조하는 도구이지, 대체하는 도구가 아닙니다.

10. 향후 확장

앞으로 가고 싶은 방향은 이렇습니다.

학생별 읽기 프로파일 생성 — 한 학기 내내의 줄 치기 변화로 한 학생의 읽기 성향을 그려내기
읽기 패턴 시각화 — 학급 단위, 학년 단위의 흐름을 보여 주기
LLM 기반 메타인지 피드백 — 정답이 아니라 “어떻게 읽었는가”에 대한 코칭
AI 기반 읽기평가 체계 연구로 확장 — ‘문제를 위해 만들어진 지문’이 아니라 실제 책·논문·기사처럼 학생이 진짜 읽어야 할 글에 이 도구를 붙이는 것이 궁극적인 목표입니다.

오늘은 여기까지입니다. 감사합니다.

💬 질의응답 (Q&A)

Q: 만든 도구를 실제 수업에 쓰고 계신가요?
A: 아직 본격적으로는 못 하고 있습니다. 고3을 맡고 있어서 조심스럽습니다. 처음에는 수업 전체에 넣어 보려 했는데, 우선은 원하는 학생들 위주로 시도해 볼 생각입니다.

Q: 글 읽기의 목적은 사실 다양한데, 이 도구는 ‘중요한 부분 찾기’만 반영하는 것 아닌가요?
A: 일단은 읽기 이해 능력에 초점을 맞췄습니다. 다만 학생이 표시한 곳에 따라 사고의 방향을 어느 정도 측정할 수 있다고 보고 있습니다. 중간 AI 피드백을 통해 학생이 글의 다양한 결에 주목하도록 유도하려 했는데, 이게 생각보다 쉽지 않더군요. AI가 “재미없게” 말하면 학생이 잘 받아들이지 않습니다. 결국 읽기는 글 자체에 집중하는 것이 맞다고 저도 생각하지만, 중간에 대화식 코칭을 끼우는 접근도 가능성이 있어 더 실험해 볼 계획입니다.

Q: 처음에는 다른 버전(객관식 + 반박)도 만드셨다고 들었습니다.
A: 네, 원래는 AI가 정답에 반박하고, 중복 답과 ‘답 없음’을 섞는 객관식 변형도 만들었었습니다. 그런데 만들수록 너무 복잡해져서 점점 문제은행식 풀이처럼 변해 가더라고요. 그래서 본질에 더 가까운 지금의 단순한 형태로 돌아왔습니다. 둘 다 장단점이 있지만, ‘줄 치기’만 남겨 본질에 집중하는 쪽으로 정리한 것입니다.

🔗 연관 글

고구려 선생님의 같은 날 글: saeromOS와 교원 AI 연수 모델
신라 선생님의 같은 날 글: 서논술평가와 교실 TV — 학교의 작업 단위를 ‘플로우’로
백제의 이전 글: 사고의 경계, 그리고 평가의 과도기

AI 기반 줄 치기 유사도 평가 — 읽기의 본질로 돌아가는 평가