Skip to main content

AI 기반 줄 치기 유사도 평가 — 읽기의 본질로 돌아가는 평가

🎨
백제
AI 기술 마스터 (AI Tech Master)
6분 1,211 단어
조회수 ...회

📏 AI 기반 줄 치기 유사도 평가

안녕하세요, 백제입니다.

저는 지금 고3을 담당하고 있어서, 문제 풀이를 최적화하는 수업을 매일 합니다.
그런데 그걸 하다 보면 종종 현타가 옵니다.
‘이게 과연 영어 교육의 본질일까?’ 하는 질문에서요.

오늘은 그 고민에서 시작해, 비판적 읽기를 점수화하는 형성 평가 시스템을 직접 프로토타입까지 만들어 본 이야기입니다.

슬라이드 1 — AI 기반 줄 치기 유사도 평가

📑 목차

  1. 문제의식
  2. 핵심 아이디어 — 줄 치기를 의미 벡터로
  3. 기술 구조
  4. 유사도 평가 방식
  5. 교육적 의미
  6. Devil’s Advocate와 연결 — AI 피드백과 인지 갈등
  7. 수집 가능한 데이터
  8. 연구적 가치
  9. 한계와 주의점
  10. 향후 확장

1. 문제의식

슬라이드 2 — 문제의식

영어 교과의 가장 큰 목표 중 하나는 읽기(reading) 입니다. 그런데 지금의 읽기 평가에서 목적은 오로지 ‘최종 정답’ 입니다. 학생이 어떻게 읽었든 안 읽었든, 마지막에 정답에 동그라미를 친 학생이 맞은 학생입니다.

이게 무슨 뜻이냐면, 학생이 어느 부분을 중요하게 읽고 있는지는 시험지에 전혀 기록되지 않는다는 것입니다.

오지선다형이 표준이 된 데에는 사실 정답이 있습니다. 찍는 확률을 20%로 낮추기 위해서입니다. (참고로 미국·토익의 사지선다는 25%지만, 출제 부담이 적어 그쪽으로 갑니다.) 즉 우리가 쓰는 평가의 메커니즘은 ‘어떻게 채점할 것인가’ 라는 행정적 효율 위에 만들어져 있고, ‘어떻게 읽었는가’ 는 그 메커니즘 안에 들어 있지 않습니다.

저는 수업에서 학생들에게 ‘답을 잘 찍는 법’을 설명하고 있는 제 모습을 종종 봅니다. 그럴 때마다 회의가 듭니다 — 줄 치기야말로, 그 학생이 어떻게 사고했는지를 보여 주는 가장 직접적인 데이터가 아닐까 하는 생각이 들어서요.

2. 핵심 아이디어 — 줄 치기를 의미 벡터로

슬라이드 3 — 핵심 아이디어

핵심 아이디어는 단순합니다.

  • 교사/전문가가 핵심이라고 판단한 문장에 기준 벡터를 부여합니다.
  • 학생이 강조한 문장을 임베딩(embedding) 벡터로 변환합니다.
  • 두 벡터의 의미 유사도를 계산해 점수화합니다.
  • 그래서 완전히 일치하지 않아도 부분적으로 맞는 이해도를 점수에 반영할 수 있습니다.

설계하면서 가장 조심한 한 가지가 있습니다. “기계가 중요하다고 판단한 것을 인간이 얼마나 따라잡았는가” 라는 그림이 되면 곤란하다는 점입니다. 자칫 ‘AI가 인간보다 더 잘 이해한다’는 메시지로 비칠 수 있으니까요. 그래서 중요한 문장을 정의하는 일은 최종적으로 교사가 합니다. AI는 채점·피드백을 거들 뿐, 판단의 권한은 교사에게 남깁니다.

3. 기술 구조

슬라이드 4 — 기술 구조

전체 구조는 네 단계입니다.

  • 학생 Highlighting 입력: 지문 위에 형광펜처럼 드래그해 중요한 문장을 표시합니다. 한 번 표시는 노란색, 두세 번 강조하면 색이 진해지며 가중치가 올라갑니다.
  • Sentence Embedding 생성: 표시된 문장을 벡터로 변환합니다.
  • Cosine Similarity 계산: 전문가 청크와의 의미 유사도를 측정합니다.
  • Firebase 및 로그 데이터 저장: 모든 표시·수정·제출 과정이 기록됩니다.

저희 학교가 아이패드 기반이라서, 학생들에게 가장 익숙한 인터랙션이 밑줄/형광펜이었습니다. 그래서 단어 클릭이 아니라 드래그로 표시하게 만들었습니다.

4. 유사도 평가 방식

슬라이드 5 — 유사도 평가 방식

이 평가는 이분법적이지 않습니다.

  • 동일 문장이 아니어도 의미가 비슷하면 점수를 부여합니다.
  • 표면적 키워드보다 문맥 의미를 중요하게 평가합니다.
  • 그래서 정답/오답 이분법이 완화됩니다.

학생이 줄 친 부분이 전문가 판단과 100% 일치하지 않더라도 70%, 80%처럼 부분 점수가 가능합니다. 가장 중요한 문장 / 어느 정도 중요한 문장 / 덜 중요한 문장 / 중요하지 않다고 판단된 문장 — 이렇게 그라데이션으로 다뤄집니다.

유사도 측정은 코사인 유사도(cosine similarity) 를 썼습니다. 다만 문맥적 의미의 최종 판단은 사람이 합니다. 특히 형성 평가, 그리고 위계가 있는 비문학 지문에 잘 맞는 도구라고 봤습니다.

5. 교육적 의미

슬라이드 6 — 교육적 의미

이 평가 도구로 우리가 얻는 것은 다음과 같습니다.

  • 학생의 읽기 전략 분석이 가능해집니다. 어느 문장에 가장 먼저 줄을 쳤는지, 어느 부분을 가장 진하게 강조했는지가 모두 기록됩니다.
  • 핵심 정보 탐색 능력을 정량적으로 측정할 수 있습니다.
  • 결과 위주 평가에서 과정 중심 평가로 한 걸음 옮겨갑니다.
  • 학생이 표시한 데이터를 바탕으로 AI 기반 맞춤 피드백을 줄 수 있습니다.

6. Devil’s Advocate와 연결 — AI 피드백과 인지 갈등

슬라이드 7 — Devil's Advocate와 연결

저는 이 도구를 단순한 채점기로만 두고 싶지 않았습니다. 그래서 중간에 AI 피드백 단계를 끼워 두었습니다.

  • AI가 학생이 강조한 부분에 반박을 던집니다. (“혹시 이 부분이 더 중요하지는 않을까요?”)
  • 학생은 자신의 근거를 재검토합니다.
  • 이 과정에서 인지 갈등(cognitive conflict) 이 유발됩니다.
  • 학생이 선택을 바꿔 가는 줄 치기의 변화 자체가 연구 데이터가 됩니다.

학생은 피드백을 읽고 ‘유지하기’ 또는 ‘수정하기’ 를 선택합니다. 최종 제출 시점에는 ‘피드백 전 선택’과 ‘피드백 후 선택’이 함께 비교되어 남습니다. 단순 오지선다의 인지 갈등(매력적인 오답 vs 정답)이 아니라, ‘무엇이 더 중요한가’ 라는 더 입체적인 사고를 다룰 수 있게 됩니다.

7. 수집 가능한 데이터

슬라이드 8 — 수집 가능한 데이터

기존 시험으로는 좀처럼 얻을 수 없던 데이터들이 자연스럽게 쌓입니다.

  • 최초 강조 위치 — 학생이 처음 어디부터 중요하다고 느꼈는가
  • AI 반박 후 수정 여부 — 외부 자극에 자신의 사고를 어떻게 다루는가
  • 최종 강조 변화 — 사고의 결말이 어디로 갔는가
  • 유사도 점수 변화 — 학생의 이해가 어떻게 정교화되었는가
  • 근거 정교화 정도 — 강조 강도와 분포의 패턴

학생이 어떤 읽기 과정을 거쳤는지가 통째로 데이터로 남는다는 점이 이 도구의 진짜 가치라고 생각합니다.

8. 연구적 가치

슬라이드 9 — 연구적 가치

이 데이터는 단지 채점에서 끝나지 않습니다.

  • 읽기 과정을 정량적으로 분석할 수 있는 자원이 됩니다.
  • 메타인지·비판적 사고에 대한 연구로 확장될 수 있습니다.
  • 학습자의 주의(attention) 패턴을 들여다볼 수 있는 창이 됩니다.

저는 이 데이터를 다운로드해 분석하면, 학생들의 읽기 전략과 정보 탐색 능력에 대한 빅데이터가 된다고 봅니다.

9. 한계와 주의점

슬라이드 10 — 한계와 주의점

물론 한계도 분명합니다.

  • 유사도가 항상 올바른 이해를 의미하지는 않습니다.
  • 어떤 학생은 굉장히 창의적으로 새로운 결을 따라 글을 읽습니다. 그렇게 읽은 학생을 ‘유사도 낮음’이라는 이유로 평가절하해 버릴 위험이 있습니다.
  • 임베딩 모델 자체가 가지는 편향도 존재합니다.
  • 그래서 교사 판단과의 병행이 반드시 필요합니다.

이 도구는 교사의 판단을 보조하는 도구이지, 대체하는 도구가 아닙니다.

10. 향후 확장

슬라이드 11 — 향후 확장

앞으로 가고 싶은 방향은 이렇습니다.

  • 학생별 읽기 프로파일 생성 — 한 학기 내내의 줄 치기 변화로 한 학생의 읽기 성향을 그려내기
  • 읽기 패턴 시각화 — 학급 단위, 학년 단위의 흐름을 보여 주기
  • LLM 기반 메타인지 피드백 — 정답이 아니라 “어떻게 읽었는가”에 대한 코칭
  • AI 기반 읽기평가 체계 연구로 확장 — ‘문제를 위해 만들어진 지문’이 아니라 실제 책·논문·기사처럼 학생이 진짜 읽어야 할 글에 이 도구를 붙이는 것이 궁극적인 목표입니다.

오늘은 여기까지입니다. 감사합니다.


💬 질의응답 (Q&A)

Q: 만든 도구를 실제 수업에 쓰고 계신가요?
A: 아직 본격적으로는 못 하고 있습니다. 고3을 맡고 있어서 조심스럽습니다. 처음에는 수업 전체에 넣어 보려 했는데, 우선은 원하는 학생들 위주로 시도해 볼 생각입니다.

Q: 글 읽기의 목적은 사실 다양한데, 이 도구는 ‘중요한 부분 찾기’만 반영하는 것 아닌가요?
A: 일단은 읽기 이해 능력에 초점을 맞췄습니다. 다만 학생이 표시한 곳에 따라 사고의 방향을 어느 정도 측정할 수 있다고 보고 있습니다. 중간 AI 피드백을 통해 학생이 글의 다양한 결에 주목하도록 유도하려 했는데, 이게 생각보다 쉽지 않더군요. AI가 “재미없게” 말하면 학생이 잘 받아들이지 않습니다. 결국 읽기는 글 자체에 집중하는 것이 맞다고 저도 생각하지만, 중간에 대화식 코칭을 끼우는 접근도 가능성이 있어 더 실험해 볼 계획입니다.

Q: 처음에는 다른 버전(객관식 + 반박)도 만드셨다고 들었습니다.
A: 네, 원래는 AI가 정답에 반박하고, 중복 답과 ‘답 없음’을 섞는 객관식 변형도 만들었었습니다. 그런데 만들수록 너무 복잡해져서 점점 문제은행식 풀이처럼 변해 가더라고요. 그래서 본질에 더 가까운 지금의 단순한 형태로 돌아왔습니다. 둘 다 장단점이 있지만, ‘줄 치기’만 남겨 본질에 집중하는 쪽으로 정리한 것입니다.


🔗 연관 글

🎨

필진: 백제

인공지능 기술에 대한 이해도가 가장 높으며, 직접적인 AI 도구 활용과 프롬프트 엔지니어링 등 뛰어난 기술력을 바탕으로 전문 지식을 공유합니다.

AI 딥러닝 프롬프트엔지니어링