이해황T(국어의기술) [27444] · MS 2003 (수정됨) · 쪽지

2023-03-31 13:22:55
조회수 22,711

L-그래프와 영단어 분포

게시글 주소: https://io.orbi.kr/00062562258

1. L-그래프

2023수능국어에 L-그래프가 출제됐습니다.

L-그래프는 일반적으로 통용되는 표현은 아니고, 가로축과 세로축 눈금을 모두 로그눈금(log scales)으로 바꾼 log-log plot을 가리킵니다.



두 변수의 관계가 log-log plot에서 직선으로 표현되면, 멱함수 분포(power Law Distribution)를 따른다고 합니다. 


이게 무슨 돼지 (목의 앞쪽) 따는 소리인가, 'power'는 도대체 무슨 소리인가 싶을 텐데, 그냥 거듭제곱함수 모양이라고 생각하면 됩니다. 



y=x², y=x³ 같은 거듭제곱함수를 함수(power function)라고도 하거든요.




2. 멱함수와 거듭제곱함수의 차이

y=2^x, y=3^x 같은 지수함수와 헷갈리면 안 됩니다. 거듭제곱함수는 양축 모두가 로그눈금일 때 직선 모양이 나오지만, 지수함수는 세로축 한쪽 눈금만 로그눈금일 때 직선 모양이 나와요.



위 이미지는 제가 그린 것이고, '그래프 개념어' 무료배포(96쪽)에 실려 있습니다. 2021년 5월에 https://orbi.kr/00037740852로 배포했는데, 이 글 쓰며 확인해보니 다운로드 횟수가 10,000이 넘네요. 아직 다운 받지 않은 분들이 있다면 일단 받아두세요.




3. 멱함수는 자연의 법칙?

L-그래프에서 직선으로 표현되는 멱함수는 다양한 곳에서 발견됩니다. 이 내용이 2010학년도 언어추론에 다음과 같이 출제된 적도 있습니다.




이외에도 지구과학 선택자라면 봤을 법한 질량-광도 관계라든가,



지진의 규모와 빈도도 L-그래프에서 직선으로 표현됩니다.

위 그래프는 세로축에만 '상용로그 단위'라고 써있지만, 가로축의 규모는 원래가 로그값으로 표현되기 때문에 L-그래프입니다.



'세상물정의 물리학'(통계물리학자 김범준 교수 저)를 보니, 대다수 나라에서 사람의 성씨 분포도 멱함수를 따른다고 하더라고요. 그런데 한국은 성씨 집중도가 높아서, 즉 김/이/박/최/정의 비율이 압도적으로 높다보니 멱함수가 아니라 지수함수 분포를 따른다고 하고요. (지수함수는 멱함수보다 훨씬 더 빠르게 증가/감소합니다.) 




4. 지프의 법칙(Zipf's law)

언어학자 지프(George Kingsley Zipf)는 자신의 이름이 붙은 법칙을 남겼습니다.


이 사람이 처음 발견한 것은 아닌데, 이분 때문에 유명해져서 하여튼 지프의 법칙으로 불립니다. 이상하게 생각할 거 없습니다. “수학공식, 정리의 이름이 최초 발견자의 것으로 정해지는 경우는 매우 드물다.”라는 스티글러의 명명법칙(Stigler’s law of eponymy)이 있는데, 이 말도 스티글러가 처음 한 말은 아니에요. ㅎㅎ


하여튼 지프의 법칙은 순위(rank)빈도(frequency)의 분포가 멱함수를 따르더라, 즉  L-그래프에서 직선 모양이라는 겁니다.




5. 조교나 연구원이 없는 강사

저는 조교나 연구원 없이 혼자 일하다 보니, 교재 작업과 강의 준비를 다른 강사들보다 효율적으로 움직여야 경쟁을 할 수 있습니다. 그래서 '기출문장 차자조'라는 프로그램을 만들었습니다. 



무척 간단한 프로그램이에요.


단어를 입력하면,

그 단어가 포함된 기출문장을

출처와 함께

색칠해서 보여줍니다.


이걸 보고 수험생 분들은 별 감흥이 없겠지만, 가르치시는 분들은 눈이 번쩍 뜨일 거예요. 실제로 SNS에 올렸더니 구매하고 싶다는 연락도 여럿 받았습니다.



수능이 1994학년도부터 시행됐으니, 그간 쌓인 기출문제가 어마어마합니다. 또 요즘 국어강사는 수능뿐만 아니라 PSAT/LEET/MEET/사관학교/경찰대학 기출문제도 다뤄야 해요. 강사가 아무리 머리가 좋아도, 조교나 연구원이 아무리 많아도 관련 기출문제를 체계적으로 정리하고 찾는 게 쉬운 일이 아닙니다.


근데 이 프로그램이 있으면 유사 기출문제를 바로 찾을 수 있고, 출제기관들에서 특정 개념을 어떻게 쓰고 있는지도 쉽게 살펴볼 수 있습니다. 예를 들어, '가능세계'를 검색해보면, 19학년도 11월 수능, 2023년  5급 PSAT 언어논리, 2023학년도 LEET 추리논증 등에 출제됐음을 확인할 수 있습니다.





6. 영어도 기출문제도 차자조

국어강사 분들 만큼이나 영어강사 분들이 '기출문장 차자조' 구매애 관심을 보여주시더라고요. 어휘 교재나 구문 교재에 도움이 될 것 같다면서요. 그래서 기능을 추가해서 영어 검색용도 만들어봤습니다. 대소문자 구별과 품사나 문장성분으로도 검색할 수 있게 했어요.



근데 문제가 하나 있었습니다.

편집가능한 전개년 영어기출 시험지가 없더라고요.

이 검색 프로그램을 돌리려면, txt파일로 변환된 시험지가 꼭 필요하거든요.


평가원에서 시험지를 pdf로 제공하긴 하는데, 이거 드래그해서 ctrl+c, ctrl+v하거나, txt파일로 내보내기 해보신 분들은 아시겠지만... 줄바꿈, 구두점 등이 엉망으로 나옵니다. 좌우 2단편집된 내용이 뒤섞여서 나올 때도 있고요. 게다가 저는 파이썬으로 작업하고 있었는데, PyPDF2로 txt를 추출하게 하면 정말 엉망진창이었어요. 


엉망으로 나오더라도 패턴이 있으면 이를 반영해서 보정하면 되는데... 패턴이 원래 없는 건지 제가 머리가 나쁜 건지 보이지가 않더라고요.


다행히 모 영어강사분이 hwp로 편집한 기출시험지를 제공해주시긴 했는데, 편집된 파일 간 일관성이 떨어져서 결국은 전처리 중에 어디선가 문제가 터졌고요.


그래서 다 갈아엎고 처음부터 고민했습니다.

어떻게든 원본 pdf에서 txt를 깔끔하게 뽑아내 보자.


다행히 뛰다가 문제를 해결할 수 있는 근본적인 아이디어를 떠올렸고, (TMI. 이번주 일요일에 10km 달리기 대회 나감..) 여기에 단순무식하게 예외를 처리하는 코드를 추가해서

총 78회분 평가원 시험지를 깔끔하게 txt파일로 변환할 수 있었습니다.




7. 다시, 지프의 법칙

언어 말뭉치로 가장 쉽게 해볼 수 있는 분석이 텍스트 빈도 분석입니다. 78회분 영어 시험지를 넣고, 단어별 빈도를 조사한 후, 이를 L-그래프에 옮겨봤어요.


코드 짜는 것부터 결과 뽑기까지 5분도 안 걸렸던 것 같은데, 어제 새벽에 진짜 소리 질렀어요. 아름다운 결과더라고요. 2023학년도 수능에 '최소 제곱법'까지만 나오고, R^2에 대한 설명은 안 나왔는데, 하여튼 뚜렷하게 멱함수 분포를 따른다고 할 수 있습니다.





8. 이후 계획

'기출문장 차자조'는 개인적 필요에 의해서 만든 프로그램이긴 한데, 저 혼자 쓰기에는 너무 멋진 프로그램이라, 웹에 올려보려고 합니다. 일단 이 책 주문했는데, 틈틈 공부해서 구현해보겠습니다. 


흔하 국어강사의 이상한 취미생활




9. 아무말

2023학년도 수능 L-그래프 지문에서 '증가율'은 '배율' 혹은 '증배율'로 수정되어야 합니다. 이에 대해서는 전기추2 해설강의에서 자세히 설명했습니다.




이상, 오르비클래스 국어 강사, 이해황이었습니다.

rare-머리야 터져라! rare-이해황 rare-하트라봉이

0 XDK (+0)

  1. 유익한 글을 읽었다면 작성자에게 XDK를 선물하세요.