AI 활용 역량 평가 AISC 시작글

다사다난한 16기 소프트웨어 마에스트로가 마쳐가는 가운데

애증의 프로젝트인 AI 활용 능력 평가 AISC에 대한 기획부터 구현,배포까지의 전체 이야기를 쓰려고 한다.

 

처음 AI활용능력평가를 기획하게 된 것은 "코딩 테스트" 때문이었다.

현재 소프트웨어 마에스트로에서 순수하게 자신이 코딩하며 프로그래밍하는 친구들은 100명 중에 1명꼴이라고 할 정도로 많이 없다.

그 이유는 AI를 활용하여 빠르고 쉽게 개발이 가능하기 때문이다.

여기서 한 가지 문제를 정의하게 됐다.

AI 활용 역량을 제외한 실무 역량 평가는 실효성이 있는가?

 

쉽게 말하면 "실무에서는 AI를 활용해서 코딩하는데, 개발자 역량을 테스트할 때는 AI 활용하지 않은 코딩 테스트가 웬말인가?"에서 AI활용역량 평가 프로젝트를 시작했다. 

 

말이 AI 활용 역량 평가 프로젝트이지 실상은 AI를 활용한 실무 역량 테스트를 준비했다.

과제형 실무 역량 테스트인데 AI를 곁들였다고 보면 된다.

그렇게 실무 역량을 초점으로 하다보니 몇 가지 문제점들이 도출되었다.

  1. 특정 도메인 중심의 서비스(작은 시장 크기)
  2. 실무 과제의 수급
  3. 기존 경쟁 서비스의 존재

이러한 문제점들을 두고 팀에서 회의하며 고려해 보았을 때,

실무 역량을 중심으로 가는 것이 아닌 AI 활용 역량을 테스트 하는 것으로 피봇(Pivot)하기로 결정했다.

위의 문제점들을 해결할 수는 있겠지만, 해결 과정이 소프트웨어를 개발하는 것이 아닌, 개발 이외의 액션이 더 중요하다고 예측되었다.

우리의 팀 목표가 "소프트웨어 개발을 통해서 실 사용자를 유치해보자"였기 때문에 "AI 활용 역량"을 평가하는 소프트웨어를 개발하는 것으로 최종 결정하게 됐다.


# AI 활용 역량을 어떻게 평가할 것인가?

#1  인지적 사고과정에 기반한 평가

"AI 활용 역량"을 초점 맞춘 순간 명확하게 AI 활용 역량이 무엇이고 그 활용 역량을 평가하기 위해서 요구되는 사항이 어떤 것들이 있는 지 분석할 필요가 있었다. 그리고 그 분석된 결과가 고객들을 설득할 수 있는 충분한 근거인지를 지속적으로 검증해야 했다.

 

처음에는 "사람의 인지 과정이 AI 활용 역량을 평가하는 지표가 될 수 있다." 라는 모호한 가설로 시작했다. AI라는 도구를 사용하는 사람의 역량 평가가 초점이기에 사람의 전반적인 인지 과정이 AI 활용 역량 평가와 관계될 수 밖에 없다고 생각했기 때문이다. 

그리고 그 가설은 "인지사고 과정과 관련된 논문(사고와 문제해결 심리학: 인지의 이론과 적용)"을 통하여 인지 사고 과정 체계를 구체화시켰고, 이를 정량적으로 측정하기 위한 프롬프트 로그 기반 지표를 설계했다.

초기 인지적 사고 과정에 따른 평가를 위한 정량적 지표 설계

AI 활용 역량을 평가할 때, 문제 해결에 기반한 평가를 실시할 예정이므로 각 인지적 사고 체계를 문제 해결을 위한 행동과 연결 시켰고 그것들을 사용자가 입력한 프롬프트로 측정하기 위한 프롬프트 로그 기반 지표를 생성했다.

여기까지의 과정을 통해서 모호한 AI 활용 역량에 대하여 인지적 사고 과정에 기반한 "우리만의 정량화 기준"이 만들어졌다.

#2 일반적인 평가 기준 수립

그다음으로 해결해야 하는 과제는 "우리만의 기준"이 모두를 설득할 수 있는 "일반적인 평가 기준"으로 만드는 것이었다.

그러기 위해서는 현재 우리의 평가 기준에 따른 대단히 많은 평가 데이터가 필요했지만 우리는 다음의 이유로 평가 데이터를 확보하기 어렵다고 느껴 다른 방안을 생각해 보아야 했다.

  1. 프로젝트 마감 시기인 11월 말까지 충분한 데이터(2000개 이상)를 모을 수 없다.
  2. 수험자에게 줄 수 있는 충분한 리워드(Reward)가 없다.

 대안으로 선택한 방법은 신뢰성을 다른 곳에서 가져오는 것이다.

"인지적 사고 과정"을 논문에 기반해서 설계하였던 것처럼 다른 공신력 있는 평가 체계를 기반으로 설계한다면 해당 평가의 신뢰성을 가져올 수 있다고 판단했다. 그 중 가장 매력적인 아이템은  Bloom의 분류법(Bloom's texonomy)였다. Bloom의 분류법에 따라서 대부분의 시험 문제 출제 및 평가가 이뤄지고 있어 사람들에 의해서 검증된 "인지적 사고 과정"이라고 판단했고, 이에 따라서 8가지 역량을 기억·이해·적용·분석·평가·창조라는 6가지 역량으로 재구성했다.

 

위의 역량들을 평가하는 방식은 수험자와 AI가 상호작용한 프롬프트 전체 내용을 분석하여 각 역량별로 평가하도록 설계했다.

이로 인해서 크게 고려된 문제점이 두 가지였는데, 하나의 문제를 풀기 위해서 상호작용한 프롬프트의 내용이 방대함으로 초래된 해석의 어려움과 같은 이유로 발생하는 평가 완료 속도의 문제였다.

 

이 문제들을 해결하기 위해서 우리는 AI를 활용하기로 결정했다. 현재의 고도화된 LLM은 많은 양의 입력을 정확하게 분석하면서도 빠르게 일을 수행할 수 있다고 판단했고, LLM을 사용하는 비용이 사람을 고용하는 비용보다 더 싸고, 건당 비용으로 지불되기에 불필요한 비용이 발생하지 않을 것 같았다. 그렇게 우리는 역량을 평가하는 채점 루브릭을 AI에게 입력시킬 프롬프트로 만들어 "일반적인 평가 기준"을 수립했다.


위 AI 활용 역량 평가에 대해서 궁금하신 분은 직접 이용해 보실 수 있으십니다.
현재 문제 풀이는 무료로 이용하실 수 있지만 역량 평가 리포트가 필요하신 분은 kimdaegun1114@gmail.com 메일로 연락주세요.

현재 기간(2024.10.01~2024.11.20)한정으로 설문조사를 해 주시는 분께 평가 리포트를 무료로 제공해드립니다.

www.aisc.ac  

 

AISC - AI 활용능력평가

AI와 함께 문제를 해결하고 당신의 실력을 평가받아보세요

www.aisc.ac