빅데이터로 보는 성서 – 도구 사용하기

인터넷이 고도로 발달하고, 온라인 상에 어마어마한 자료들이 축적되면서, 소위 빅데이터라는 것이 형성되었습니다. 빅데이터 분석이란 개개인이 인터넷이 올린 방대한 자료들을 검색해서 사람들이 어떤 생각을 갖고 있으며, 어떤 소비 형태를 갖고 있는지 혹은 어떤 정치적 성향을 갖고 있는지를 분석하는 것을 의미합니다. 현재 대기업들이 마케팅을 위해 이런 빅데이터 분석을 많이 활용하고 있으며, 정치권에서도 이런 빅데이터를 이용해 선거 전략에 이용한다고 합니다. 특히 미국의 오바마 대통령은 빅데이터를 이용한 선거 전략이 당선에 크게 작용했다고 전문가들은 이야기하고 있습니다.

빅데이터는 문학에서도 적용될 수 있습니다. 한 작가의 여러 작품들을 데이터화 해서 빅데이터를 형성하면, 그 작가가 어떤 단어를 주로 많이 사용하는지, 혹은 어떤 문체를 많이 사용하는지를 알 수 있습니다. 이런 데이터를 형성해 놓으면, 어떤 익명의 글이 있을 때, 문체/단어 분석을 통해 이 익명의 글이 누가 쓴 글인지도 추측할 수 있게 도와줍니다. 이처럼 빅데이터는 다양한 분야에서 많이 사용될 수 있는 유용한 틀이라고 볼 수 있습니다.

저는 이러한 데이터 분석을 위해 간단한 성서 문학 통계프로그램을 만들었습니다. 이 프로그램 링크는 “유용한 도구”를 클릭하시면 찾을 수 있습니다.

사용 방법은 일단 성서 단락 코드를 입력해 넣어야 합니다.

성서 단락 코드 입력 요령: 성서코드(1자리 혹은 2자리 숫자)* + 장(3자리 숫자) + 절(3자리 숫자)

예를 들어 창세기 1:1-10:1의 히브리어 단어 통계를 검색해 보고 싶다고 하면 아래와 같이 입력하면 됩니다.

1001001-1010001

또한 복수의 단락도 검색가능합니다. 출애굽기 1:1-2:1과 사무엘하 1:1-3:1의 단락을 모두 포함시키기 원한다면 아래와 같이 입력하면 됩니다.

2001001-2002001; 10001001-10003001

입력창 아래에 있는 체크박스(Ignore the small particles)는 중요도가 떨어지는 문법요소를 제거할 지 여부를 정하는 것입니다. 예를 들어 목적격 전치치사 את의 경우, 의미상 큰 비중이 없는 요소이지만, 상당히 많은 빈도수로 성서에 나오기 때문에 통계에 방해를 줄 수가 있습니다. 이런 중요도가 떨어지는 문법 요소를 배제하는 옵션입니다.

그리고 그 아래는 빈도수가 낮은 단어들을 무시하는 것입니다. 통계의 결과값을 보면 각 단어의 빈도수와 더불어 전체 단락에서 이 단어가 차지하는 통계 비율(ratio)도 볼 수 있습니다. 예를 들면 전체 단락 범위 가운데 단 1번 등장하는 단어는 굳이 검색 결과에 포함시킬 필요는 없겠죠. 그래서 최저 통계 비율을 입력해서 결과를 효율적으로 보기 위한 옵션입니다. 권장값은 0.01(1%)입니다.

이 모든 설정이 완료되었으면 결과값을 볼 수 있습니다. 세 가지 옵션이 있는데, 하나는 결과값을 브라우저 상(Web)에서 보는 것이고, 두 번째는 결과값을 엑셀 파일(Excel)로 다운 받는 방법입니다. 엑셀 파일로 다운을 받으면 엑셀의 필터 기능을 이용해서 결과값을 보기 좋게 정렬할 수 있습니다. 단, 엑셀 파일을 받아서 열 경우, 오류 메시지가 나올 수 있는데, 그냥 무시하시고 ‘확인’ 버튼을 계속해서 누르면 됩니다. 결과값은 히브리어 단어, 스트롱 코드, 빈도수, 비율로 출력됩니다. 웹에서 결과값을 확인할 경우 스트롱 코드의 링크를 클릭하면 히브리어 사전으로 연결됩니다.

마지막 세 번째 옵션은 클라우드(Cloud) 옵션입니다. 이는 단어 클라우드를 검색하는 옵션으로, 시각적으로 단어의 빈도수 내지 비중을 확인할 수 있는 옵션입니다. 주의할 사항은 클라우드 옵션을 사용하기 위해서는 ‘자바‘가 설치되어 있어야 하며, 익스플로러 환경에서 실행해야 합니다.

아직은 테스트 버전이기 때문에 미흡한 부분이 많이 있지만 앞으로 지속적으로 보완해 나갈 예정입니다.