Mac 용 R에서 잘 읽지 못 하는 한글 파일을 잘 읽는 방법

한국에서는 워낙 윈도우가 압도적으로 사용되는 곳입니다. 그래서 맥을 사용하는 사람 입장에서는 윈도우에서 만든 기본적인 자료, txt나 csv 형식 자료를 읽는데 가끔 문제가 생기기도 합니다. 물론 맥에서 작업하던 파일을 윈도우에 가져와 작업하려면 문제가 많이 발생합니다.

R을 사용할 때도 문제가 많이 생깁니다. 이는 파일에 들어가는 글자를 어떤 형식으로 구성하느냐 하는 문제, 즉 인코딩 문제 때문입니다. 일반적으로 윈도우는 euc-kr를 사용하고, 반면에 맥이나 리눅스는 utf-8을 사용하기 때문입니다.

이 문제를 극복하기 위한 여러가기 꼼수가 있었지만, R에서 이를 처리하는 함수를 하나 만들어서 처리하는 방식이 있어서 소개하고자 합니다. 이 방법은 r에서 한글문서 열때 인코딩 문제 에 소개된 것입니다. 뭐 이 글의 아이디어를 제가 했기 때문에 여기에 소개해도 무방할 것 같네요 ^^;

뭐 사용하는 방법은 간단합니다. 우선 이 함수를 사용하기 위해서 library(readr)을 입력합니다. 만약 에러가 난다면, install.packages("readr”)이라고 실행해서 패키지를 설치합니다. 패키지가 설치가 안 되면 R을 최신 것으로 설치하시면 됩니다. 그리고 다음과 같이 함수를 입력합니다. 전체 과정은 다음과 같이 하시면 됩니다.

https://gist.github.com/dialektike/fd38a8fe76f32ddf41559bac144d6878

R을 많이 사용하신 분은 어떻게 사용할지 감을 잡으셨겠지만, 저와 같은 초보자를 위해서 한 번 사용해보겠습니다. 우선 다음 링크를 눌러서 사용할 샘플자료를 다운 받으세요! 바로 저장하시면 됩니다.

이 자료에 들어 있는 2017_7_8_KBO_win.csv 파일을 R에서 자료를 읽을 수 있는 폴더에 넣으세요. R에서 dir()을 입력했을 때, 위 파일 이름이 있는지 확인하세요.

맥에서 이 파일을 읽는 진행과정은 다음과 같습니다. 처음에는 read.csv()을 사용해서 읽는데 실패했던 파일이 read.any()을 이용해서는 성공하네요.

https://gist.github.com/dialektike/8c877a79135629544cce2ccd59d27b85