본문 바로가기
안드로이드

[안드로이드] 텍스트 파일의 캐릭터 셋(Character Set) 얻기

by 호군 2012. 9. 4.
반응형

텍스트 파일를 읽으려면, 해당 파일의 인코딩 형식을 알아야 한다.

그러면 파일의 인코딩 형식을 어떻게 알아 낼 수 있을까?


이 작업을 해주는 라이브러리가 제공 되고 있는데, 그 라이브러리 이름은 juniversalchardet 라고 한다.

 Google Code URL - http://code.google.com/p/juniversalchardet/ 


juniversalchardet이 아래 jchardet을 기반으로 만들어 진것으로 보인다.

 Sourceforge URL - http://sourceforge.net/projects/jchardet/files/



juniversalchardet 소스는 svn으로 받아야 한다. 편하게 다운로드 하기 위해서 압축파일로 첨부한다.


juniversalchardet-1.0.3.zip



자막의 인코딩 형식을 알기 위해 사용했었는데.. 생각보다 정확도가 높지 않다.

아니 생각보다 더 낮다. 그리고 잘 못 알아내는 것도 있었다.

아마도 일반 텍스트 파일들은 어느 정도 찾아 낼 것으로 보이지만, 특정 형식을 포함하는 문서는 Detect 확률이 낮은 것으로 보입니다.

반응형