Universal Encoding Dectector라는 캐릭터셋 인코딩을 찾아내는 코드가 있다. 파인썬으로 구현되어 있다.
http://chardet.feedparser.org/
문서에 보면 자세한 설명이 나와있는데, 모질라 프로젝트에 있는 프로그램을 포팅해서 만들었다고 한다.
http://lxr.mozilla.org/seamonkey/source/extensions/universalchardet/src/base/
그리고 아래 문서에는 어떻게 캐릭터셋을 찾아내는지 설명되어 있다.
http://www.mozilla.org/projects/intl/UniversalCharsetDetection.html

comments
comments rss (+댓글 쓰러가기)