대부분의 사람들을 평생 겪을 일이 없는 것이겠지만 LaTeX으로 영어 문서를 편집하는 사람들에게는 유니코드가 여간 말썽이 아니다. 예를 들어, MS Word 에서 작성한 초고를 LaTeX으로 붙여 넣기를 해버리면 ASCII 코드로 표시되어야 할 따옴표, 겹따옴표 따위가 '이쁜' 따옴표 (MS Word 표현으로는 둥근 따옴표) 로 바뀌어 버리고 LaTeX 에서는 이를 가벼이 무시해 버린다. 그래서 LaTeX 으로 처리한 문서에서 I don't know 가 I dont know 로 표시되는 등의 부작용이 생긴다. Vim 에서 이렇게 7비트 ASCII 가 아닌 글자를 다 찾아내는 법은 다음과 같다.

우선 문서를 latin1 코딩으로 새로 저장한다.
:set fenc=latin
:wq!
그리고 문서를 다시 열어서 다음과 같이 검색해서 걸리는 놈이 있어서 잡아 족치면 된다.
/[\x80-\xff]/
물론, 애초에 MS Word 등에서 자동으로 둥근 따옴표 등의 이상하게 "이쁜" 글자로 만들어 주는 기능을 꺼두는 것도 이런 경우에는 도움이 될 수 있다. 자동 고침 기능을 끄려면, 오피스 단추 --> Word 옵션 --> 언어 교정 --> 자동 고침 에서 조정할 수 있다.
posted by 신묘군

댓글을 달아 주세요

  1.  Addr  Edit/Del  Reply 신묘군

    MS Word 에서 작성한 문서를 다른 이름으로 저장하기로 해서 ASCII 코딩을 선택하면 ASCII로 안되는 글자(예를 들어 둥근 따옴표 등)는 모두 물음표(?)로 바뀐다. 뭐, 상황에 따라서는 괜찮은 선택일 수도 있다.

    2009.03.30 17:49

wvware와 catdoc을 깔아야 된단다. 관련 링크 --> http://desktop.google.com/support/linux/bin/answer.py?hl=en&answer=76816
posted by 신묘군

댓글을 달아 주세요