2010-08-16

[링크] Invalid XML Character

UTF-8 인코딩을 준수하는 문자 중에도 XML에서는 유효하지 않은 문자가 있다. (CDATA 혹은 escape 처리해야하는 <, > 등과는 별개로)


아래 링크는 이 유효하지 않은 XML 문자를 제거하는 방법을 다룬 블로그 포스트이다.

Invalid XML Characters: when valid UTF8 does not mean valid XML

2010-08-08

HTML 텍스트 태그

단락을 구성하는 텍스트 중에서 특정 부분만을 다르게 표현해야 하는 경우가 있다. 이 때 의도와 결과(웹 브라우저에 표시되는 모습)를 구분하고 초점을 결과가 아닌 의도에 맞추어야 한다. 강조하기 위해서 진하게 표현하는 것일 뿐 진하게 표현하는 것 자체는 중요하지 않다.


XHTML에는 의도를 명시하기 위한 텍스트 태그와 표현을 위한 텍스트 태그가 있다.


의도를 명시하기 위한 태그는 다음과 같다.

  • abbr - 약어
  • acronym - 두문자어
  • cite - 인용 출처
  • code - 프로그램 소스 코드(컴퓨터 관련 문서와 매뉴얼에서 주로 사용)
  • dfn - 용어나 경구
  • em - 강조
  • kbd - 사용자가 (키보드로) 입력하는 명령어(컴퓨터 관련 문서와 매뉴얼에서 주로 사용)
  • q - 인용글
  • samp - 텍스트로 표시되는 프로그램 실행 결과(컴퓨터 관련 문서와 매뉴얼에서 주로 사용)
  • strong - 매우 강조
  • var - 변수(컴퓨터 관련 문서와 매뉴얼에서 주로 사용)


표현을 위한 텍스트 태그는 다음과 같다.


  • b - 진하게(bold)
  • i - 기울이기(italic)
  • big - 크게(larger)
  • small - 작게(smaller)
  • tt - 모노스페이스 폰트로 표시하기(monospaced, teletypewriter)
  • sup - 텍스트를 위에 기입하기(어깨글자, superscripted)
  • sub - 텍스트를 아래에 기입하기(subscripted)


sup와 sub 태그를 제외한 표현을 위한 텍스트 태그는 사용하지 않는 것을 권장한다.


XHTML에서 삭제된 표현을 위한 태그들도 있다.

  • blink - 텍스트 깜빡이기
  • strike - 가운데 줄 긋기
  • s - strike와 동일
  • u - 밑줄 긋기
  • basefont - 페이지 전체 글꼴 설정
  • font - 글꼴 설정

cite와 q

q 태그는 인용하는 내용 자체를 명시하는데 사용하고, cite 태그는 출처를 명시하는데 사용한다.

홍세화 기자는 한겨레 신문에 기고한 <cite>의식과 정서</cite> 칼럼에서 정운찬 전 총리에 대해 <q>애당초 그의 정서는 불관용으로 악착스런 이 정권에 어울리지 않았다. 그러나 그는 권좌의 길을 택했다. 후배와 제자들의 끈질긴 만류가 있었지만 소용없었다. 그에게서 학문적 심지로서는 유약한 대신 “우리가 나라를 이끄는 주역이다”라는 주장 뒤에 숨어 있는 권좌에 대한 친화력에서는 무척 강한 한국 사회 엘리트의 자화상을 확인한다는 것은 즐거운 일이 아니다.</q>라고 평가하고 있다.

abbr과 acronym

두 태그를 나타내는 단어 abbreviation과 acronym을 모두 약어로 번역하면 차이가 명확하지 않지만, acronym을 두문자로 번역하면 그 차이를 쉽게 알 수 있다. abbr 태그는 한단어를 줄여 쓴 경우에 사용하고, acronym은 여러 단어의 앞 글자만을 대문자로 이어 표기한 경우에 사용한다.

  • abbr - Jan.(January), Mr(Mister), Ltd.(Limited), ad(advertisement), exam(examination)
  • acronym - CEO(Chief Executive Officer), BBC(British Broadcasting Corporation), DOS(Disk Operating System)