[C프로그래밍] 한글 코드
- 최초 등록일
- 2008.07.07
- 최종 저작일
- 2005.04
- 11페이지/ 어도비 PDF
- 가격 2,000원
소개글
컴퓨터에서 한글을 표현하기 위해 사용되는 여러 코드(완성형, 조합형 등)에 대해 조사한 보고서입니다.
목차
1. 한글 코드
2. 한글 코드의 종류와 원리
2-1. N바이트 한글 코드
2-2. 3바이트 한글 코드
2-3. KSC5601-1987 완성형 코드
2-4. 상용 조합형 코드
2-5. KSC5657-1991 확장 표준 코드
2-6. KSC5601-1992 조합형 코드
2-7. 확장 완성형 코드
3. 완성형 코드(KS완성형)의 문제점
4. 조합형 코드의 문제점
5. 조합형과 완성형 코드의 비교
6. 유니코드
6.1 유니코드 1.0 & 1.1
6.2 유니 코드 2.0 (& ISO 10646 개정판)
7. 유니코드 일반적인 구조
8. 유니 코드에서의 한글 처리 원리
9. 유니코드에서의 한자 사용
10. 유니코드는 한글 및 한국어를 완벽하게 처리할 수 있는가
11. 한글 코드 변환의 필요성
12. 코드 변환 : KS완성형, 조합형(상용, 표준), 유니코드 사이의 변환.
12.1 KS완성형 <-> 조합형(상용)
12.2 KS완성형 <-> 유니코드
12.3 조합형 <-> 유니코드
12.3-1 조합형 코드에서 자소 구하기
12.3-2 유니완성형에서 자소 구하기
본문내용
한글 CODE
-완성형, 조합형, UNICODE에 대하여-
1. 한글 코드
컴퓨터는 2진수 형태로 정보를 처리하기 때문에 인간이 사용하는 언어로는 정보 처리를
할 수 없다. 그래서 컴퓨터의 이진수와 인간의 언어를 대응 시켜 사용하는 데 그 대응관계
가 문자 코드이다. 그러므로 한글 코드라는 것은 한글 및 한국어를 컴퓨터 내부에서 이진수
로 처리하도록 정의해 놓은 문자 집합이다. 여기서 한국어라고 하는 이유는 한글과 함께 사
용하는 숫자, 영문자, 한자, 기타 등등의 문자를 포함하기 때문이다.
국내에 컴퓨터가 보급되기 처음 보급된 시기에는 영어권 문화에서 만들어진 기계였으므로
한국어로 된 명령과 한국어를 처리할 수 있는 프로그램이 절실하게 되었다. 그런데 가장 큰
문제는 컴퓨터가 1바이트(BYTE) 체계라는 것이었다. 이렇게 되면 최대한 표현할 수 있는
문자수가 256자로 제한되며 11172자의 현대 한글을 표현하기에는 턱없이 부족했다. 이에
한글 처리 방법이 개발 현재까지 발전을 거듭하며 사용되고 있다.
2. 한글 코드의 종류와 원리
1-1. N바이트 한글 코드
한글을 풀어 쓴 것과 같이 각각 자음과 모음을 한 바이트씩 처리하는 코드 방식이다.
한글 한 음절을 표현하기 위해 2바이트에서 5바이트까지 사용한다. 보통은 멀티바이트
(multi-byte)코드라고도 하며 80년대 초반에 널리 사용되었다. 7비트 아스키 환경에서도
사용할 수 있다는 장점이 있지만 한글 처리에서는 적합하지 않아서 곧바로 사라졌다.
문제점 : 문자를 비교하거나 순서대로 정렬(sort)할 경우에 한글 순서와 맞지 않는다는 것
이다. 현재에 정보 검색, 맞춤법 검사, 자동 색인, 형태소 분석 등등에서는 N바
이트 코드방식을 이용하고 있기 때문에 문제는 더 크다. 사용 이유는 완성형이
나 조합형 코드로는 언어 정보를 처리할 수 없기 때문인데, 현대어는 물론이고
옛한글은 더욱 불가능하다.
<N바이트 한 음절 구성 예>
나 = ㄴ + ㅏ => 2바이트
닥 = ㄷ + ㅣ + ㄱ => 3바이트
삶 = ㅅ + ㅏ + ㄹ + ㅁ => 4바이트
괆 = ㄱ + ㅗ + ㅏ + ㄹ + ㅁ => 5바이트
참고 자료
없음