컴퓨터 사이언스 부트캠프 with 파이썬

4장 문자와 문자열

1. 아스키코드

대표적인 문자 인코딩 방식이다. 문자 하나에 정수 하나를 매핑해 특정문자를 표현.

  • 매핑된 정수를 코드포인트라고 하며,
  • 코드포인트를 모아 놓은 집합을 부호화된 문자 집합 (Coded Character Set, CCS)라고 한다.
  • 비트 7개로 문자를 표현하므로 총 128개까지 표현할 수 있다.

2. 유니코드

컴퓨터가 전세계적으로 보급됨에따라 컴퓨터에서 쓸 수 있는 언어가 더 많이 필요해짐에다라 7비트로 표현하던 문자를 16비트로 확장하여 문자를 표현하는 새로운 표를 만든것이 유니코드이다.

3. 유니코드 인코딩 방식

코드유닛 - 코드 포인트를 특정한 방법으로 인코딩했을때 변환되어 얻어지는 비트의 나열

문자 인코딩 방식(Character Encoding Scheme,CES) - 코드 유닛을 옥텟으로 나열하여 변환하는 방법 (옥텟은 8비트를의미하는 데이터 단위)형

UTF-8, 16, 32 인코딩 방식이 존재

* 기본자료형 정리

char - 1byte 문자형

shrt - 2bytes 정수형

int - 4bytes 정수형

long- 8bytes 정수형

float- 4bytes 실수형

double - 8bytes 실수형