Alphanumerische Codes

Alphanumerische Codes sind dazu da, um Text auf Computern speichern zu können. Computer verstehen nur Zahlen im Binärsystem, zum Speichern von Text müssen also alle Zeichen (Buchstaben, Zahlen und Sonderzeichen) in Zahlen umgewandelt werden.

ASCII-Code

ASCII steht für American Standard Code for Information Interchange. Der ASCII-Code enthält alle Klein- und Großbuchstaben, Zahlen, einige Sonderzeichen und Steuerzeichen (Zeichen, die nicht dargestellt werden, z.B. der Zeilenumbruch). Europäische Umlaute sind jedoch nicht enthalten.

Der ASCII-Code enthält nur 128 Zeichen, da jedes Zeichen nur 7 Bit lang ist.

Beispiele:

Schriftzeichen	Dezimal	Hexadezimal	Binär
A	65	41	1000001
B	66	42	1000010
C	67	43	1000011

ISO 8859

ISO 8859 ist eine Reihe von Zeichenkodierungen, die auf ASCII aufbauen, aber nicht 7, sondern 8 Bits verwenden. Damit sind doppelt so viele Zeichen möglich, nämlich 256.

Die ersten 127 Zeichen von ISO 8859 stimmen mit ASCII überein. Danach kommen Zeichen aus anderen Sprachen. Beispielsweise enthält ISO 8859-1 (auch Latin-1 genannt) viele Umlaute, die im Deutschen, Französischen, Norwegischen, Portugiesischen, etc. gebraucht werden.

EBCDI-Code

EBCDI steht für Extended Binary Coded Decimal Interchange Code. Der 8-Bit EBCDI-Code ist aus dem 4 Bit BCDIC-Code entstanden, der ist wiederum aus dem BCD-Code entstanden.

Der EBCDI-Code enthält, ähnlich wie Latin-1, das englische Alphabet sowie viele europäische Umlaute und einige Sonderzeichen. Er wird jedoch heute kaum noch verwendet.

Ausschnitt:

	0	1	2	3	4	5	6	7	8	9	A	B	C	D	E	F
4_			â	{	à	á	ã	å	ç	ñ	A	.	<	(	+	!	4_(4 hex = 0100 bin)
5_	&	é	ê	ë	è	í	î	ï	ì	~	Ü	$	*	)	;	^	5_(5 hex = 0101 bin)
6_	-	/	Â	[	À	Á	Ã	Å	Ç	Ñ	Ö	,	%	_	>	?	6_(6 hex = 0110 bin)

Unicode

Unicode ist genau genommen kein Code, sondern eine Liste an Zeichen. Auch Unicode baut auf ASCII auf. Im Moment (Version 10.0) enthält Unicode 136.690 Zeichen.

Ziel ist es, alle Zeichen aus allen Sprachen hinzuzufügen und die Verwendung unterschiedlicher und inkompatibler Kodierungen in verschiedenen Ländern zu beseitigen.

Die häufigste Variante von Unicode ist UTF-8. UTF-8 kodiert den Unicode-Zeichensatz so, dass normale Texte möglichst wenig Speicher verbrauchen. Daher haben die Zeichen unterschiedliche Länge: Die kürzesten Zeichen sind 8 Bit lang, die längsten 32 Bit.

Im Internet wird inzwischen fast nur noch UTF-8 verwendet. Betriebssysteme sind da etwas langsamer.

Ausschnitt von UTF-8:

	0	1	2	3	4	5	6	7	8	9	A	B	C	D	E	F
0030	0	1	2	3	4	5	6	7	8	9	:	;	<	=	>	?
0040	@	A	B	C	D	E	F	G	H	I	J	K	L	M	N	O
0050	P	Q	R	S	T	U	V	W	X	Y	Z	[	\	]	^	_

Du hast noch nicht genug vom Thema?

Hier findest du noch weitere passende Inhalte zum Thema:

Artikel

Dieses Werk steht unter der freien Lizenz
CC BY-SA 4.0 → Was bedeutet das?