UTF-8

Was bedeutet UTF-8?

Unter UTF-8 ist das Unicode Transformation Format – 8 Bits bekannt. Dabei steht die Zahl 8 für die Darstellung in 8-Bit-Blöcken. Zwischen einem und vier Blöcke braucht es, um ein Zeichen darstellen zu können. Bei UTF-8 handelt es sich grob um eine Zeichencodierung, die einerseits kompakt wie ASCII sein kann oder auch beliebige Unicode-Zeichen beinhalten könnte. Die Dateigröße nimmt dann entsprechend zu.

Der Begriff Zeichen bezieht sich hierbei auf Buchstaben, Zahlen sowie auch numerische Werte. Ebenso umfasst UTF-8 aber auch Interpunktionen, Symbole für Währungen, Emojis oder mathematische Symbole. UTF-8 ist seit dem Jahr 2009 die generelle Codierung im Internet und wird auf mehr als 93 Prozent aller Webseiten genutzt (Stand: März 2020). Schon seit 2008 konnte sich UTF-8 gegenüber anderen Codierungen durchsetzen und machte bereits 2012 mehr als 60 Prozent des Internets aus.

Ursprung von UTF-8

Seinen Ursprung hat utf8 bereits im Jahr 1992, als die Codierung von Rob Pike und Ken Thompson festgelegt wurde. Dies geschah im Rahmen der Arbeit am Plan-9-Betriebssystem. Es wurde einst als FSS-UTF bezeichnet. Die Umbenennung in UTF-8 erfolgte im Rahmen einer Standardisierung.
Zu den wichtigsten Eigenschaften von utf8 gehören diese Aspekte:

Redundanz – UTF-8 nutzt eine Kodierung in variabler Länge mit einem Format von 1 bis maximal 4 Byte. Dies geschieht aus Effizienzgründen so. Kann ein Zeichen mit einem Byte dargestellt werden, werden dem Dokument keine weiteren Bytes hinzugefügt, wodurch utf8 sehr kompakt genutzt werden kann.

Mit alten Systemen kompatibel – Auch auf Systemen, die nur ASCII verstehen, muss UTF-8 zu entziffern sein, gleiches gilt auch andersherum. Die ersten 128 englischen Zeichen in UTF-8 sind somit identisch zu ASCII, wodurch die Abwärtskompatibilität gewährleistet ist.

So funktioniert UTF-8

Computer nutzen ein binäres System. Darin werden alle Daten mit einer Folge der Ziffern 1 und 0 dargestellt. Ein Bit ist dabei die grundlegende Einheit des Binärsystems, es handelt sich dabei um eine einzelne 0 oder auch 1. Danach folgt die nächstgrößere Einheit, ein Byte, bestehend aus acht Bits. Beispielsweise also die Folge 01110011.

Dabei ist UTF-8 in den ersten 128 Zeichen identisch zu ASCII und bietet die Möglichkeit, viele Zeichen westlicher Sprachen mit nur einem Byte Speicherplatz zu nutzen. Diese wiederum können ohne Modifikationen bearbeitet werden, auch mit Texteditoren, die nicht UTF-8-fähig sind. Daher ist UTF-8 als Standard für die Zeichencodierung im Internet zu verstehen.