Zeichensätze

Editorial: Faktor 1500

Unicode enthält das Viel­fache der Zeichen­zahl von Original-ASCII - zum Vorteil der Kommu­nika­tion aller. Trotzdem ist ein Unicode-Feature beson­ders beliebt

Emojis Emojis sind nur ein kleiner, aber wichtiger Teil von Unicode
(c) dpa
In den meisten Meldungen zur neuen Version 14 des Unicode-Stan­dards stand nur: Es gibt bald 37 neue Emojis. Dabei ist 37 eine deut­liche Unter­trei­bung, denn viele der neuen Emojis gibt es in mehreren Vari­anten, beispiels­weise die nach rechts oder nach links zeigende Hand in den ganzen Vari­anten von hell­häutig bis dunkel­häutig. Insge­samt wurden im neuen Unicode-Stan­dard sogar 838 neue Codes spezi­fiziert. Gut ein Drittel davon ist für fünf neue (bzw. über­wie­gend histo­rische) Spra­chen, sodass inzwi­schen 159 verschie­dene Spra­chen in Unicode codiert werden können. Viele andere Codes runden die Unter­stüt­zung für die bestehenden spra­chen ab, beispiels­weise durch die Ergän­zung von Sonder­zei­chen.

Die Zeit der großen Sprünge scheint bei Unicode dennoch vorbei: 144 697 Zeichen gibt es nun insge­samt, der neue Stan­dard erhöht die Zahl also um nicht einmal ein Prozent. Fast zwei Drittel der Zeichen, nämlich 92 865, gehören zu den chine­sischen, japa­nischen und korea­nischen Spra­chen.

Anglo­zen­tri­sches Denken: ASCII

Emojis Emojis sind nur ein kleiner, aber wichtiger Teil von Unicode
(c) dpa
Begonnen hatte die Stan­dar­disie­rung der Computer-Zeichen­sätze aller­dings in den USA mit ASCII, der Abkür­zung von "American Stan­dard Code for Infor­mation Inter­change": Dieser gerade mal 95 Zeichen umfas­sende Code enthält alle Groß- und Klein­buch­staben von A bis Z, die latei­nischen Ziffern und etliche Rechen- und Inter­punk­tions­zei­chen. Zur Freude der Mathe­matiker und Program­mierer waren bei ASCII gleich drei Typen von Klam­mern (nämlich (), [] und {}) dabei. Aber es fehlten sämt­liche Zeichen und Buch­staben, die außer­halb der USA verwendet werden. Im Laufe der Jahre wurden einige Symbole im ASCII-Zeichen­satz umplat­ziert: Der von E-Mail-Adressen bekannnte Klam­mer­affe @ wurde 1963 beispiels­weise mit dem Code 0x40 spezi­fiziert, 1965 dann auf 0x60 gewech­selt, bevor er 1967 auf 0x40 zurück­wech­selte.

Die deut­schen Umlaute wie ä oder ß waren in ASCII ebenso wenig zu finden wie inter­natio­nale Währungs­sym­bole wie das Pfund-Zeichen £ oder gar abwei­chende Alpha­bete wie das grie­chi­sche oder kyril­lische. Doch es gab eine glück­liche Fügung: ASCII belegt zusammen mit den 33 Steu­ercodes (mit denen Infor­mationen wie "neue Zeile", "neue Seite" oder "Ende der Eingabe" codiert werden) nur 128 Code-Punkte. Moderne Prozes­soren können mit einem Byte aber 256 verschie­dene Code-Punkte darstellen.

Also wurde ASCII beispiels­weise im ISO-8859-1-Stan­dard erwei­tert, um deut­sche Umlaute, fran­zösi­sche Akzente und weitere euro­päi­sche Sonder­zei­chen darzu­stellen. ISO-8859-5 enthielt hingegen die kyril­lischen Buch­staben. Das Problem: Diese Erwei­terungen waren alle inkom­patibel zuein­ander. Hatte man sein Betriebs­system auf ISO-8859-1 einge­stellt, und lud dann einen kyril­lischen Text in ein Text­pro­gramm, dann erschienen statt­dessen wilde Umlaute.

Die IT wird inter­national: Unicode 1 erscheint

Erst 1991 erschien mit Unicode 1.0 ein verein­heit­lichter Zeichen­satz, der gut ein dutzend vorher inkom­patible Erwei­terungen inte­grierte. Um möglichst wenige Systeme ändern zu müssen, wurde der ASCII-Stan­dard unver­ändert in Unicode adap­tiert: Die genannten 95 Text­zei­chen und 33 Steu­erzei­chen wurden also unver­ändert über­nommen. Danach folgt direkt die west­euro­päi­sche ISO-8859-1-Code­seite, und dann zahl­reiche weitere Spra­chen von Grie­chisch bis Tibe­tisch. Das Problem: Für alle Zeichen außer­halb des ASCII-Bereichs mussten nun mindes­tens zwei Byte zur Spei­che­rung aufge­wendet werden. Der Umfang von nicht-engli­schen Text­dateien wuchs also an, in West­europa etwas (wo nur die natio­nalen Sonder­zei­chen nun aufwän­diger codiert werden mussten), in Osteu­ropa oder Südost­asien sogar deut­lich. Die CJK-Spra­chen (Chine­sisch, Japa­nisch und Korea­nisch) mit ihren vielen Symbolen kamen 1992 in der Unicode-Revi­sion 1.0.1 dazu. Auch hier erhöhte sich der Spei­cher­bedarf.

Dennoch über­wiegen inzwi­schen die Vorteile der einheit­lichen Codie­rung dras­tisch. Ohne Unicode gäbe es jedes Mal Daten­salat, wenn eine WhatsApp-Nach­richt von Russ­land nach China oder von Grie­chen­land nach Südame­rika geschickt wird. Die zahl­rei­chen Emojis, auch, wenn sicher eine der inzwi­schen am häufigsten verwen­deten Erwei­terungen, sind also nur ein kleiner Teil dieser inter­national äußerst erfolg­rei­chen Koope­ration. Damit die Kommu­nika­tion überall funk­tio­niert, ist es also gut, dass Unicode mehr als 1500 mal so viele Zeichen hat wie das Original-ASCII.

Weitere Edito­rials