Textverarbeitung & Zeichencodierung

Theorie

Textverarbeitung ist die Erstellung und Bearbeitung von schriftlichen Texten mit Hilfe von Programmen/Applikationen.

Bis weit ins 19. Jahrhundert war es üblich, Texte (sofern sie nicht gedruckt wurden) mit der Hand zu schreiben. Nachdem im 19. Jahrhundert die ersten praktisch verwendbaren Schreibmaschinen auf den Markt kamen, begann sich dies jedoch allmählich zu ändern. Nach und nach setzte sie sich gegenüber der Handschrift durch, ihre Vorteile gegenüber der Handschrift:

Vor allem im Bürobereich fanden Schreibmaschinen deshalb große Verbreitung. Dies hatte enormen Einfluss auf die Arbeitswelt: Die bis dahin oft gebräuchlichen Stehpulte wurden durch Schreibtische abgelöst, das Schreiben von einer stehenden zu einer sitzenden Tätigkeit. Dieser Prozess lief parallel zu anderen Entwicklungen in der Mechanisierung der Büroarbeit (Einführung von Rechenmaschinen, Hollerithmaschine und Telefon).

Mit der zunehmenden Verbreitung von PCs in den 1990er Jahren verschwanden Schreibmaschinen jedoch vom Markt.
PCs waren universell einsetzbar und nicht nur auf Textverarbeitung beschränkt, bei zunehmend günstigerem Preis-Leistungs-Verhältnis zugunsten des PCs. Die Fähigkeiten von Textverarbeitungen erforderten zunehmend vollwertige Computer, vor allem nach dem Aufkommen grafischer Benutzeroberflächen. Seit Einführung des Personal Computers hat sich der Bereich der Textverarbeitung rasant entwickelt. Das heutige Ergebnis sind Programme, bei denen der reine Textverarbeitungsteil programmiertechnisch wohl noch den geringsten Aufwand erforderte. Vielmehr wurden sie angereichert mit Funktionen, die zuvor einzeln von anderen Programmen und oft auch anderen Herstellern bezogen werden mussten. Heutige Textverarbeitungsprogramme integrieren die reine Texterfassung mit den Möglichkeiten der Grafikeinbindung, Tabellenerstellung, Formelgenerierung oder der Präsentationsgrafik.

Die Einführung der grafischen Benutzeroberflächen wie die des Apple Macintosh 1984 und später Windows ermöglichte erst den Schritt in diese Richtung, verhalf sie doch den Programmen, auf Techniken wie dem Datenaustausch über eine zentrale Zwischenablage, dem dynamischen Datenaustausch oder dem Objekt-verbinden-und-einbetten zurückzugreifen. Die Möglichkeit, den Text gemäß dem Prinzip WYSIWYG (engl. What You See Is What You Get) bereits auf dem Bildschirm so präsentiert zu bekommen, wie er auch später ausgedruckt erscheint (Druckdarstellung), war dabei von großer Bedeutung.

WYSIWYG

WYSIWYG ist das Akronym für den Grundgedanken What You See Is What You Get – auch als Echtzeitdarstellung bekannt (beziehungsweise, bezogen auf die Bildschirmdarstellung, Echtbilddarstellung). Bei echtem WYSIWYG wird ein Dokument während der Bearbeitung am Bildschirm genauso angezeigt, wie es bei der Ausgabe über ein anderes Gerät, z. B. einen Drucker, aussieht. Der Begriff wurde zuerst Anfang der 1980er im Zusammenhang mit Computer-Drucksatz-Systemen (Desktoppublishing) und Textverarbeitungsprogrammen verwendet.

Texteditoren und ASCII-Editoren

Die ersten Textverarbeitungsprogramme, treffender bezeichnet als „Texterfassungsprogramme“, waren einfache Texteditoren, die sich aus dem Zeichenvorrat nichtgenormter Zeichensätze bedienten. Somit waren nicht nur die Editoren an den zugehörigen Computer (bzw. das zugehörige Betriebssystem) gebunden, sondern auch die darauf erstellten Texte, die bei Bedarf erst für andere Computersysteme in andere Zeichensätze konvertiert werden mussten.

Erst mit der Einführung genormter Zeichensätze (z.B. ASCII) kann man von ASCII-Editoren sprechen, die sich aus dem Zeichenvorrat der standardisierten ASCII-Tabelle bedienen. Damit wurden auch die Editorprogramme selbst grundlegend kompatibel zu gleichartiger Hardware unter den meisten gängigen Betriebssystemen.
Der Befehlsumfang einfacher ASCII-Editoren ging in der Regel über das Speichern, Laden und Drucken nicht hinaus.
Ein Beispiel für einen reinen ASCII-Editor ist der Editor unter Microsoft Windows.

Erweiterte Programme bieten jedoch neben Funktionen wie Textmarkierung oder das Ausschneiden, Kopieren und Versetzen von Textabschnitten an: Syntaxhervorhebung und Makroprogrammierung. Besonders komplexe Editoren wie Emacs und Vim unter Linux kommen einer modernen Textverarbeitung unter den Einschränkungen eines textorientierten Betriebssystems bereits sehr nahe und berücksichtigen die Bedürfnisse von Systemadministratoren oder Programmierern, etwa durch Verknüpfung mit Compilern und anderer externer Software.

Zeichencodierung

Da in der frühen Phase der Computertechnologie die ersten Computersysteme in den westlichen Ländern entwickelt wurden, vor allem in den USA, konzentrierten sich die Entwickler von Textverarbeitungsprogrammen zunächst auf die Kodierung von Texten, die auf dem lateinischen Schriftsystem basierten.

Während Schriftsysteme europäischer Sprachen, wie z.B. lateinisch, griechisch und russisch aus einer relativ geringen Anzahl von Schriftzeichen bestehen, enthalten die Schriftsysteme asiatischer Sprachen, wie z.B. chinesisch und japanisch eine wesentlich größere Anzahl von Schriftzeichen.

Bits, Bytes und Buchstaben

Computersysteme kennen im Prinzip keine Buchstaben oder Zeichen, sondern nur Bits und Bytes.

⇒ daher muss bei der Textverarbeitung auf Computersystemen die Schriftzeichen erst in Bits (0 und 1) umgewandelt („kodiert“) werden! Dies macht der Computer nach einer Zuordnungstabelle, in der verzeichnet ist, welche Zahl für welchen Buchstaben steht. Diese Tabelle ist in beiden Richtungen eindeutig, aus einem Buchstaben wird also exakt eine Zahl und aus einer Zahl wird umgekehrt wieder exakt dieser Buchstabe!

⇒ Die bezeichnet man als „ZEICHENCODIERUNG“.

Dazu wird jedem Schriftzeichen eine Zahlenreihe aus Nullen und Einsen zugeordnet.

Beispiel:

ASCII

Grundsätzlich ist die Zuordnung der Zahl zum Buchstaben vollkommen willkürlich wählbar, und daher entwickelten sich in der Anfangszeit der Computer in Amerika mehrere unterschiedliche Zuordnungsvorschriften. Von diesen haben sich zwei heute gehalten:

Drückt man also eine Taste der Tastatur, erkennt der Computer, welche Taste gedrückt wurde, und ordnet ihr aufgrund des konfigurierten Tastaturlayouts den Bytewert des Buchstabens zu, der sich dahinter verbirgt. Bei der Ausgabe des Buchstabens auf dem Bildschirm wird der Bytewert umgewandelt in die Anweisung, wie der entsprechenden Buchstabe zu malen ist, und er erscheint dann auf dem Bildschirm. Wie der Buchstabe konkret aussieht, entscheidet dabei die Malanweisung der Schriftart. Ändert man die Schriftart, wird eine neue Malanweisung verwendet, aber die Bytewerte der Zeichen bleiben identisch.

Diese betagten Codes wie ASCII und EBCDIC haben jedoch eine Schwäche: Mit ihnen lassen sich, da sie einem Buchstaben ein Byte zuordnen, maximal 256 verschiedene Zeichen darstellen. Dieser Zeichenvorrat reicht gerade für das lateinische Alphabet und einige zusätzliche Zeichen. Als die Codes in den 1960ern entstanden, war das für die englisch sprechenden Amerikaner ausreichend. Als ASCII entstand, kam man – zumindest in der Datenverarbeitung im englischen Sprachraum – mit 128 verschiedenen Zeichen aus, es reichten daher 7 Bit für die Codierung des Zeichensatzes. Das 8. Bit eines Bytes wurde nicht benutzt oder für verschiedene andere Zwecke benutzt!

Die erste, nicht hundertprozentig befriedigende Lösung für dieses Problem bestand darin, für andere Alphabete neue Zuordnungen zu erstellen. Dies bedeutete bei der interkulturellen Kommunikation aber einen kleinen Mehraufwand. Wollte beispielsweise ein Russe einem Amerikaner einen russischen Text zukommen lassen, so reichte es nicht, einfach die Textdatei weiterzugeben. Der Absender musste zusätzlich die für das kyrillische Alphabet verwendete Codierung angeben. Mit der amerikanischen Codierung würde der Computer des Empfängers die Bytes als lateinische Buchstaben interpretieren und somit einen sinnlosen Buchstabensalat produzieren.

ISO-8859-Familie

Im westeuropäischen Sprachraum verbreiteten sich insbesondere zwei Codierungen aus der sogenannten ISO-8859-Familie:

Den Codierungen der ISO-8859-Familie ist gemeinsam, dass sie nur 256 verschiedene Zeichen codieren können, da ein Zeichen immer mit einem Byte codiert wird. Jede dieser Codetabellen versucht, möglichst alle Zeichen möglichst vieler Schriften zu speichern. Sie verwenden alle die ASCII-Codetabelle für die Zeichen 0 bis 127 und definieren zusätzlich die Werte 160 bis 255. Sofern in diesem Bereich das gleiche Zeichen in verschiedenen Schriften vorkommt, überlappen sie sich zumeist.

Der universale Code: Unicode

Mit Unicode werden so ziemlich alle Zeichencodierungsprobleme dieser Welt gelöst. Und weil Webseiten potentiell mit allen Schriften dieser Welt genutzt werden, ist für HTML 4.0 und XML (und damit auch XHTML) festgelegt, dass grundsätzlich alle in Unicode definierten Zeichen vorkommen dürfen.

Mit dieser Festlegung kann man also jedes der mittlerweile über 100.000 Unicode-Zeichen in seinem Text verwenden. Aber Unicode regelt nicht nur die Codierung aller Schriftzeichen dieser Welt, sondern kennt zu jedem Zeichen dutzende definierte Eigenschaften. Ein Zeichen besitzt mindestens folgende Informationen:

Die meisten Eigenschaften eines Zeichens sind nur für die interne Behandlung durch den Computer relevant. Beispielsweise werden arabische Schriftzeichen automatisch korrekt von rechts nach links geschrieben, oder der Zeilenumbruch nutzt die Stellen, an denen eine Wortgrenze z. B. durch ein normales Leerzeichen existiert. Dieser kleine Exkurs soll aber verdeutlichen, dass die Bytewerte der Buchstaben für den Computer viel mehr bedeuten können, als nur den Buchstaben an sich.

Der oben erwähnte Codepoint eines Unicode-Zeichens ist nur eine abstrakte Nummer. Die Schreibweise dieser Nummer im Unicode-Standard erfolgt in hexadezimalen Zahlen mit vorangestelltem „U+“. Der Codepoint legt noch keinerlei computerkompatible Darstellung fest, dies ist Aufgabe des Codierschemas. Da die Unicode-Codepoints von U+0000 bis U+10FFFF (hexadezimale Zahlendarstellung), mit einer beabsichtigten Lücke zwischen U+D7FF und U+E000, reichen, sind für eine vollständige Codierung des gesamten Codepoint-Bereichs als Binärzahl mindestens 3 Byte erforderlich.

Folgende Speichervarianten von Unicode sind heute gängig:

Praxistipp

Empfehlung: Verwenden Sie, wo immer es geht, UTF-8! Es hat viele Vorteile, bei der Wahl der codierbaren Zeichen nicht eingeschränkt zu sein. Selbst wenn ein Webauftritt garantiert nur für eine einzige Sprache (z. B. Deutsch) gestaltet werden muss, bietet nur Unicode die komplette Freiheit, wirklich alle Zeichen – insbesondere Interpunktionszeichen wie „typografische Anführungszeichen“ oder eben das Eurozeichen – beliebig verwenden zu können. Eingestreute Fremdwörter in einer anderen Sprache sind genauso problemlos möglich wie die Verwendung eher exotischerer Zeichen wie den Brüchen ⅓, ⅔, ⅛, ⅜, ⅝, ⅞.

Viele Programme können schon seit langer Zeit mit UTF-8 umgehen: Server, Browser, Datenbanken, Programmiersprachen, Editoren. Der einzige Grund, auf UTF-8 zu verzichten, ist die Existenz von alten Systemen oder Daten, die nicht in UTF-8 gespeichert sind und bei denen es zu aufwendig wäre, sie nach UTF-8 zu konvertieren.

Begrifflichkeiten

Für die Zeichen-Problematik gibt es eine Reihe Begrifflichkeiten, die allerdings oftmals falsch angewendet werden. Nachfolgend der Versuch einer Aufklärung:

Zeichensatz

Ein Zeichensatz (character set, kurz charset) ist die Gesamtheit der zur Verfügung stehenden Zeichen. Ein Zeichensatz ist ein eher abstraktes Gebilde, das nur die Zeichen selbst und eine Reihenfolge beschreibt, nicht jedoch eine konkrete Abbildung auf Byte-Werte. Das ist Aufgabe der Zeichencodierung.

Beispielsweise ist Unicode ein Zeichensatz, UTF-8 hingegen ist eine Zeichencodierung.

Codepoint

Zeichen in einem Zeichensatz (z. B. ASCII oder Unicode) werden in einer bestimmten Reihenfolge in einem Coderaum (code space) angeordnet. Die Position eines Zeichens ist der Codepoint (zu Deutsch etwa „Codeposition“).
Das heißt die Codeposition ist der Zahlenwert eines Zeichens im Coderaum. \
Bsp.:
A hat die Codeposition 65 im Coderaum ASCII.

Ein Zeichensatz mit Codepoints ist ein codierter Zeichensatz (coded character set).

Schriftart

Für die grafische Darstellung von Zeichen wird eine Schriftart verwendet, die in der Regel eine in sich konsistente Gestaltung aufweist, beispielsweise für die Strich-Dicke oder Verzierungen. Arial, Times New Roman oder Courier sind Beispiele für Schriftarten.
Schriftart ist im engeren Sinne nach eher ein Synonym zu Schriftschnitt, also bspw. Helvetica 24pt fett. Da Schriftarten wie Arial, Helvetica, Times Roman usw. oft aus mehreren Schriftschnitten für Breiten (schmal, breit, …), Strichstärken (leicht, normal, fett, …) und Zeichenlagen (normal, kursiv, …) bestehen, verwendet man auch den Begriff Schriftfamilie, der nicht genau von Schriftart abzugrenzen ist.

Kriterien für Schriftarten

Die Kriterien für die Verwendung einer bestimmten Schriftart können sein:

Schriftgestalt

Serifen

Serifen sind kleine Endstriche eines Buchstabens, umgangssprachlich auch „Füßchen“ genannt. Sie bilden eine horizontale Linie, an der sich das Auge des Lesers orientieren kann. Daher eignen sich Serifenschriften, insbesondere die Antiqua, besonders für gedruckten Fließtext (Bücher, Artikel). Bei Postern, Plakaten, Schildern usw. kommt es dagegen darauf an, auch auf größere Distanz einzelne Wörter zu entziffern. Hier werden wegen ihrer größeren Klarheit Schriften ohne Serifen eingesetzt.

Höhe

Neben der Tatsache, dass es zwei parallele Alphabete von Groß- und Kleinbuchstaben gibt, unterscheiden sich seine Buchstaben noch in weiteren Punkten. Zum Beispiel betrachtet man die Höhe der einzelnen Buchstaben. Zunächst einmal allen gemeinsam ist, dass sie eine Grundlinie teilen. Die Grundlinie ist der Boden der Zeile selbst, der bei Serifenschriften durch ihre Füße angedeutet wird. Auf dieser Grundlinie „stehen“ alle Buchstaben und gehen unterschiedlich weit über bzw. unter diese hinaus.

Laufweite

Die Laufweite einer Schrift beschreibt, wie groß die horizontale Ausdehnung eines geschriebenen Textes ist. Sie entsteht durch die Breite der einzelnen Buchstaben sowie den Abstand, den sie zueinander haben. Die Laufweite spielt beim Schriftsetzen in Büchern, Zeitungen, Magazinen usw. eine große Rolle, da sie bestimmt, wie „ökonomisch“ eine Schrift ist, das heißt, wie platzsparend sie ist. Um wertvollen Platz zu sparen, gibt es gerade für diesen Zweck entworfene Schmal-Schnitte einer Schrift (englisch „condensed“). Wesentlich seltener werden extra breite Schnitte verwendet (englisch „extended“), die meisten hiervon sind Grotesken (Sans Serifs). Der Verwendungszweck von breiten Schnitten ist weniger ökonomisch als grafisch (für Überschriften, Plakate, Logos, Corporate Design usw.).

Proportionen

Im Normalfall sind die einzelnen Zeichen einer Schriftart unterschiedlich breit, ein „w“ nimmt also mehr Platz ein als ein „i“. Solche Schriftarten werden proportional genannt. Verbreitete Mitglieder dieser Gruppe sind zum Beispiel Times, Arial oder Lucida. Um die Konstruktion von Schreibmaschinen und Computern zu vereinfachen, kamen nichtproportionale, sogenannte dickten­gleiche Schriftarten zum Einsatz, bei denen alle Zeichen eine identische Breite aufweisen. Die wohl bekanntesten dieser Schriften sind Courier und Lucida Console.

Glyphe

Der Begriff Glyphe wird gelegentlich für die konkrete Darstellung eines Zeichens verwendet. Die Schriftart bestimmt, welches Zeichen mit welcher Glyphe dargestellt wird.

Font

Ein Font ist die Aufbereitung einer Schriftart für den Einsatz mit einem Computer, also eine Datei, die eine Schriftart beschreibt.

Tastatur-Layout

Ein Tastatur-Layout oder eine Tastaturbelegung (auch Tastenlayout oder Tastenbelegung) ordnet einer Taste auf der Tastatur einen Codepoint zu.

Beispielsweise produziert die auf einer deutschen Tastatur mit „z“ beschriftete Taste mit einer deutschen Tastenbelegung den Unicode-Codepoint U+007A, also (erwartungsgemäß) ein „z“. Ändert man die Tastenbelegung auf US-amerikanisch, so erzeugt dieselbe Taste den Codepoint U+0079, also ein „y“. Mit einer russischen Belegung produzieren praktisch sämtliche Tasten andere Resultate, nämlich die Codepoints für kyrillische statt lateinischer Buchstaben, also z.B. „н“ (U+043D) statt „z“.

Textverarbeitungsprograme

Textverarbeitungsprogramme bieten im Gegensatz zu reinen Texteditoren in der Regel erweiterte Layout- und Formatierungsfunktionen an. Neben der Textüberarbeitung erhöhen Rechtschreibprüfung, Indexerstellung, Such- und Ersetzfunktionen den Nutzen für den Anwender. Formatvorlagen vereinfachen zudem eine einheitliche Gestaltung der zu veröffentlichenden Dateien, Textbausteine die Einbindung von wiederkehrenden Inhalten.

Zeichenorientierte Textverarbeitung

Die Kategorie der im Funktionsumfang erweiterten zeichenorientierten Textprogramme (Character Used Interface) verwendet ebenfalls, wie die ASCII-Editoren auch, den normierten und beschränkten ASCII-Zeichensatz als Grundlage. Die fest definierten Zeichensätze werden sowohl für die Bildschirmdarstellung als auch für den Ausdruck verwendet. Der Abstand der Zeichen untereinander ist fest vorgegeben, wie auch die Zeichen selbst statisch sind. Diese „Statik“ bedeutet, dass alle Zeichen des Zeichenvorrats vorgeformt und fertig zur Verfügung stehen.
Hier liegt der große Vorteil der CUI-Programme begründet: die Arbeitsgeschwindigkeit.
Da alle Zeichen in Größe und Form fertig vorliegen, bedarf es keiner ständigen Neuberechnung von deren Bildschirmdarstellung. Die Hardware-Anforderungen beim Einsatz von CUI-Programmen sind entsprechend gering. Der dadurch erkaufte Nachteil ist jedoch die heute gewünschte Darstellungsqualität, die fortwährende Ansicht als Seitenvorschau.

Grafisch orientierte Textverarbeitung

Die grafisch orientierten Programme basieren auf dem GUI, dem Graphical User Interface. Alle Zeichen sind in Form und Größe variabel. Am Bildschirm können also Formatierungen und Schriftgrößen exakt so angezeigt werden, wie sie formatiert wurden und später auch auf dem Ausdruck erscheinen. Ermöglicht wird dies durch die getrennte Handhabung von Schriftzeichen für den späteren Ausdruck zum einen und Bildschirmschriften zum anderen. Der Preis hierfür ist jedoch ein enormer Rechenaufwand für die ständige Aktualisierung und Neuberechnung der Bildschirmanzeige. Wichtig geworden sind deshalb neben der reinen Prozessorleistung des Rechners Komponenten wie die Grafikkarte und der Bildschirmspeicher. Das Druckergebnis soll also exakt dem entsprechen, was auf dem Bildschirm zu sehen ist (WYSIWYG, What You See Is What You Get). Oder anders ausgedrückt: Alles, was und wie man es auf dem Bildschirm sieht, soll auch genauso ausgedruckt werden.

Dateiformate

Jedes Textverarbeitungsprogramm hat bis jetzt noch sein eigenes Dateiformat für die Speicherung von Dokumenten. Eine gewisse Standardisierung ist durch das Rich Text Format erreicht worden, mit dem aber die Einheitlichkeit des Layouts auf verschiedenen Rechnern nicht gewährleistet ist.

Eines der am weitesten verbreiteten Dokumentenformate zum Austausch von Dokumenten, die nicht zur weiteren Bearbeitung vorgesehen sind, ist PDF. Dieses wird als ergänzendes Standardformat von immer mehr Textverarbeitungsprogrammen oder als separater virtueller Druckertreiber als Exportfunktion (d. h. zum Speichern) angeboten, kann unter den meisten gängigen Betriebssystemen (darunter auch einige ältere Versionen) eingelesen werden und behält dabei das Aussehen.
Nachteil: Man kann das PDF-Dokument nicht mehr bearbeiten.

Klassifikation von Textverarbeitungsprogrammen

Textverarbeitungsprogramme können nach unterschiedlichen Kriterien voneinander unterschieden und klassifiziert werden:

Kritik

Das Verfassen am Bildschirm könne dazu führen, dass man einen geringen Überblick über den Text habe.
Texte würden nicht mehr selbst erstellt und durchdrungen (und auch kaum noch gelesen), sondern mittels Kopieren und Einfügen zusammengesetzt. Dieses Phänomen zeige sich besonders bei ergoogelten Plagiaten

Praxis mit MS Word

https://support.office.com/de-de/word

Folgende Befehle/Funktionen sollte dir in MS Word geläufig sein! Falls nicht erkunde die Hilfe von MS Word.