====== 03) Information und Daten ====== Im allgemeinen Sprachgebrauch wird "Information" mit "Bedeutung" oder "Wissen" gleichgesetzt. Im Vergleich dazu sind "Daten" Angaben zu "Sachverhalten" und "Vorgängen". Daten sind also Werte und Inhalte, die eine Information darstellen können. Informationen und Daten haben keinen Ort. Sie können jederzeit von einem ortsgebundenen materiellen Träger zu einem anderen wandern. Das bedeutet auch, dass sich Informationen nicht zweifelsfrei lokalisieren lassen. Gesetze und Regeln, die Informationen und Daten an einen Ort binden, scheinen nützlich und sinnvoll zu sein. Sie sind aber kaum umsetzbar und damit sinnlos. Denn jede einzelne Informationseinheit kann jederzeit an jeden Ort der Welt übertragen und gespeichert werden. Nur dann, wenn man Informationen und Daten durchgehend verschlüsselt, ist es fast egal, wo die Informationen und Daten gespeichert sind. ===== Information ===== * als Beseitigung von Unwissenheit * als eine Nachricht, welche der Absender dem Empfänger über einen Kanal vermittelt. Die Nachricht wird dann interpretiert/verstanden. * als darstellbar als Folge von 0 und 1 * als über Raum und Zeit sich ein physikalisches veränderliches Signal ===== Daten ===== * stellen Informationen dar! * sind Träger von Informationen * können in Schrift, Ton und Bild auftreten * können analog oder digital gespeichert werden * können steuern, nutzen oder adressieren ===== EDV (Elektronische Datenverarbeitung) ===== Die elektronische bzw. digitale Datenverarbeitung kennt im Prinzip nur zwei Zustände. Diese beiden Zustände werden als logisch "High" und "Low" bezeichnet und häufig als "1" und "0" dargestellt. Etwas, was nur diese zwei Zustände kennt, bezeichnet man als binäres System oder Binärlogik. Alle Daten, die elektronisch verarbeitet werden sollen, müssen in dieses Binärsystem übersetzt werden. Das bedeutet, Schrift in Form von Buchstaben, Zahlen und Zeichen, und Bilder mit der Darstellung von Personen, Gegenständen oder Landschaften und jegliche andere Daten und Informationen werden als elektronisch lesbare Codierung in Form einer Folge aus "0" und "1" verarbeitet und gespeichert. ===== Codierung von Zeichen ===== Eine **Zeichenkodierung (englisch Character encoding, kurz Encoding)** erlaubt die eindeutige Zuordnung von Schriftzeichen (i. A. Buchstaben oder Ziffern) und Symbolen innerhalb eines Zeichensatzes. In der elektronischen Datenverarbeitung werden Zeichen über einen Zahlenwert kodiert, um sie zu übertragen oder zu speichern. Der deutsche Umlaut Ü wird zum Beispiel im ISO-8859-1-Zeichensatz mit dem Dezimalwert 220 kodiert. Im EBCDIC-Zeichensatz kodiert derselbe Wert 220 die geschweifte Klammer }. Zur richtigen Darstellung eines Zeichens muss also die Zeichenkodierung bekannt sein; der Zahlenwert allein reicht nicht aus. \\ \\ Zahlenwerte aus Zeichenkodierungen lassen sich auf verschiedene Art speichern oder übertragen, z. B. als Morsezeichen, verschieden hohe Töne (Faxgerät), verschieden hohe Spannungen. \\ \\ ===== Geschichte des Character Encoding ===== Mit der Entwicklung des Computers begann die Umsetzung der im Grunde schon seit dem Baudot-Code verwendeten binären Zeichenkodierung in Bit-Folgen, bzw. intern meist in verschiedene elektrische Spannungswerte als Unterscheidungskriterium, ganz analog zu der bisher zur Unterscheidung der Signalwerte genutzten Tonhöhe oder Signaldauer. \\ \\ Um diesen Bit-Folgen darstellbare Zeichen zuzuordnen, mussten Übersetzungstabellen, sogenannte Zeichensätze, engl. Charsets, festgelegt werden. 1963 wurde eine erste **7-Bit-Version des ASCII-Codes durch die ASA (American Standards Association)** definiert, um eine **Vereinheitlichung der Zeichenkodierung** zu erreichen. Obwohl IBM an der Definition mitgearbeitet hatte, führte man 1964 einen eigenen **8-Bit-Zeichencode EBCDIC** ein. Beide finden bis heute in der Computertechnik Verwendung. Da für viele Sprachen jeweils unterschiedliche diakritische Zeichen benötigt werden, mit denen Buchstaben des lateinischen Schriftsystems modifiziert werden, gibt es für viele Sprachgruppen jeweils eigene Zeichensätze. Die **ISO** hat mit der **Normenreihe ISO 8859 Zeichenkodierungen für alle europäischen Sprachen** (einschließlich Türkisch) und Arabisch, Hebräisch sowie Thai standardisiert. \\ \\ Das **Unicode Consortium** schließlich veröffentlichte 1991 eine erste Fassung des gleichnamigen Standards, der es sich zum Ziel gesetzt hat, alle Zeichen aller Sprachen in Codeform zu definieren. **Unicode** ist gleichzeitig die **internationale Norm ISO 10646**. \\ \\ Bevor ein Text elektronisch verarbeitet wird, muss der verwendete Zeichensatz und die Zeichenkodierung festgelegt werden. Dazu dienen beispielsweise folgende Angaben: \\ \\ Definition des Zeichensatzes in einer HTML-Seite \\ \\ Definition des Zeichensatzes in den Kopfzeilen (Headern) einer E-Mail oder eines HTTP-Pakets Content-Type: text/plain; charset="ISO-8859-1" ===== ASCII - American Standard Code for Information Interchange===== Der **American Standard Code for Information Interchange (ASCII, deutsch „Amerikanischer Standard-Code für den Informationsaustausch“)** ist eine **7-Bit-Zeichenkodierung**; sie entspricht der US-Variante von ISO 646 und dient als Grundlage für spätere, auf mehr Bits basierende Kodierungen für Zeichensätze. Der ASCII-Code wurde zuerst am 17. Juni 1963 von der **American Standards Association (ASA) als Standard** ASA X3.4-1963 gebilligt und 1967/1968 wesentlich sowie zuletzt im Jahr 1986 von ihren Nachfolgeinstitutionen aktualisiert. Die Zeichenkodierung definiert **128 Zeichen**, bestehend aus **33 nicht druckbaren** sowie **95 druckbaren Zeichen**. ==== ASCII-Code Tabelle===== {{ :inf:inf5bi_201819:pasted:20181009-134148.png }} ==== Fakten ==== * sehr verbreiteter Standard, u.a. in PCs (Hardware-Ebene) * von ISO genormt * ursprünglich 7-Bit-Code, also 128 Zeichen * davon einige nach nationalem Bedarf abgewandelt z.B. deutsche Umlaute statt [ ] { } \ | * unterschiedliche 8-Bit-Erweiterungen mit zusätzlichen Zeichen im Bereich 128 – 255 * Erweiterungen oft problematisch bei älteren Rechnern, im Internet1) etc. → deshalb E-Mail, HTTP etc. auf 7 Bit beschränkt (→ 2. Sem.) Probiere weitere Zeichen der ASCII-Tabelle in Microsoft Word aus. Drücke die ALT-Taste und tippe einen dezimalen ASCII Code ein! (z.B. ALT + 65) ===== UTF8 - UCS Transformation Format ===== **UTF-8 (Abk. für 8-Bit UCS Transformation Format, wobei UCS wiederum Universal Character Set abkürzt)** ist die am weitesten verbreitete Kodierung für Unicode-Zeichen (Unicode und UCS sind praktisch identisch). Die Kodierung wurde im September 1992 von Ken Thompson und Rob Pike bei Arbeiten am Plan-9-Betriebssystem festgelegt. \\ \\ UTF-8 ist in den **ersten 128 Zeichen (Indizes 0–127) deckungsgleich mit ASCII** und eignet sich mit in der Regel nur **einem Byte Speicherbedarf** für Zeichen vieler westlicher Sprachen besonders für die Kodierung englischsprachiger Texte, die sich im Regelfall ohne Modifikation daher sogar mit nicht-UTF-8-fähigen Texteditoren ohne Beeinträchtigung bearbeiten lassen, was einen der Gründe für den Status als **De-facto-Standard-Zeichenkodierung des Internets** und damit verbundener Dokumenttypen darstellt. Im Oktober 2017 verwendeten **89,9 % aller Websites UTF-8** \\ \\ In anderen Sprachen ist der Speicherbedarf in Byte pro Zeichen größer, wenn diese vom ASCII-Zeichensatz abweichen: Bereits die **deutschen Umlaute erfordern zwei Byte**, ebenso griechische oder kyrillische Zeichen. Zeichen fernöstlicher Sprachen und von Sprachen aus dem afrikanischen Raum belegen dagegen bis zu 4 Byte je Zeichen. Da die Verarbeitung von UTF-8 als Multibyte-Zeichenfolge wegen der notwendigen Analyse jedes Bytes im Vergleich zu Zeichenkodierungen mit fester Byteanzahl je Zeichen mehr Rechenaufwand und für bestimmte Sprachen auch mehr Speicherplatz erfordert, werden abhängig vom Einsatzszenario auch andere UTF-Kodierungen zur Abbildung von Unicode-Zeichensätzen verwendet: Microsoft Windows als meistgenutztes Desktop-Betriebssystem verwendet intern als Kompromiss zwischen UTF-8 und UTF-32 etwa UTF-16 Little Endian ==== Fakten Unicode (UTF-8, UTF-16, UTF-32) ==== * neuere Kodierung, ebenfalls ISO-standardisiert 1993 und heutzutage Standard * Ziel: Berücksichtigung möglichst vieler Sprachen und ihrer Eigenheiten * Buchstaben-, Silben-, und Ideogrammsprachen * Schreibrichtungen (links-rechts, rechts-links, oben-unten) * außerdem diverse Sonderzeichen, mathematisch-technische Symbole, Diakritika, geometrische Formen, Pfeile, Piktogramme u.v.m. * dafür 16-Bit-Darstellung (erlaubt 65.536 Zeichen) * Erweiterung auf 32 Bit für künftigen Bedarf * Standard auf unixoiden Betriebssystemen