Eine der Hauptaufgaben der Informationstheorie besteht darin, die Menge an Informationen zu bewerten, die in verschiedenen Nachrichten enthalten sind. In diesem Artikel werden wir uns ein Beispiel für eine solche Nachricht ansehen - "Vasya lebt im fünften Stock" und versuchen zu bestimmen, wie viele Informationen aus diesem Satz erhalten werden können.
Information ist eine Größe, die den Grad der Unsicherheit misst. Je größer die Unsicherheit ist, desto mehr Informationen enthält die Nachricht. In diesem Fall trägt die Nachricht "Vasya lebt im fünften Stock" keine besondere Unsicherheit, da sie spezifische Informationen über den Wohnort von Vasya enthält.
Sie können die Menge an Informationen in dieser Nachricht mithilfe der Shannon-Formel schätzen:
I = log2(N),
wo I - anzahl der Informationen in Bits, N - die Anzahl der verschiedenen Optionen, die diese Nachricht annehmen kann.
Wie viele Informationen sind in der Nachricht "Vasya lebt im fünften Stock" enthalten?
Um die Anzahl der Informationsbits in der Nachricht "Vasya lebt im fünften Stock" zu bestimmen, müssen Sie wissen, welche Codierung verwendet wird, um die Zeichen darzustellen.
Die am häufigsten verwendete Codierung für die Textdarstellung von Symbolen auf einem Computer ist Unicode. Die Basis von Unicode ist eine Codetabelle, die jedem Zeichen eine eindeutige Nummer zuordnet.
Angenommen, jedes Zeichen in der Meldung "Vasya lebt im fünften Stock" ist in Unicode dargestellt und nimmt 16 Bit (2 Bytes) ein, können Sie die Gesamtzahl der Informationsbits berechnen:
Anzahl der Zeichen in einer Nachricht: 19
Anzahl der Bytes pro Zeichen (Unicode-Codierung): 2
Daher ist die Gesamtzahl der Informationsbits in der Nachricht "Vasya lebt im fünften Stock" gleich:
19 zeichen * 2 Bytes pro Zeichen * 8 Bits pro Byte = 304 bits Informationen
Informationen und Darstellung
Computersysteme verwenden ein binäres System, das auf der Verwendung von zwei Zeichen basiert: 0 und 1, um Informationen darzustellen. Jedes Zeichen im Binärsystem wird als Bit (binary digit) bezeichnet. Bits werden in Bytes (byte) zusammengefasst, die die primären Speicher- und Übertragungseinheiten für Informationen sind.
In diesem Fall besteht die Meldung "Vasya lebt im fünften Stock" aus 26 Zeichen (einschließlich Leerzeichen). Angenommen, jedes Zeichen ist mit einem Byte (8 Bits) codiert, beträgt die Gesamtzahl der Bits an Informationen, die in dieser Nachricht enthalten sind, 26 * 8 = 208 Bits.
Es ist jedoch erwähnenswert, dass in Wirklichkeit verschiedene Methoden zum Codieren von Informationen verwendet werden, die unterschiedliche Bitmengen verwenden können, um Zeichen und Text darzustellen. Mit UTF-8-Code können Sie beispielsweise Zeichen verschiedener Alphabete, einschließlich des kyrillischen Alphabets, mit einer variablen Anzahl von Bytes darstellen. Daher kann die genaue Anzahl der Informationsbits in dieser Nachricht je nach verwendeter Codierungsmethode variieren.
Kodieren von Informationen in Bits
Wenn wir über das Codieren von Informationen in Bits sprechen, meinen wir normalerweise, dass wir eine Nachricht oder Daten in eine Folge von Bits konvertieren. Im Falle von Textdaten, wie in unserem Beispiel "Vasya lebt im fünften Stock", kann jeder Buchstabe, jede Ziffer oder jedes Sonderzeichen mit einer entsprechenden Bitfolge codiert werden.
Zum Beispiel wird in ASCII-Codierung das Zeichen "B" durch die Binärzahl 01010110, das Zeichen "a" durch 01100001 und so weiter dargestellt. Auf diese Weise kann jeder Buchstabe in der Nachricht "Vasya lebt im fünften Stock" mit 8 Bits codiert werden.
Daher entspricht die Gesamtzahl der Bits, die aus einer bestimmten Nachricht abgerufen werden können, der Summe der Bits, die benötigt werden, um jedes Zeichen der Nachricht darzustellen. Dies kann berechnet werden, indem die Anzahl der Bits für jedes Zeichen addiert wird.
Anzahl der Informationsbits in einer Nachricht
Im einfachsten Fall, wenn die standardmäßige 8-Bit-ASCII-Codierung verwendet wird, belegt jedes Zeichen in der Nachricht 8 Bits an Informationen. Wenn die Nachricht "Vasya lebt im fünften Stock" also 24 Zeichen enthält, beträgt die Gesamtzahl der Informationsbits 192 Bits.
Wenn jedoch ein komplexeres Codierungssystem wie Unicode verwendet wird, bei dem jedes Zeichen mit mehr als 8 Bits dargestellt werden kann, wird die Anzahl der Informationsbits entsprechend erhöht.
Daher muss das verwendete Codierungssystem verfeinert werden, um die Anzahl der Informationsbits in einer Nachricht genau zu bestimmen.