Все форматы файлов (включая и форматы для хранения текстовых документов в файлах) можно подразделить на бинарные и текстовые.
Текстовый формат файла – это формат, основанный на plain text. Вся информация представлена в виде текста. В текстовом формате можно представить любую информацию – но её нужно закодировать в текстовый вид.
Особенно популярны текстовые форматы, разумеется, для текстовых документов. Не следует, однако, путать “текстовый формат” с “форматом plain text”. В текстовом формате может быть представлена и любая дополнительная информация – но она особым образом оформляется, чтобы отделить её от собственно текста документа.
Формат файла, не основанный на plain text, называется бинарным (от binary – англ. “двоичный”, поскольку в нём может использоваться любая последовательность двоичных данных). Например, офисный пакет Microsoft Office хранит документы, как правило, в файлах бинарных форматов.
Наиболее известный (и достаточно простой) текстовый формат – HTMLHyperText Markup Language – “язык разметки гипертекста”. “Гипертекстом” называют сколь угодно большой набор текста, разные части которого содержат ссылки друг на друга. Практически, весь WWW представляет из себя один большой гипертекст.. Он используется для Web-страниц. Вот как выглядит текст в формате HTML:
Это обычный текст страницы,
Здесь курсив
А это ссылка
При просмотре Web-страницы данный текст будет выглядеть так:
Это обычный текст страницы,
Здесь курсив
А это ссылка
Заметим, что информация о курсиве, переводе строки и ссылке (на сайт wwwru) указана в виде текста, но не попала в сам текст страницы. Также важно, что обычный перевод строки в файле не попал в текст страницы – строка переведена там, где была последовательность
Последовательности, заключённые в угловые скобки < > – не части текста, а способ указания дополнительной информации.
В формате HTML предусмотрено указание только тех видов дополнительной информации, которые нужны именно на Web-страницах. Но в последнее время активно развивается формат XMLeXtensible Markup Language – “расширяемый язык разметки”, который построен по тому же принципу, но обеспечивает работу практически с любыми видами информации.Строго говоря, и HTML, и XML основаны на относительно старом и весьма развитом стандарте формата файлов SGML (Standard Generalized Markup Language). Формат SGML позволяет создать файлы весьма различной структуры. HTML – вариант SGML именно для Web-страниц. XML – как и SGML, универсальный формат файла, но несколько более ограниченный и более приспособленный для автоматической обработки
На основании формата XML, который является достаточно обобщённым, можно создать самые разные виды форматов файлов для разных целей. И многие современные программы хранят информацию именно в файлах формата XML. Так, офисный пакет OpenOffice.Org, с которым вам предстоит познакомиться в дальнейших уроках, использует файлы формата XML.
(Правда, OpenOffice.Org сжимает файлы при помощи встроенного архиватора, аналогичного Zip. Это нужно, чтобы уменьшить их размер; кроме того, внутри архива может быть несколько файлов, хотя они составляют один документ. Таким образом, формат OpenOffice.Org всё же является бинарным – но “раскрыв” содержимое архива при помощи стандартного архиватора Zip, можно получить данные в текстовом формате).