Компьютеры

Информация о пользователе

Привет, Гость! Войдите или зарегистрируйтесь.


Вы здесь » Компьютеры » ЦИФРОВОЕ ПРЕДСТАВЛЕНИЕ ДОКУМЕНТА. ПОНЯТИЕ ФОРМАТА. » Все форматы файлов (включая и форматы для хранения текстовых документо


Все форматы файлов (включая и форматы для хранения текстовых документо

Сообщений 1 страница 2 из 2

1

Все форматы файлов (включая и форматы для хранения текстовых документов в файлах) можно подразделить на бинарные и текстовые.

Текстовый формат файла – это формат, основанный на plain text. Вся информация представлена в виде текста. В текстовом формате можно представить любую информацию – но её нужно закодировать в текстовый вид.

Особенно популярны текстовые форматы, разумеется, для текстовых документов. Не следует, однако, путать “текстовый формат” с “форматом plain text”. В текстовом формате может быть представлена и любая дополнительная информация – но она особым образом оформляется, чтобы отделить её от собственно текста документа.

Формат файла, не основанный на plain text, называется бинарным (от binary – англ. “двоичный”, поскольку в нём может использоваться любая последовательность двоичных данных). Например, офисный пакет Microsoft Office хранит документы, как правило, в файлах бинарных форматов.

Наиболее известный (и достаточно простой) текстовый формат – HTMLHyperText Markup Language – “язык разметки гипертекста”. “Гипертекстом” называют сколь угодно большой набор текста, разные части которого содержат ссылки друг на друга. Практически, весь WWW представляет из себя один большой гипертекст..  Он используется для Web-страниц. Вот как выглядит текст в формате HTML:

Это обычный текст страницы,

Здесь курсив

А это ссылка

При просмотре Web-страницы данный текст будет выглядеть так:

Это обычный текст страницы,

Здесь курсив

А это ссылка

Заметим, что информация о курсиве, переводе строки и ссылке (на сайт wwwru) указана в виде текста, но не попала в сам текст страницы. Также важно, что обычный перевод строки в файле не попал в текст страницы – строка переведена там, где была последовательность

Последовательности, заключённые в угловые скобки < > – не части текста, а способ указания дополнительной информации.

В формате HTML предусмотрено указание только тех видов дополнительной информации, которые нужны именно на Web-страницах. Но в последнее время активно развивается формат XMLeXtensible Markup Language – “расширяемый язык разметки”,  который построен по тому же принципу, но обеспечивает работу практически с любыми видами информации.Строго говоря, и HTML, и XML основаны на относительно старом и весьма развитом стандарте формата файлов SGML (Standard Generalized Markup Language). Формат SGML позволяет создать файлы весьма различной структуры. HTML – вариант SGML именно для Web-страниц. XML – как и SGML, универсальный формат файла, но несколько более ограниченный и более приспособленный для автоматической обработки

На основании формата XML, который является достаточно обобщённым, можно создать самые разные виды форматов файлов для разных целей. И многие современные программы хранят информацию именно в файлах формата XML. Так, офисный пакет OpenOffice.Org, с которым вам предстоит познакомиться в дальнейших уроках, использует файлы формата XML.

(Правда, OpenOffice.Org сжимает файлы при помощи встроенного архиватора, аналогичного Zip. Это нужно, чтобы уменьшить их размер; кроме того, внутри архива может быть несколько файлов, хотя они составляют один документ. Таким образом, формат OpenOffice.Org всё же является бинарным – но “раскрыв” содержимое архива при помощи стандартного архиватора Zip, можно получить данные в текстовом формате).

0

2

Формат plain text может раскодировать любой компьютер. Для этого не нужна какая-то особая информация о внутренней структуре файла – достаточно лишь таблицы кодировки. Это означает, что формат plain text с известной таблицей кодировки относится к открытым форматам.

С другой стороны, формат документа Microsoft Office известен только фирме Microsoft. Некоторые данные о нём можно у неё приобрести, однако это стоит денег, к тому же эти данные нередко оказываются неполными – хотя бы потому, что формат немного изменяется в каждой следующей версии Microsoft Office. Данный формат является закрытым.

Открытый формат не обязательно так прост, как plain text. Главное отличие открытого формата – то, что вся информация о нём опубликована. Её можно свободно получить и создать программу, которая будет полноценно работать с файлами этого формата – считывать информацию из них, сохранять в них новую информацию и т.п.

Использование открытых форматов – единственный способ обеспечить полноценный обмен информацией (в частности, через Интернет) между компьютерами во всём мире, на которых работают самые разные программы.

К сожалению, многие посылают по Интернету файлы закрытых форматов (в частности, Microsoft Office). Этого не следует делать, если вы не уверены, что у получателя установлена нужная программа. Нельзя считать, что если у “большинства” установлен Microsoft OfficeКак правило, с нелегально произведённых компакт-дисков. Легально произведённый Microsoft Office доступен, но его стоимость – несколько сотен долларов США, его файлы “прочтут все”.

Формат файлов OpenOffice.Org открыт. Однако и такие файлы не стоит пересылать без уверенности в том, что у получателя установлен OpenOffice.Org. Чтобы открытый формат обеспечивал обмен информацией между всеми пользователями, нужно, чтобы его поддерживало множество программ.

Для этого государства и авторитетные организации принимают стандарты. Стандартный формат – это открытый формат, который официально описан и закреплён в каком-либо стандарте (желательно – общепринятом). Как правило, большинство программ обеспечивает работу со стандартными форматами.

Так, стандарты на форматы файлов для WWW принимает организация World Wide Web Consortium (W3C). У неё нет официальной власти, признанной каким-либо государством; но именно принятые W3C стандарты позволяют создавать страницы, которые можно просмотреть с самых разных компьютеров.

Именно W3C принял стандарт на формат файлов Web-страниц, HTML. Существовало несколько разных версий этого стандарта; текущая – HTML 4.01. Сейчас HTML понемногу заменяется на новейший стандарт W3C – XHTML 1.0, основанный на XML.

Все программы просмотра Web-страниц должны правильно показывать страницу, если файл соответствует стандартам W3C.

К сожалению, общепринятый стандарт для документов, создаваемых офисными пакетами (такими, как Microsoft Office и OpenOffice.org), пока что отсутствует.

Заметим, что современные открытые форматы для текстовых и близких к ним документов, как правило, являются текстовыми; большинство из них создаётся на основе формата XML. Закрытые форматы обычно бывают бинарными.

0


Вы здесь » Компьютеры » ЦИФРОВОЕ ПРЕДСТАВЛЕНИЕ ДОКУМЕНТА. ПОНЯТИЕ ФОРМАТА. » Все форматы файлов (включая и форматы для хранения текстовых документо


Рейтинг форумов | Создать форум бесплатно