Форум
Тестовая категория
Форум | Тем | Сообщений | Последнее сообщение |
---|---|---|---|
ДОКУМЕНТ: ТЕКСТ И НЕ ТОЛЬКОКогда современный компьютер работает с текстовой информацией, далеко не всегда он хранит и обрабатывает только сам текст. Текстовый документ - это информационный блок, содержащий в качестве основной информации текст. Заметьте, что такой документ должен содержать именно текст. Так, картинка, изображающая записанный текст, с точки зрения компьютера текстовым документом не является – это графическое изображение. Но в текстовом документе отнюдь не всегда содержится только текст. Например, в документе, который Вы сейчас читаете, есть разные виды шрифта (жирный, курсив и т.д.). Есть заголовки. Есть оглавления, со ссылками, позволяющими перейти к чтению соответствующей главы. Всё это – дополнительная информация, которая, наряду с текстом, может находиться в текстовом документе. |
2 | 2 | ЕЩЁ О ФОРМАТАХ ФАЙЛОВ 2019-04-30 19:59:20 - lom |
ЦИФРОВОЕ ПРЕДСТАВЛЕНИЕ ДОКУМЕНТА. ПОНЯТИЕ ФОРМАТА.Любая информация в компьютере, как известно, хранится в цифровом виде. Причём используется двоичное исчисление – последовательности нулей и единиц. В современных компьютерах цифровые данные всегдаНа самом деле есть исключения. Но они сейчас нас не интересуют. объединены в байты, т.е. в группы по 8 бит. Байт может принимать значение от 0 до 255. Принято, однако, записывать значение каждого байта не в десятичной, а в шестнадцатиричной системе счисления. Это существенно удобнее, поскольку одна шестнадцатиричная цифра представляет ровно 4 бита, а две шестнадцатиричные цифры – соответственно, байтНапомним, что в шестнадцатиричной системе счисления используются цифры от 0 до 9, а также от A (10) до F (15). Вы можете легко вычислить, что FF в шестнадцатиричной системе – это как раз и есть 255 в десятичной. В любом текстовом документе и текст, и дополнительная информация должны быть закодированы в виде последовательности байтов. Только так компьютер сможет работать с ними. Способ цифрового представления той или иной информации нередко называют форматом. Как правило, текстовый документ хранится в компьютере в виде одного файла. Формат файла определяет, какая именно информация и каким образом может быть в нём представлена. |
1 | 2 | Все форматы файлов (включая и форматы для хранения текстовых документо 2019-04-30 20:01:01 - lom |
ПРОСТОЙ ТЕКСТОВЫЙ ФОРМАТ. КОДИРОВАНИЕ ТЕКСТАПростейший и наиболее давно применяемый формат текстового документа – простой текст (plain text). В этом формате возможно хранение только текстовой информации. Любая дополнительная информация – графические изображения, информация о шрифтах в тексте и т.п. – требует другого форматаФормат plain text можно использовать для хранения другой информации, если сначала закодировать её в виде текста. Об этом вы можете прочесть в дополнительном материале к данному уроку. . В формате plain text каждый символ текста – буква, цифра, пробел и т.п. – кодируется в виде определённого количества байт цифровой информации по таблице кодировки. Наиболее распространён восьмибитный вариант простого текста (8-bit plain text). Восьмибитная таблица кодировки устанавливает для каждого символа соответствующее 8-битное значение. Каждый символ кодируется в один байт. Последовательность символов превращается в такое же количество байтов; первый байт соответствует первому символу, второй байт – второму символу и т.д. Чтобы раскодировать такой текст, компьютер последовательно подставляет каждый байт в таблицу кодировки и выводит соответствующий символ. |
1 | 1 | АВТОМАТИЧЕСКОЕ ПРЕОБРАЗОВАНИЕ КОДИРОВОК И ФОРМАТОВ 2019-04-30 20:01:57 - lom |
МНОГОБАЙТОВЫЕ КОДИРОВКИТекст в 8-битной кодировке очень легко обрабатывать в компьютере (а также, если это нужно, кодировать или декодировать вручную). Но на этом достоинства 8-битной кодировки кончаются. Применение компьютеров стало глобальным; их можно найти практически в любой стране мира, с самыми разными языками. Многообразие кодировок, требуемых для всех этих языков, становится заметной помехой – в частности, при международной передаче данных. А если требуется подготовить документ на нескольких разных языках, 8-битная кодировка вообще оказывается непригодна. Также её недостаточно для языков с иероглифическим письмом – таких, как китайский и японский. Количество разных символов, требуемых даже для одного-единственного подобного языка, исчисляется тысячами. Закодировать иероглифический текст в 8-битной кодировке просто невозможно – какой бы она ни была. Чтобы решить все эти проблемы, необходим переход на многобайтовые кодировки. При использовании такой кодировки символу соответствует уже не один, а несколько байт. Причём разным символам может соответствовать разное количество байт. Существует стандарт многобайтовой кодировки – ISO 10646, Unicode. Он предусматривает несколько разных вариантов кодирования. Из них наиболее распространён так называемый UTF-8. В кодировке UTF-8 символы таблицы ASCII (буквы английского языка и т.д.) по-прежнему представлены одним байтом. Для других символов – в частности, кириллицы – используется по два или три байта. Причём в Unicode входит не только кириллица для русского и других современных языков, но даже буквы старорусского языка, такие как “ять” и “фита”. Хватило места и для многих других алфавитов. Unicode Многобайтовые кодировки, в частности Unicode – будущее компьютерной техники. Но на данный момент к работе с ними приспособлены ещё далеко не все программы. Поэтому 8-битное кодирование текста остаётся весьма распространённым. |
0 | 0 | |
8-БИТНЫЕ КОДИРОВКИ: ASCII, КОИ-8R И CP1251Первые таблицы кодировки, созданные в США, не использовали восьмой бит в байте. Текст представлялся как последовательность байт, но восьмой бит не учитывался (он применялся в служебных целях). Общепризнанным стандартом стала таблица ASCII (American Standard Code for Information InterchangeАмериканская Стандартная Кодировка для Обмена Информацией). Первые 32 символа таблицы ASCII (от 00 до 1FРазумеется, в шестнадцатиричной системе счисления) использовались для непечатаемых символов. Они были предназначены для управления печатающим устройством и т.п. Остальная часть – от 20 до 7F – обычные (печатаемые) символы. Таблица 1. Кодировка ASCII Как легко заметить, в этой кодировке представлены только латинские буквы, причём те, которые используются в английском языке. Есть также арифметические и другие служебные символы. Но нет ни русских букв, ни даже специальных латинских для немецкого или французского языка. Это легко объяснить – кодировка разрабатывалась имено как американский стандарт. Когда компьютеры стали применяться во всём мире, потребовалось кодировать и другие символы. Для этого было принято решение использовать восьмой бит в каждом байте. Тем самым оказались доступны ещё 128 значений (от 80 до FF), которые можно было использовать для кодирования символов. Первая из восьмибитных таблиц – “расширенный ASCII” (Extended ASCII) – включала в себя различные варианты латинских символов, применяемые в некоторых языках Западной Европы. Также в ней были другие дополнительные символы, включая псевдографику. Таблица 2. Extended ASCII Псевдографические символы позволяют, выводя на экран только текстовые символы, обеспечивать некоторое подобие графики. При помощи псевдографики работает, например, програма для управления файлами FAR Manager. Русских букв в таблице Extended ASCII не было. В России (ранее – СССР) и в других государствах создавались свои кодировки, позволяющие представлять в 8-битных текстовых файлах специфические “национальные” символы – латинские буквы польского и чешского языков, кириллицу (включая русские буквыНаряду с русскими буквами, в понятие кириллица входят специфические буквы украинского, болгарского, сербского, старославянского и других языков.) и другие алфавиты. Во всех кодировках, получивших распространение, первые 127 символов (т.е. значения байта при восьмом бите, равном 0) совпадают с ASCII. Таким образом, файл в формате ASCII работает в любой из этих кодировок; буквы английского языка в них представлены одинаково. Организация ISO (International Standardization Organization – Международная Организация по Стандартам) приняла группу стандартов ISO 8859. Она определяет 8-битные кодировки для разных групп языков. Так, ISO 8859-1 – это Extended ASCII, таблица для США и Западной Европы. А ISO 8859-5 – таблица для кириллицы (включая русский язык). Однако по историческим причинам кодировка ISO 8859-5 не прижилась. Реально для русского языка применяются следующие кодировки: – Code Page 866 (CP866), она же “DOS”, она же “альтернативная кодировка ГОСТ”. Широко применялась до середины 90-х годов; теперь используется ограниченно. Практически не применяется для распространения текстов в ИнтернетеCode Page (кодовая страница) – термин, применяемый в системе “поддержки национальных языков” в DOS и Windows. Существовала ещё и “основная кодировка ГОСТ”, но она применялась только в некоторых компьютерах советского производства и не прижилась.. – КОИ-8. Разработана в 70-80-е годы. Является общепринятым стандартом для передачи почтовых сообщений в российском Интернете. Широко применяется также в операционных системах семейства Unix, включая Linux. Вариант КОИ-8, рассчитанный на русский язык, называется КОИ-8R; существуют версии для иных кириллических языков (так, KOI8-U – вариант для украинского языка). – Code Page 1251, CP1251, Windows-1251. Разработана компанией Microsoft для поддержки русского языка в системе Windows. Основным достоинством CP866 было сохранение символов псевдографики на тех же местах, что и в Extended ASCII; поэтому могли без изменений работать зарубежные текстовые программы, например, знаменитый Norton Commander. Ныне CP866 используется для программ под Windows, работающих в текстовых окнах или в полноэкранном текстовом режиме, включая FAR Manager. Тексты в CP866 в последние годы встречаются довольно редко. Поэтому мы подробнее остановимся на двух других кодировках – КОИ-8R и CP1251. Таблица 2. Кодировка КОИ-8R (символы с 80 по FF) Таблица 3. Кодировка CP1251 (символы с 80 по FF) Как можно заметить, в таблице кодировки CP1251 русские буквы расположены в алфавитном порядке (за исключением, правда, буквы Ё). Благодаря такому расположению компьютерным программам очень просто осуществлять сортировку по алфавиту. А вот в КОИ-8R порядок русских букв кажется случайным. Но на самом деле это не так. Во многих старых программах при обработке или передаче текста терялся 8-й бит. (Сейчас такие программы практически “вымерли”, но в конце 80-х – начале 90-х годов они были широко распространены). Чтобы получить из 8-битного значения 7-битное, достаточно отнять от старшей цифры 8; например, E1 превращается в 61Ещё раз напомним, что все значения байтов приводятся в шестнадцатиричной системе счисления. А теперь сравните КОИ-8R с таблицей ASCII (табл.1). Вы обнаружите, что русские буквы поставлены в чёткое соответствие с латинскими. Если исчезнет восьмой бит, строчные русские буквы превращаются в заглавные латинские, а заглавные русские – в строчные латинские. Так, E1 в КОИ-8 – это русское “А”, тогда как 61 в ASCII – латинское “a”. Итак, КОИ-8 позволяет сохранять читаемость русского текста при потере 8-го бита. “Привет всем” превращается в “pRIWET WSEM”. В последнее время и алфавитный порядок расположения символов в таблице кодировки, и читаемость при потере 8-го бита потеряли решающее значение. Восьмой бит в современных компьютерах не теряется ни при передаче, ни при обработке. А сортировка по алфавиту производится с учётом кодировки, а не простым сравнением кодов. (Кстати, коды CP1251 расположены не полностью по алфавиту – буква Ё не находится на своём месте).В кодировке CP866 буквы расположены по алфавиту, кроме буквы Ё – как и в CP1251. Но между буквами “п” и “р” оказывается множество псевдографических символов. Существовали варианты CP866 вообще без буквы “Ё” Из-за того, что распространённых кодировок оказалось две, при работе с Интернетом (почта, просмотр Web-сайтов) иногда можно вместо русского текста увидеть бессмысленный набор букв. Например, “Я СБЮФЕМХЕЛ”. Это всего лишь слова “с уважением”; но они были закодированы в кодировке CP1251, а компьютер декодировал текст по таблице КОИ-8. Если те же слова были, наоборот, закодированы в КОИ-8, а компьютер декодировал текст по таблице CP1251, результатом будет “У ХЧБЦЕОЙЕН”. Иногда бывает, что компьютер расшифровывает русскоязычные письма и вовсе по таблице, не предназначенной для русского языка. Тогда вместо русских букв появляются бессмысленный набор символов (например, латинские буквы восточно-европейских языков); их часто называют “крокозябрами”. В большинстве случаев современные программы справляются с определением кодировок документов Интернета (электронных писем и Web-страниц) самостоятельно. Но иногда они “дают осечку”, и тогда можно увидеть странные последовательности русских букв или же “крокозябры”. Как правило, чтобы в такой ситуации вывести на экран настоящий текст, достаточно выбрать кодировку вручную в меню программы. |
1 | 1 | ШИФРОВАНИЕ 2019-04-30 20:02:49 - lom |
ОБЪЁМ ФАЙЛА И ОБЪЁМ ТЕКСТАПри использовании формата plain text (простой текст) и 8-битной кодировки размер файла (в байтах) почти точно соответствует объёму текста (в символах). “Почти” - потому что кодируется также переход на новую строку. В системе Windows для кодирования перехода на новую строку применяется два байта (0D 0A), а в системах семейства Unix, включая Linux – один байт (0A) Однако если используется многобайтовая кодировка, а также для файлов других форматов (не plain text) соотношение объёма файла и объёма текста может быть самым разнообразным. Следует понимать, что реальный информационный объём текста не определяется размером файла. Вычисление его – весьма сложная задача, но можно с уверенностью сказать, что он меньше размера файла формата plain text. Специальные программы – архиваторы, такие как Zip и RAR – сжимают файлы, чтобы они занимали меньше места; это обычно используется для облегчения передачи файлов или их переноса с одного компьютера на другой. Сжатый файл успешно разжимается тем же архиватором без какой-либо потери информации. Архиваторы могут работать именно потому, что реальный информационный объём данных меньше объёма файла. При помощи специальных алгоритмов они “отбрасывают” ненужный объем, сохраняя только полезную информацию. Затем они восстанавливают по этой информации полное содержимое файлов. |
0 | 0 | |
КОДИРОВАНИЕ И ДЕКОДИРОВАНИЕ ТЕКСТА ПО ТАБЛИЦЕ (8-БВыбрав небольшой русский или английский текст, попробуйте закодировать его по таблицам 1-3. Учтите, что английские буквы (а также служебные символы – такие, как пробел, точка или запятая) всегда кодируются по ASCII – таблица 1. А вот для русских букв нужно использовать одну из выбранных кодировок – КОИ-8R (таблица 2) или CP1251 (таблица 3). Учитывайте разницу между заглавными и строчными буквами. Не путайте русские буквы с похожими латинскими – так, нельзя вместо русской A кодировать латинскую A. (Такое кодирование заметно осложняет компьютерную обработку текста). Перевод строки кодируется двумя байтами – 0D и 0A. (Если используется система Unix/Linux, для кодирования перевода строки применяется только один байт – 0A). Закодировав текст, попробуйте раскодировать его. |
0 | 0 | |
ТЕКСТ В КОМПЬЮТЕРЕПример простого форума |
2 | 3 | ТЕХНОЛОГИЯ ПОДГОТОВКИ ТЕКСТОВОЙ ИНФОРМАЦИИ 2019-04-30 17:31:14 - lom |