Проверяем, кодирует ли компьютер текст?

IT News

Проверяем, кодирует ли компьютер текст?ДатаКатегория: it

Человеческое существо, взглянув на текст на этой странице, мгновенно узнает знакомые образцы, из которых состоят буквы и слова. Компьютеру, чтобы осуществить то же самое, требуется специальное оборудование и сложная программа. На первом этапе оптическое сканирующее устройство должно «прочитать» текст и ввести его в компьютер.

Затем компьютер должен проанализировать каждый символ текста, чтобы правильно идентифицировать материал. Эта задача может быть усложнена разнообразием шрифта и размера. Компьютеру следует сравнить каждый символ с имеющимися у него образцами, идентифицирующими буквы.

Закончив с отгадыванием букв, компьютер сохраняет текст для дальнейшего просмотра или отпечатки. Компьютер, оборудованный синтезатором голоса, может прочитать текст вслух, после того как определен синтаксис, ударение, интонация.

Чем больше входят компьютеры в повседневную жизнь, тем важнее становится их способность принимать печатный текст и читать его вслух.

Распознавание символов

Компьютеры идентифицируют символы, графику и звуки посредством распознавания образцов. Если звуки для анализа разлагаются на частоты, печатный материал идентифицируется при помощи пошагового сравнения текстовых символов с набором хранимых в памяти компьютера форм и образцов.

1. Сканирование ввода

Когда компьютер сканирует текст, он преобразует его в электрические сигналы и отсылает в память.

2. Преобразование

Образцы символов преобразованы в двоичные числа: единицы для темных частей и нули для светлых.

3. Экстрагирование

Компьютер извлекает (экстрагирует) идентифицируемые элементы каждого символа из двоичного образца при помощи одного из нескольких методов.

Модельный анализ

Сканеры сдвигают элементы растра с границ образа и подвергают центральную или контурную линию модельному анализу. Контуры анализируются при помощи векторов направления.

Анализ формы

Полигональные фигуры (сверху, розовый цвет) исследуют форму символа. Символ анализируется в соответствии с тем, в каких местах он соприкасается с полигонами.

Фоновый анализ

Пока компьютер сканирует в четырех направлениях, к каждой части символа прикрепляются ярлыки (за каждой частью символа закрепляются ярлыки), указывающие, есть или нет элементы растра в данном месте.

4. Сравнивание

Информация, получаемая из извлеченных характеристик, сравнивается с набором хранимых моделей. Символы идентифицируются методом установления степени сходства с имеющимися образцами

Читая текст

Текст, идентифицированный при помощи распознавания символов, затем структурно анализируется. Этот анализ осуществляется при помощи словаря и набора синтаксических правил, хранимых в памяти компьютера.

Искусственный интеллект определяет, где встречаются разрывы между слогами. Дополнительные программы снабжают компьютер информацией о произношении, интонации, ударении, и синтезатор голоса читает текст вслух.

Источник: http://Information-Technology.ru/articles/20-it/103-kak-kompyuter-razlichaet-tekst

Как я могу проверить кодировку текстового файла … Действительно ли это, и что это такое?

Команда file делает «наилучшие догадки» о кодировке. Используйте параметр -i чтобы заставить file печатать информацию о кодировке.

Демонстрация:

$ file -i * umlaut-iso88591.txt: text/plain; charset=iso-8859-1 umlaut-utf16.txt: text/plain; charset=utf-16le umlaut-utf8.txt: text/plain; charset=utf-8

Вот как я создал файлы:

$ echo ä > umlaut-utf8.txt

В настоящее время все это utf-8. Но убедите себя:

$ hexdump -C umlaut-utf8.txt 00000000 c3 a4 0a |…| 00000003

Сравните с https://en.wikipedia.org/wiki/Ä#Computer_encoding

Преобразование в другие кодировки:

$ iconv -f utf8 -t iso88591 umlaut-utf8.txt > umlaut-iso88591.txt $ iconv -f utf8 -t utf16 umlaut-utf8.txt > umlaut-utf16.txt

Проверьте шестнадцатеричный дамп:

$ hexdump -C umlaut-utf16.txt 00000000 ff fe e4 00 0a 00 |……| 00000006 $ hexdump -C umlaut-iso88591.txt 00000000 e4 0a |..| 00000002

Смешайте все три, чтобы создать что-то «недействительное»:

$ cat umlaut-iso88591.txt umlaut-utf8.txt umlaut-utf16.txt > umlaut-mixed.txt

В каком file говорится:

$ file -i * umlaut-iso88591.txt: text/plain; charset=iso-8859-1 umlaut-mixed.txt: application/octet-stream; charset=binary umlaut-utf16.txt: text/plain; charset=utf-16le umlaut-utf8.txt: text/plain; charset=utf-8

без -i :

$ file * umlaut-iso88591.txt: ISO-8859 text umlaut-mixed.txt: data umlaut-utf16.txt: Little-endian UTF-16 Unicode text, with no line terminators umlaut-utf8.txt: UTF-8 Unicode text

Команда file не имеет понятия «действительный» или «недействительный». Он просто видит несколько байтов и пытается угадать, какова может быть кодировка. Как люди, мы можем легко увидеть, что файл представляет собой текстовый файл с некоторыми умляутами в «неправильной» кодировке. Но в качестве компьютера ему понадобился бы какой-то искусственный интеллект.

Можно утверждать, что эвристика file – это своего рода искусственный интеллект. Но даже если это так, это очень ограниченный.

Вот дополнительная информация о команде file : http://www.linfo.org/file_command.html

Источник: http://fliplinux.com/x435-16.html

Вместо текста иероглифы, квадратики и крякозабры (в браузере, Word, тексте, окне Windows)

Доброго времени суток!

Действительно, иногда при открытии какой-нибудь интернет-странички вместо текста показываются различные «крякозабры» (как я их называю), и прочитать это нереально.

Происходит это из-за того, что текст на страничке написан в одной кодировке (более подробно об этом можете узнать из Википедии), а браузер пытается его открыть в другой. Из-за такого рассогласования, вместо текста — непонятный набор символов.

Попробуем исправить это…

Исправляем иероглифы на текст

Браузер

Вообще, раньше Internet Explorer часто выдавал подобные крякозабры, современные же браузеры (Chrome, Яндекс-браузер, Opera, Firefox) — довольно неплохо определяет кодировку, и ошибаются очень редко. Скажу даже больше, в некоторых версиях браузера уже убрали выбор кодировки, и для «ручной» настройки этого параметра нужно скачивать дополнения, или лезть в дебри настроек за 10-ток галочек…

И так, предположим браузер неправильно определили кодировку и вы увидели следующее (как на скрине ниже)…

Неправильно выбранная кодировка

Чаще всего путаница бывает между кодировками UTF (Юникод) и Windows-1251 (большинство русскоязычных сайтов выполнены в этих кодировках).

Поэтому, я рекомендую в ручном режиме попробовать их обе. Например, чтобы это сделать в браузере Firefox, нужно:

  1. нажать левый ALT — чтобы сверху показалось меню. Нажать меню «Вид»;
  2. выбрать пункт «Кодировка текста», далее выбрать Юникод. Вуаля — иероглифы на странички сразу же стали обычным текстом (скрин ниже)!

Смена кодировки в Firefox

Еще один совет: если в браузере не можете найти, как сменить кодировку (а дать инструкцию для каждого браузера — вообще нереально!), я рекомендую попробовать открыть страничку в другом браузере. Очень часто другая программа открывает страницу так, как нужно.

Текстовые документы

Очень много вопросов по крякозабрам задаются при открытии каких-нибудь текстовых документов. Особенно старых, например при чтении Readme в какой-нибудь программе прошлого века (например, к играм).

Разумеется, что многие современные блокноты просто не могут прочитать DOS'овскую кодировку, которая использовалась ранее. Чтобы решить сию проблему, рекомендую использовать редактор Bread 3.

Попробуйте открыть в Bred 3 свой текстовый документ (с которым наблюдаются проблемы). Пример показан у меня на скрине ниже.

Иероглифы при открытии текстового документа

Далее в Bred 3 есть кнопка для смены кодировки: просто попробуйте поменять ANSI на OEM — и старый текстовый файл станет читаемым за 1 сек.!

Исправление иероглифов на текст

Для работы с текстовыми файлами различных кодировок так же подойдет еще один блокнот — Notepad++. Вообще, конечно, он больше подходит для программирования, т.к. поддерживает различные подсветки, для более удобного чтения кода.

Пример смены кодировки показан ниже: чтобы прочитать текст, достаточно в примере ниже, достаточно было сменить кодировку ANSI на UTF-8.

Смена кодировки в блокноте Notepad++

WORD'овские документы

Очень часто проблема с крякозабрами в Word связана с тем, что путают два формата Doc и Docx. Дело в том, что с 2007 Word (если не ошибаюсь) появился формат Docx (позволяет более сильнее сжимать документ, чем Doc, да и надежнее защищает его).

Так вот, если у вас старый Word, который не поддерживает этот формат — то вы, при открытии документа в Docx, увидите иероглифы и ничего более.

Решения есть 2:

  1. скачать на сайте Microsoft спец. дополнение, которое позволяет открывать в старом Word новые документы. Только из личного опыта могу сказать, что открываются далеко не все документы, к тому же сильно страдает разметка документа (что в некоторых случаях очень критично);
  2. использовать аналоги Word (правда, тоже разметка в документе будет страдать);
  3. обновить Word до современной версии.

Так же при открытии любого документа в Word (в кодировке которого он «сомневается»), он на выбор предлагает вам самостоятельно указать оную. Пример показан на рисунке ниже, попробуйте выбрать:

  1. Widows (по умолчанию);
  2. MS DOS;
  3. Другая…

Переключение кодировки в Word при открытии документа

Окна в различных приложениях Windows

Бывает такое, что какое-нибудь окно или меню в программе показывается с иероглифами (разумеется, прочитать что-то или разобрать — нереально).

Могу дать несколько рекомендаций:

  1. Руссификатор. Довольно часто официальной поддержки русского языка в программе нет, но многие умельца делают руссификаторы. Скорее всего, на вашей системе — данный руссификатор работать отказался. Поэтому, совет простой: попробовать поставить другой;
  2. Переключение языка. Многие программы можно использовать и без русского, переключив в настройках язык на английский. Ну в самом деле: зачем вам в какой-то утилите, вместо кнопки «Start» перевод «начать»?
  3. Если у вас раньше текст отображался нормально, а щас нет — попробуйте восстановить Windows, если, конечно, у вас есть точки восстановления (подробно об этом здесь — https://ocomp.info/vosstanovlenie-windows-10.html);
  4. Проверить настройки языков и региональных стандартов в Windows, часто причина кроется именно в них.

Языки и региональные стандарты в Windows

Чтобы открыть меню настроек:

  • нажмите Win+R;
  • введите intl.cpl, нажмите Enter.

intl.cpl — язык и регион. стандарты

Проверьте чтобы во вкладке «Форматы» стояло «Русский (Россия) // Использовать язык интерфейса Windows (рекомендуется)» (пример на скрине ниже).

Формат — русский // Россия

Во вкладке местоположение поставьте расположение Россия.

Местоположение — Россия

И во вкладке дополнительно установите язык системы на «Русский (Россия)». После этого сохраните настройки и перезагрузите ПК. Затем вновь проверьте, нормально ли отображается интерфейс нужной программы.

Текущий язык программ

PS

И напоследок, наверное, для многих это очевидно, и все же некоторые открывают определенные файлы в программах, которые не предназначены для этого: к примеру в обычном блокноте пытаются прочитать файл DOCX или PDF. Естественно, в этом случае вы вместо текста будут наблюдать за крякозабрами, используйте те программы, которые предназначены для данного типа файла (WORD 2007+ и Adobe Reader для примера выше).

На сим всё, удачи!

Источник: https://ocomp.info/vmesto-teksta-ieroglifyi-kryakozabryi.html

Как решать проблемы кодировок в Windows и MS Office

Как решать проблемы кодировок в Windows и MS Office

С переходом ко все новым версиям Windows острота проблемы существования множества кодировок русского языка почти сошла на нет

Радикально данную проблему призван решить переход к Unicode, который для Windows длится уже не первое поколение этой системы, но все никак не закончится. И, как это часто бывает, решая одни проблемы, Unicode порождает множество других.

Впрочем, для интернет-ресурсов и писем это почти всегда легко решается браузерами и почтовыми клиентами автоматически.

Если у вас веб-страница или письмо все же отображается «кракозябрами» (что иногда случается из-за несоблюдения разработчиками стандартов), то нужно из главного меню выбрать пункт «Кодировка» и там методом проб и ошибок установить нужную.

Этот пункт в большинстве браузеров находится в меню «Вид» (напомним, что отсутствующее на виду в современных версиях веб-обозревателей главное меню всегда можно вызвать клавишей).

Проблемы «обычного текста» Одна из таких проблем связана с файлами в формате «обычный текст», хотя, казалось бы, что может быть проще? Бери последовательность текстовых символов и записывай в файл. Но именно из-за этой простоты, если уж проблема в них возникает, то по полной программе.

Если вы попробуете сохранить русский текст через Word (любой версии после Office 97, включая последнюю 2010) как «обычный текст», то получите на выбор ряд однобайтовых русских кодировок. По умолчанию (рис.1) предлагается стандартная «кириллица Windows» ( также известная как 1251, или ANSI), знакомая еще по DOS.

Попробуйте сделать то же самое через стандартный «Блокнот» из Windows 7 — вам уже предложат выбор между привычной ANSI и аж тремя вариантами Unicode (рис. 2). Тут уже кроется засада: текстовый файл в формате «юникода» должен сопровождаться специальным заголовком BOM (Byte Order Mark), определяющим порядок следования байтов (т. е.

какой байт в 2-байтовом символе идет первым — старший или младший).

Собственно засада заключается в том, что BOM не является обязательным атрибутом юникод-файла, и, с одной стороны, может отсутствовать в текстах, полученных из внешнего источника (скажем, из-под некоторых Linux-программ), с другой — вызывать сбои в программах, которые этого заголовка «не понимают».

Рецепт тут один: по мере возможности избегать «юникода» в «чистых текстах» и ориентироваться на привычную ANSI. Это позволит избежать большинства проблем, связанных с русскоязычными текстовыми файлами, хотя и ограничит их переносимость в англоязычные или европейские версии ОС.

Другую задачу, связанную с текстовыми файлами, которая обычно ставит в тупик неопытных пользователей, умеет решать любой Microsoft Word, начиная с версии Office XP — это столкновение с текстами в нестандартной однобайтовой кодировке (например, старинной DOS, также известной как OEM, или 866). Сначала надо убедиться в настройках, что включена опция «Подтверждать преобразование формата файла при открытии» (по умолчанию она выключена!). В старых версиях Word эта настройка находится в меню «Сервис/Параметры» на вкладке «Общие». В Word 2007 нажмите на кнопку с эмблемой Office, выберите «Параметры Word» в нижней части открывшегося окна. В Word 2010 раздел «Параметры» доступен через меню «Файл». В «Параметрах» перейдите к пункту «Дополнительно» на боковой панели, а затем найдите там раздел «Общие» (рис. 3).

При включенной этой функции открывать «нечитаемый» текстовый файл следует через меню «Открыть» (а не щелчком из Проводника, при котором запустится, скорее всего, «Блокнот»).

Потом следует выбрать из выпадающего списка типов файлов пункт «Восстановление текста из любого файла». Файл может быть, естественно, любого формата (т. е.

необязательно с расширением TXT), лишь бы он содержал текст, а не двоичные символы.

Кстати, просто прочесть документ именно в DOS-кодировке можно и с помощью «Блокнота» и вообще любой программы, которая умеет менять шрифты — достаточно через меню выбора шрифта (в «Блокноте» это «Формат/Шрифт») заменить текущий на Terminal. Не забудьте только вернуть потом шрифт обратно, а то не прочтете нормальные документы.  

Unicode в Буфере обмена

Однако такие конфликты с текстовыми файлами — довольно редкий случай. У рядового пользователя гораздо чаще возникают проблемы с Unicode в Буфере обмена. Обычная ситуация, когда при переносе текста из старых программ, не поддерживающих указанную кодировку, или некоторых PDF-документов вместо русского при вставке возникает что-нибудь вроде Auaia iayedai . В большинстве правильно составленных приложений помогает простое переключение на русский язык (именно в той программе, откуда производится копирование, а не в пункте назначения), но нередко встречаются особо упертые приложения и PDF-документы, откуда сведения о том, что это русский язык, не удается извлечь никакими силами.

Microsoft Word в старых версиях Office XP и 2003 умеет решать эту проблему, о чем многие не знают, — в нем есть функция «Исправить поврежденный текст» (в меню «Сервис»). В новых версиях 2007/2010 такой функции нет.

В справке и на сайте Microsoft ничего об этом разыскать не удалось — вполне вероятно, в Microsoft посчитали, что продуктов, имеющих подобные свойства, уже не осталось в природе, что, к сожалению, не соответствует действительности.

Возможно, вам тоже не захочется терять время на поиски официального решения. Тогда воспользуйтесь моей программой ClipWin (рис. 4), которую можно скачать по адресу: revich.lib.ru/clipwin.zip.

Интерфейс этой программы сделан в расчете на максимально быстрое выполнение операции, но без потери контроля за ее выполнением: если текст в системном «кармане» уже имеется — достаточно запустить программу и трижды нажать на .

После первого нажатия текст (уже исправленный) вставится из Буфера обмена в окно для контроля, после второго — исправленный текст заменит тот, что был изначально, а после третьего у вас программа закроется, но сам текст будет исправлен и его можно будет вставлять куда угодно.

Раскладка клавиатуры как правильно?
По моему глубокому убеждению, комфортно существовать и эффективно работать в среде Windows без использования дополнительных переключателей раскладки клавиатуры абсолютно невозможно — необходимость постоянного прицеливания скрюченными пальцами в две клавиши одновременно у меня вызывает боль в пальцах при одной только мысли об этом. Точнее, абсолютно невозможно это было до появления Vista, где вместе с традиционными комбинациям клавиш появилась, наконец, возможность переключать язык ввода одной клавишей . Но и такое решение, по крайней мере, для радетелей чистоты русского языка, неприемлемо — не вводить же букву Ё каждый раз через специальную вставку или таблицу символов.

Решение этой проблемы общеизвестно и заключается оно в применении популярной переключалки Punto Switcher, позволяющей настроить для выполнения операции в принципе любую клавишу (обычно это правый или ).

Программа поддерживается «Яндексом», скачать ее можно из раздела «Программы» поисковика (по адресу soft.yandex.ru) или напрямую по адресу punto.yandex.ru.

Об этой и других аналогичных программах недавно рассказал Александр Евдокимов в статье «Корректоры букв».

Многие программы данного типа способны выполнять и другую востребованную функцию: переключение уже набранного в неправильной раскладке текста. В зависимости от настроек, это может осуществляться даже автоматически, хотя лично я предпочитаю эту автоматику отключать.

Еще одно недоразумение, связанное с языковой раскладкой, встречается реже, но может добавить несколько неприятных моментов. После переключения на английский вас может озадачить одна особенность ввода некоторых символов.

Это касается таких знаков, как кавычки, апострофы (их два — прямой и наклонный), тильда «~» и циркумфлекс («крышечка») «^». После нажатия соответствующей клавиши ничего не вводится — надо еще нажать либо пробел, чтобы ввести знак в «чистом» виде, либо еще какую-то букву или цифру, тогда знак введется перед ней.

Можно нажать кавычку или апостроф дважды — появится сразу пара знаков (они и употребляются часто парами, текст тогда вводится между ними).

Такая, не всегда удобная особенность англоязычного компьютерного ввода может возникнуть, если по каким-то причинам для английского языка установлена раскладка «США-международная» (или, возможно, какая-то из европейских, которые у нас не в ходу).

Недоразумение легко устраняется, если сменить раскладку для английского языка обратно на положенную по умолчанию просто «США».

В Windows 7 к этой настройке можно добраться в Панели управления через «Языки и региональные стандарты / Языки и клавиатуры / Изменить клавиатуру / Общие / Добавить» (рис. 5).

Итоговый совет
Если у вас возникают другие проблемы с кодировками, не описанные в этой статье, то, вероятнее всего, они вызваны установкой «не той» версии Windows — например, американской или европейской с дополнительным языковым пакетом.

Во избежание таких проблем следует по возможности всегда пользоваться русской версией. Но так уж сложилась жизнь у русскоязычных пользователей Windows, что проблема кодировок была, есть и будет.

Ее острота снижается по мере обновления программного обеспечения, но, вероятно, проблема никогда не исчезнет полностью.

Источник: Hard'n'Soft

Автор: Юрий Ревич

Источник: http://www.km.ru/science-tech/2012/07/30/kompyuternye-sovety/kak-reshat-problemy-kodirovok-v-windows-i-ms-office

Как компьютеры кодируют наш язык

Как компьютеры кодируют наш язык

Наши компьютеры понимают только собственный язык нулей и единиц. А чтобы работать с остальными языками, переводят их на свой, вплоть до символа. Это и называется кодировка текста, какого угодно, где каждому символу отведен свой числовой код. Все буквы и остальные знаки хранятся в виде цифр.

Системы кодировок бывают разные. Иногда сайт или текстовая программа неправильно определяют кодировку. Тогда вместо текста мы видим непонятный набор символов.

Чтобы превратить их в читабельный текст, нужно подобрать правильную кодировку. Проще всего сделать это онлайн. На сайте любого декодера нужно только вставить испорченный текст. Декодер сам подберет нужную кодировку и решит проблему.

Кодировка из девяностых

Самый распространённый и широко охватывающий большинство языков стандарт кодировки текста — unicode.

В далёком 1991-м году он был предложен как способный вместить в себе любой символ, от иероглифов до специальных знаков музыкальной нотации.

Теперь это самая популярная система кодирования текста в интернете. Сохраняя текст в этом стандарте вы скорее всего избежите проблем с декодированием.

Закодировать текст легко

Кодировку текста легко задать почти во всех текстовых редакторах, даже в блокноте. В меню «файл», в разделе кодировки выбирайте подходящую для вас.

После чего весь набранный текст будет сохраняться с заданным параметром. Если такого пункта меню вашего блокнота нет, кодировку можно установить при сохранении.

Нужно нажать «сохранить как», появится окошко, где выбирается название, тип файла и кодировка.

В более продвинутых текстовых редакторах менять кодировку так же легко. В программе word задать кодировку можно при сохранении. Для этого в меню «файл» (или «ms office» в новых версиях) нужно выбрать пункт «сохранить как…». Теперь нужно вписать название, выбрать тип файла «обычный текст» и нажать кнопку «сохранить». Появится окно, где можно будет выбрать нужную кодировку.

Иногда некорректно отображается текст в excel файлах. Чтобы исправить это, нужно открыть саму программу, выбрать там вкладку «данные» и для получения внешних данных выбрать пункт «из текста».

В открывшемся окне отыскиваем наш проблемный файл, выделяем и жмём кнопку «импорт». Теперь для этого файла можно подобрать кодировку, визуально контролируя процесс в окне предварительного просмотра.

После останется только сохранить.

Закодированные тексты на ваших сайтах

Так как вычислительные системы понимают только переведённый в цифры текст, один и тот же материал в разных кодировках будет выглядеть для них по-разному.

Эта особенность используется некоторыми для плагиата. Всё ещё есть роботы, проверяющие уникальность, которые могут не отличить текст с непривычной им кодировкой.

Но если его скопировать в блокнот, он станет нечитабельным или обрастет лишними символами.

Браузер воспринимает текст сайта тоже через кодировку. Если она будет неправильно подобрана, вместо текста будут вопросы или непонятные знаки. Кодировка задается в head, в теге. В кавычках может быть любой стандарт, но utf-8 самый распространенный из них. Поэтому для своих русскоязычных проектов используйте её. Тогда ваши сайты будут корректно отображаться в любом браузере.

Чтобы детальнее разобраться с особенностями кодировки для вашего сайта, смотрите видеоуроки. В них наглядно разбираются вероятные проблемы и их решения. На портале у Михаила Русакова есть целый ряд таких уроков. Там можно найти ответы на множество вопросов по верстке сайтов.

А то, что уже умеете, сможете делать качественнее и быстрее, учась у профессионалов. Все уроки вы сможете сохранить в компьютере, просматривая при необходимости снова.

Источник: http://start-luck.ru/poleznyy-soft/kodirovka-teksta.html

Что делать, если вместо текста иероглифы (в Word, браузере или текстовом документе)

Наверное, каждый пользователь ПК сталкивался с подобной проблемой: открываешь интернет-страничку или документ Microsoft Word — а вместо текста видишь иероглифы (различные «крякозабры», незнакомые буквы, цифры и т.д. (как на картинке слева…)).

Хорошо, если вам этот документ (с иероглифами) не особо важен, а если нужно обязательно его прочитать?! Довольно часто подобные вопросы и просьбы помочь с открытием подобных текстов задают и мне. В этой небольшой статье я хочу рассмотреть самые популярные причины появления иероглифов (разумеется, и устранить их).

Иероглифы в текстовых файлах (.txt)

Самая популярная проблема. Дело в том, что текстовый файл (обычно в формате txt, но так же ими являются форматы: php, css, info и т.д.) может быть сохранен вразличных кодировках.

Чаще всего происходит одна вещь: документ открывается просто не в той кодировке из-за чего происходит путаница, и вместо кода одних символов, будут вызваны другие. На экране появляются различные непонятные символы (см. рис. 1)…

Рис. 1. Блокнот — проблема с кодировкой

Как с этим бороться?

На мой взгляд лучший вариант — это установить продвинутый блокнот, например Notepad++ или Bred 3. Рассмотрим более подробно каждую из них.

Notepad++

Официальный сайт: https://notepad-plus-plus.org/

Один из лучших блокнотов как для начинающих пользователей, так и для профессионалов. Плюсы: бесплатная программа, поддерживает русский язык, работает очень быстро, подсветка кода, открытие всех распространенных форматов файлов, огромное количество опций позволяют подстроить ее под себя.

В плане кодировок здесь вообще полный порядок: есть отдельный раздел «Кодировки» (см. рис. 2). Просто попробуйте сменить ANSI на UTF-8 (например).

Рис. 2. Смена кодировки в Notepad++

После смены кодировки мой текстовый документ стал нормальным и читаемым — иероглифы пропали (см. рис. 3)!

Рис. 3. Текст стал читаемый… Notepad++

Bred 3

Официальный сайт: http://www.astonshell.ru/freeware/bred3/

Еще одна замечательная программа, призванная полностью заменить стандартный блокнот в Windows. Она так же «легко» работает со множеством кодировок, легко их меняет, поддерживает огромное число форматов файлов, поддерживает новые ОС Windows (8, 10).

Кстати, Bred 3 очень помогает при работе со «старыми» файлами, сохраненных в MS DOS форматах. Когда другие программы показывают только иероглифы — Bred 3 легко их открывает и позволяет спокойно работать с ними (см. рис. 4).

Рис. 4. BRED3.0.3U

Если вместо текста иероглифы в Microsoft Word

Самое первое, на что нужно обратить внимание — это на формат файла. Дело в том, что начиная с Word 2007 появился новый формат — «docx» (раньше был просто «doc»). Обычно, в «старом» Word нельзя открыть новые форматы файлов, но случается иногда так, что эти «новые» файлы открываются в старой программе.

Просто откройте свойства файла, а затем посмотрите вкладку «Подробно» (как на рис. 5). Так вы узнаете формат файла (на рис. 5 — формат файла «txt»).

Рис. 5. Свойства файла

Далее при открытии файла обратите внимание (по умолчанию данная опция всегда включена, если у вас, конечно, не «не пойми какая сборка») — Word вас переспросит: в какой кодировке открыть файл (это сообщение появляется при любом «намеке» на проблемы при открытии файла, см. рис. 5).

Рис. 6. Word — преобразование файла

Чаще всего Word определяет сам автоматически нужную кодировку, но не всегда текст получается читаемым. Вам нужно установить ползунок на нужную кодировку, когда текст станет читаемым. Иногда, приходится буквально угадывать, в как был сохранен файл, чтобы его прочитать.

Рис. 7. Word — файл в норме (кодировка выбрана верно)!

Смена кодировки в браузере

Когда браузер ошибочно определяет кодировку интернет-странички — вы увидите точно такие же иероглифы (см. рис 8).

Рис. 8. браузер определил неверно кодировку

Чтобы исправить отображение сайта: измените кодировку. Делается это в настройках браузера:

Источник: https://pomogaemkompu.temaretik.com/768716859564624201/chto-delat-esli-vmesto-teksta-ieroglify-v-word-brauzere-ili-tekstovom-dokumente/

Иероглифы вместо русских букв, вместо текста квадратики, что делать?

Автор Вероника и Влад Дата Ноя 2, 2016Иногда при открытии скачанного или скопированного с другого ПК текстового файла, он не подлежит прочтению. Все буквы заменяются на иероглифы, символы, квадратики или иные нечитаемые знаки.

Бывает, что буквы и цифры узнаваемы, но стоят на произвольных местах, что делает текст бессвязным и не читаемым. Такая проблема возникает не только в документах, но и в браузерах при открытии некоторых страниц.

Дело тут в кодировке, ее нужно либо снять, либо изменить.

Текстовые документы

Именно в документах Ворда, Блокнота и т.п. такая кодировка встречается чаще всего. Кодировка – набор знаков, благодаря которым происходит печать текста на определенном алфавите. Теоретически, любой документ сохраняется в различных шифрованиях, но пользователи почти никогда не прибегают к таким действиям.

Потому, если Вы видите вместо букв вопросительные знаки и т.п., то маловероятно, что это сделано намеренно. Скорее всего, ввиду системного сбоя у пользователя, создавшего документ, он сохранился не в той кодировки. Кроме того, дело может быть и в сбои на Вашем ПК, в результате чего файл не открывается правильно.

Наиболее часто проблема возникает при использовании Блокнота. Также встречается в файлах php, css, info и подобных текстовых. Гораздо реже в Ворде. Кроме того, путаница с шифрованием встречается в браузере, там Вы также можете увидеть кракозябры вместо русских букв. В последнем случае избавиться от нее особенно трудно.

Notepad +++

Самый простой способ открыть документ Блокнот, где вместо букв квадратики – применить сторонний софт. Популярен Notepad+++. Это тот же Блокнот, но обладающий дополнительными функциями. Имеет следующие преимущества:

  1. Распространяется бесплатно;
  2. Как и Ворд, имеет кнопку отмены последнего действия;
  3. Поддерживает одновременную работу с несколькими файлами;
  4. Позволяет изменить или выбрать шифрование.
  5. Автоматически дописывает тексты;

Чтобы иероглифы вместо русских букв преобразовались, откройте документ Блокнота в данной программе. В ленте меню сверху найдите вкладку Кодировки. Нажмите на нее. Откроется меню с перечислением всех их типов. Не всегда очевидно, какой именно тип шифрования применялся, потому, чтобы выбрать правильный для перекодировки, нужно попробовать несколько. Текст пред этим выделите.

По мере применения кодировок, символы в документе могут меняться (по одному нажатию в меню) или оставаться неизменными. В результате, после применения определенной, текст станет читаемым.

Bred 3

Программа аналогична предыдущей. Представляет собой Блокнот с расширенными возможностями. Успешно применяется вместо стандартного Блокнота Виндовс. Кодировки представлены в отдельной вкладке в верхнем меню. Откройте документ, в котором видны лишь текстовые значки или иероглифы, выделите текст, и пробуйте менять шифрования по очереди. В результате текст станет читаемым.

Поддерживает множество, даже редких, форматов. Работает со старой DOS- кодировкой, которую не открывают современные программы. Работает на Windows 8, 8.1, 10.

Word

Иногда кодировка появляется и в документах Ворд. Иногда причиной того, что в ворде появились непонятные символы, является то, что у Вас на ПК установлен старый Ворд (до 2007 года), а документ создан в более поздних версиях софта.

Чаще всего, такие «новые» файлы просто не открываются в старой версии, но иногда открываются в странной кодировке. Чтобы понять, так ли это, посмотрите в Свойствах файла, какой он имеет формат. «Новые» документы имеют формат docx. Преобразование файла в word до старого формата невозможно.

Лучше установить обновление на MS Word. Изменить формат текстового документа на читаемый не сложно.

  • Еще до открытия файла, софт «понимает», что в нем проблема. При двойном клике на него Ворд откроет окно, где спросит – в какой кодировке открыть файл. Чтобы изменить кодировку текста в word, выполните алгоритм;
  • Попробуйте кодировку, предложенную программой;
  • Если не сработало, кликайте по очереди на предлагаемые типы;
  • Пробуйте менять типы кодировки и алфавит, типы кириллицы;
  • Как только текст станет читаемым нажмите ОК.

Иногда возникает проблема другого характера. Вы набираете текст в Ворде или Блокноте и замечаете, что на клавиатуре вместо букв печатаются цифры. Проблема связана с режимом Num Look и возникает на некоторых ноутбуках. Посмотрите на клавиатуру.

Если на кнопках в правой части, кроме букв написаны и цифры, а вверху присутствует кнопка num lk, значит ноутбук оснащен данным режимом и Вы случайно включили. Для отключения нажмите кнопку Num Look или Fn+F11.

Набор цифр прекратится, появятся буквы в привычном виде.

Иероглифы в браузере

Иногда при открытии страницы в браузере Вы видите текст в кодировке. Это квадратики вместо букв в Опере, непонятные символы в Хроме и т.п. Причина — нарушение кодировки в браузере. Сбои происходят редко и виноваты в них разработчики. Но устранить сбой можно самостоятельно.

Если у Вас Хром, то пройдите по пути Настройки — Инструменты — Кодировки. Наведите на него указатель, откроется меню с кодировками. Если установлен параметр «Автоматически», измените на «Windows 1251». Если установлен другой параметр, замените на Windows 1251. Если он не помог открыть, установите «Автоматически» или перепробуйте кодировки по очереди.

В Опере нужно пройдите в главное меню в верху окна и оттуда – в Настройки. Нажмите на Веб – сайты и найдите раздел Отображение. Кликайте по Настройке шрифтов и внизу открывшегося окна находите чек – бокс. В нем выбирайте Windows 1251. Это универсальный параметр отображении русских шрифтов, какой бы браузер не использовался.

В Firefox пройдите по пути Главное меню браузера — Настройки — Содержимое — Дополнительно. Как и для Оперы, в чек — боксе внизу открывшегося окна, выбирайте нужную кодировку.

Теперь вы знаете, что делать, если вместо текста иероглифы.

Источник: http://pcyk.ru/windows/chto-delat-kogda-v-dokumente-poyavlyayutsya-neponyatnye-simvoly-i-ieroglify/

Checking the character encoding using the validator

Checking the character encoding using the validator

To make sure all recipients of a document can display and interpret it properly, it is very important to correctly indicate the character encoding ('charset'). One way to check this is to use the W3C Markup Validation Service.

The validator usually detects the character encoding from the HTTP headers and information in the document.

If the validator fails to detect the encoding, it can be selected on the validator result page via the 'Encoding' pulldown menu (example).

But often, the validator does not complain even if a wrong encoding is detected or selected.

The reason for this is that many encodings are very similar, and the validator only checks the markup syntax and cannot decide whether the decoded text makes sense or not.

To make sure that you have the correct encoding, which means that the document will be displayed correctly to readers, the following points will help:

  • If the encoding selected or detected is US-ASCII, UTF-8, UTF-16, or iso-2022-jp (Japanese JIS), and the validator does not complain about encoding problems, there is an extremely high probability that the selected encoding is correct. Note that US-ASCII is a strict subset of UTF-8, and so if US-ASCII works, UTF-8 will work, too.
  • For any other encoding, visual checking is necessary. Select the Show Source option from the Extended Interface of the validator, and check that the non-ASCII characters in the text are displayed correctly. For pages in foreign languages, this can usually be established quickly. For pages in English with just a few non-ASCII characters, this can be more difficult.For example, if you tried to interpret the W3C home page as iso-8859-1, you may have to go almost to the end of the source to find text such as '©' and '®' to see that this is the wrong choice. (Of course, that page tells the validator from the beginning that it is encoded in UTF-8, and so you don't actually have to check anything else.)
  • In some cases, more than one encoding will adequately represent the characters in a document. For example, there is quite some overlap between iso-8859-1 (Latin-1, Western Europe) and iso-8859-2 (Latin-2, Eastern Europe), and other encodings in this series. If after careful checking, you cannot find a difference, then either choice is fine. The close similarity of these encodings in terms of byte patterns and in terms of actually encoded characters explains why only visual inspection can make sure that the encoding is correct.
  • If none of the encodings offered by the validator works, then you either have a page in an encoding that the validator does not (yet) support, or somehow, text in several different encodings got mixed up in the page. In the former case, write to the validator mailing list (public archive) to have your character encoding added. In the later case, you have to fix your page, because each Web page can only use a single character encoding.

Источник: http://www.w3.org/International/questions/qa-validator-charset-check

4 бесплатных дешифратора для файлов, зараженных программой-вымогателем

4 бесплатных дешифратора для файлов, зараженных программой-вымогателем

Подробнее о том, как расшифровать файлы бесплатно и не платить выкуп программам-вымогателям, используя утилиты Avast по удалению вирусов-шифровальщиков.

Программы-вымогатели становятся «флагманом» вредоносного ПО. За последний год мы зафиксировали рост числа атак шифрователей более чем в два раза (на 105%). Подобные вирусы блокируют доступ к файлам на компьютере, кодируя их и вымогая выкуп за предоставление кода для расшифровки.

Как расшифровать файлы бесплатно? Мы рады объявить о выпуске четырех инструментов для удаления программ-вымогателей и дешифровки файлов: Alcatraz Locker, CrySiS, Globe и NoobCrypt. Все дешифраторы для файлов доступны на нашей странице и являются бесплатными.

Там же представлено подробное описание каждого вида программ-вымогателей. Наши инструменты смогут помочь вам удалить вирус-шифровальщик и разблокировать файлы. Утилиты постоянно обновляются по мере развития перечисленных видов угроз.

С момента выпуска первого пакета из семи инструментов Avast для дешифровки нам было приятно получить множество отзывов с благодарностями и рассказами о том, как наши утилиты спасли чьи-то ценные данные или даже бизнес. Надеемся, новые программы для дешифровки помогут еще большему количеству пользователей.

Ниже приведено краткое описание четырех новых видов программ-вымогателей, для удаления которых были разработаны новые бесплатные утилиты.

Alcatraz 

Alcatraz Locker — программа-вымогатель, впервые обнаруженная в средине ноября 2016 года. Файлы, заблокированные ею, имеют расширение .Alcatraz. Когда они зашифрованы, появляется подобное сообщение, которое расположено в файле ransomed.html на рабочем столе зараженного компьютера:

В отличие от большинства видов шифрователей, программа Alcatraz не имеет заданного списка расширений файлов, на которые она нацелена. Иными словами, программа шифрует все, что может. Чтобы предотвратить нанесение ущерба операционной системе, Alcatraz Locker шифрует только файлы в каталоге %PROFILES% (обычно C:Users).

Вымогатель шифрует файлы, используя встроенные функции Windows (API-интерфейс шифрования):

В тексте сообщения с требованием выкупа утверждается, что программа использует шифрование AES-256 с 128-битовым паролем.

Анализ данного вредоносного ПО показал, что это не так (применяется 128-байтовый, а не 128-битовый пароль). Однако вирус использует 160-битовый хэш (SHA1) в качестве исходного ключа для 256-битового шифрования AES.

В API-интерфейсе шифрования, который используется программой, это реализуется довольно интересным образом:

  1. Создается 256-битовый массив, заполняемый шестнадцатеричным значением 0x36.
  2. К первым 160 битам этого массива с начальным 160-битовым хэшем SHA1 применяется функция XOR.
  3. Рассчитывается SHA1 массива, к которому была применена функция XOR (назовем это Hash1).
  4. Создается 256-битовый массив, заполняемый шестнадцатеричным значением 0x5C.
  5. К первым 160 битам этого массива с начальным 160-битовым хэшем SHA1 применяется функция XOR.
  6. Рассчитывается SHA1 массива, к которому была применена функция XOR (назовем это Hash2).
  7. 160 битов Hash1 и 96 битов Hash2 объединяются.

Получившийся объединенный хэш используется в качестве исходного ключа для AES256.

После выполнения шифрования AES-256 программа-вымогатель также кодирует уже зашифрованный файл с помощью позиционной системы счисления с основанием 64 (BASE64), в результате чего зашифрованный файл приводится к типичной модели:

Согласно сообщению шифрователя, единственным способом вернуть свои данные является выплата 0,3283 биткойна (около $370 на момент написания статьи).

Но теперь вернуть доступ к файлам можно бесплатно, воспользовавшись инструментом Avast для дешифровки Alcatraz.

Существование 30-дневного ограничения, о котором идет речь в сообщении с требованием денег — еще один обман: расшифровать свои документы можно в любое время, даже спустя 30 дней.

CrySiS

Программа CrySiS (известная также как JohnyCryptor и Virus-Encode) известна с сентября 2015 года. Использует сильные алгоритмы шифрования AES и RSA. Также особенность заключается в том, что она содержит список файловых расширений, которые не подвергаются блокировке.

Заблокированные файлы выглядят следующим образом: .id-…

Хотя идентификационный номер и адрес электронной почты меняются довольно часто, есть только три различных имени расширений, которые, используются до сих пор:

.xtbl, .lock и .CrySiS.

В результате имена зашифрованных файлов могут выглядеть так:

Каждый подобный элемент содержит все данные, которые необходимы для его расшифровки.

Файлы размером менее 262 144 байта зашифровываются полностью, а в окончании находится код, содержащий зашифрованный ключ AES вместе с остальными данными, такими как исходное имя файла, что позволяет выполнить полную расшифровку.

Стоит отметить, что файлы, размер которых превышает 262 144 байта, шифруются лишь частично, однако и в этом случае использовать их не удастся. Такой способ работы вымогателя приводит к тому, что крупные файлы после шифрования еще больше увеличиваются в размере.

После блокировки этих файлов программа-вымогатель отображает сообщение, расположенное ниже, которое описывает способ возвращения доступа к зашифрованным данным. Это сообщение также содержится в файле под названием «Decryption instructions.txt», «Decryptions instructions.txt» или «README.txt» на рабочем столе зараженного ПК. 

Вот пара примеров сообщений программы CrySiS с требованием выкупа:

Globe

Данная программа, существующая примерно с августа 2016 года, написана на языке Delphi и обычно упакована UPX. Некоторые варианты также упакованы при помощи установщика Nullsoft:

  • bc4c0b2f6118d36f4d476db16dbd6bcc0e393f2ad08429d16efe51f3d2870d58
  • fdc8de22653ebcf4cb8f5495b103e04079b0270efa86f713715f0a81f1b2e9b0

В распакованном бинарном виде программа представляет собой глобальный интерфейс «настройки», в которой автор вымогателя может вносить некоторые изменения в ее характеристики:

  • изменять конечное имя исполняемого файла в папке %APPDATA%;
  • изменять расширение зашифрованных файлов;
  • изменять список типов файлов (расширений), которые будут зашифрованы;
  • изменять сообщение с требованием денег, имеющее формат HTML;
  • включать и выключать шифрование имен файлов;
  • включать проверку песочниц (VirtualBox, VirtualPC, Vmware, Anubis);
  • включать автозапуск вредоносной программы;
  • включать удаление вирусом точек восстановления и прочее.

Так как злоумышленники могут изменять программу, мы столкнулись со множеством различных вариантов создания зашифрованных файлов с разнообразными расширениями.

Примечательно, что программа-вымогатель имеет режим отладки, который может быть включен при помощи следующей настройки реестра:

Вирус блокирует файлы при помощи алгоритмов RC4 или BlowFish. Когда программа-вымогатель настроена на шифрование имен файлов, она выполняет его при помощи того же алгоритма, который использовался в отношении самого файла. Затем название шифруется при помощи собственной реализации кодирования Base64.

Вот несколько примеров созданных расширений, которые могут быть расшифрованы при помощи утилиты Avast:

Как правило, данная программа-вымогатель создает файлы с именем «Read Me Please.hta» или «How to restore files.hta», которое отображается после входа пользователя в систему.

Не платите вымогателям! Используйте дешифратор для файлов Globe.

NoobCrypt

NoobCrypt, который я открыл летом 2016 года, написан на языке C# и использует алгоритм шифрования AES256. Программа имеет запоминающийся графический интерфейс, который отображается после блокировки доступа к файлам.

Данный экран с требованием выкупа — странная смесь сообщений. К примеру, он требует выплатить определенную сумму в долларах Новой Зеландии (NZD), но средства предлагает перевести на адрес в системе Bitcoin. В то же время текст с гордостью заявляет, что программа «создана в Румынии». Странное сочетание.

Название «NoobCrypt» было выбрано мной на основе обнаруженных в коде сообщений и ключа для расшифровки:

Источник: https://blog.avast.com/ru/4-besplatnyh-deshifratora-dlya-fajlov-zarazhennyh-programmoj-vymogatelem

Ссылка на основную публикацию