В процессе работы с изображениями мы сталкиваемся с многообразием форматов графических файлов. В зависимости от формата файла, одно и то же изображение может иметь разное качество, размер и другие характеристики. Нужно учитывать, что каждый формат разработан не просто так — он имеет свою специфику и назначение.
Для начала следует пояснить, что у изображений существует принципиальное разделение на два типа графики: растровую и векторную. Эти две категории применяются для совершенно разных целей и имеют принципиальное различие. Растровая и векторная графика различаются и по внешнему виду, и по назначению.
Растровая графика представляет собой изображение, состоящее из пикселей (точек или растров), где каждому пикселю назначен определенный цвет. Чем больше этих точек, тем качественнее изображение. Качество растровых картинок характеризуется таким понятием, как разрешение. Чем выше разрешение, тем лучше качество и тем больше размер файла. Растровые картинки используются при работе с реалистичными изображениями (фотографиями, сканами документов и т.д.). Растровые изображения могут воспроизвести большое количество цветов и достаточно мягкие переходы между ними, но такие файлы очень большие по размеру.
Векторные изображения применяются в чертежах, для составления карт, в рисунках и схемах и т.д. Векторная графика — это изображение, состоящее из опорных точек и соединяющих их линий. Само векторное изображение рассчитывается по сложным математическим формулам, его файл содержит математическую формулу и вычисления, поэтому имеет небольшой размер по сравнению с растровым изображением.
Векторное изображение легко править, при масштабировании его четкость не снижается. Но в векторном формате можно изобразить только достаточно простые схематичные рисунки (логотипы, знаки, схемы, чертежи и т.д.), поэтому сфера применения векторной графики ограничена. Надо отметить, что «вектор» перевести в «растр» достаточно просто, а вот сделать обратное — сложно.
Принципы построения растрового и векторного изображения (при увеличении векторное изображение сохраняет идеальную четкость, а растровое распадается на пиксели)
Основные растровые форматы файлов — JPEG, RAW, GIF, PNG, TIFF, BMP и др.
Основные векторные форматы файлов — EPS, PDF, SVG, CDR, AI и др.
Сканирование различных изображений производится для решения широкого спектра задач. По сути, это перевод оригинала изображения в цифровой вид для дальнейшего хранения и поиска, просмотра и распространения, записи на различные носители, а также для показа, демонстрации и печати в различных форматах с заданными характеристиками изображения. Основные форматы, применяемые при сканировании изображений: TIFF, JPEG, PDF, RAW.
Формат TIFF (Tagged Image File Formats). Широко распространенный формат, специально созданный для сканеров. По мере совершенствования сканирующего оборудования он становился все более сложным. На современном этапе — это полноцветный формат, используемый для качественного сканирования, печати и издательских систем. В данном формате можно не использовать сжатие, либо задать его параметры отдельно. В сканировании TIFF применяется при создании высококачественных копий большого размера для различных нужд (например, для создания страховых копий и цифровых музейных коллекций произведений искусства). Преимуществами этого формата являются: поддержка слоев, прозрачность фона и возможность хранения файлов высокого качества и разрешения. Минусы TIFF — это, как правило, большой размер файлов. Поэтому для веб-представления данный формат не используется.
Формат JPEG (Joint Photographic Experts Group). Пожалуй, самый известный формат графики для использования в Интернете. Данный формат способен обеспечить изображению довольно высокое качество, но предполагает сжатие данных с потерями для ограничения размера файла, например, для его пересылки по электронной почте или в мессенджере, размещения на веб-странице и просмотра в браузере.
В сканировании JPEG применяется для создания «просмотровых копий», загружаемых на сайт в Интернете, это, как правило, копии небольшого объема, сжатые с потерей качества. Для таких копий достаточно обеспечить визуальную четкость изображения и читаемость текста. Здесь в приоритете высокая скорость загрузки в браузере, которая и обеспечивается «легким весом» открываемого файла.
Просмотровая копия для интернет-ресурсаФормат PDF (Portable Document Format) — достаточно распространенный на сегодня формат документов и изображений, который был предложен компанией Adobe в 1993 году. PDF — универсальный формат, назначение которого — правильно отображать графику независимо от типа устройства, вида и версии браузера, приложения или операционной системы. Формат PDF хранит данные о цветовой схеме и расположении элементов, а также обеспечивает идентичное представление графики независимо от модели монитора или принтера. В PDF сохраняются и векторные, и растровые изображения.
В профессиональном сканировании этот формат используется для создания электронных книг, где контент формируется изначально из файлов JPEG, а на выходе получаются документы со множеством страниц и полистным просмотром. Как правило, такие файлы используются для создания документации, отчетов и книг с целью размещения во внутренних корпоративных системах, для формирования электронных библиотек, опубликования в Интернете на порталах и сайтах. Полезная особенность формата PDF — это возможность создания файла с текстовой (распознанной) подложкой для поиска по тексту документа. Чтобы документ был хорошо читаем и пригоден для оптического распознавания его необходимо сканировать на хорошем оборудовании с разрешением от 300 dpi и выше.
Стоит отметить, что с 2005 года существует специализированный формат PDF/A, предназначенный для использования при архивировании и долгосрочном хранении электронных документов. PDF/A стандартизирован ISO, а файл данного формата немного больше по размеру, чем обычный PDF. Это происходит, потому что в PDF/A сохраняется вся информация, необходимая для его отображения, например, шрифты, используемые в документе. В файле PDF/A нет гиперссылок и других изменяемых элементов, поэтому считается, что такой файл всегда будет можно прочитать, независимо от устаревания или смены целевых систем и технической инфраструктуры.
Пример PDF файла с распознанным тестом (в документе доступен поиск и копирование текста)
Формат RAW (от англ. Raw — «сырой») — это формат, используемый для хранения «сырой» необработанной графической информации, которая поступила из матрицы фотоаппарата или сканирующей камеры. Такой формат позволяет сохранить исходное качество изображения без потерь, а также дает возможность обработки «сырых» файлов в любом графическом редакторе. После съемки и редактирования файлы формата RAW преобразуются в TIFF — для хранения высококачественных копий, в JPEG или PDF — для просмотровых копий. У каждого производителя фотокамер формат RAW называется по-своему, например, у Nikon — NEF, у Canon — CR2.
Поскольку сканирование (или оцифровка) оригиналов может производиться для решения самых разных задач, немаловажными являются не только характеристики сканирующего оборудования, но также возможности обработки и сохранения полученных изображений в различных форматах. Функциональность конвертации изображений, обработки и распознавания файлов полностью реализована в сканирующем оборудовании ЭЛАР. Отечественные сканеры семейства ЭларСкан из реестра РЭП оснащены мощным ПО СканИмидж (в реестре российского ПО № 3602), которое обеспечивает широкие возможности управления сканированием, сохранения изображений в различных форматах и с заданными под определенные задачи характеристиками. А широкая линейка модификаций позволяет выбирать оборудование под любые задачи.