Лекция 8. Компьютерное зрение (CV) для прикладных задач, OCR и аннотирование изображений

Цель лекции: Сформировать у студентов теоретические знания о принципах цифрового кодирования и анализа изображений, изучить технологии оптического распознавания символов (OCR) и процессы аннотирования данных, а также рассмотреть спектр прикладных задач компьютерного зрения в современных индустриях.

1. Введение: Как компьютер воспринимает визуальный мир

Для человека зрение естественно, но для компьютера любое изображение — это просто огромная таблица с числами (матрица).

· Цифровой пиксель: Каждая точка черно-белого изображения кодируется числом от 0 (черный цвет) до 255 (белый цвет).

· Цветовые каналы (RGB): Цветное изображение состоит из трех таких матриц, наложенных друг на друга: Red (красный), Green (зеленый) и Blue (синий). Любой оттенок на экране — это комбинация этих трех цветов.

· Задача Компьютерного зрения (Computer Vision / CV): Перейти от анализа отдельных пикселей (чисел) к пониманию семантики — того, что именно изображено на картинке.

2. Базовые прикладные задачи CV

Развитие глубокого обучения (Deep Learning) и появление сверточных нейросетей (CNN) позволило автоматизировать четыре ключевые задачи CV, которые комбинируются в реальных проектах.

1. Классификация изображений (Image Classification)

Ответ на вопрос: «Что (или кто) изображено на картинке в целом?». Нейросеть выдает метку класса (например, «кардиограмма с патологией» или «деталь без брака») и вероятность правильного ответа.

2. Детекция объектов (Object Detection)

ИИ не просто определяет класс, но и находит координаты объектов, очерчивая их прямоугольными рамками (Bounding Boxes).

· Где применяется: Беспилотные автомобили (распознавание знаков и пешеходов), системы безопасности (обнаружение оставленных предметов).

3. Сегментация изображений (Semantic/Instance Segmentation)

Самый точный вид анализа, когда ИИ относит каждый пиксель изображения к определенному классу. Вместо рамок мы получаем четкий контур объекта.

· Где применяется: Медицина (выделение границ опухоли на МРТ), сельское хозяйство (отделение сорняков от полезных культур на снимках с дронов).

4. Биометрия и распознавание лиц (Face Recognition)

Выделение ключевых точек лица (расстояние между глазами, форма носа) и построение цифрового «отпечатка» лица для верификации.

· Где применяется: Разблокировка смартфонов (FaceID), банковские приложения, системы контроля доступа.

3. Оптическое распознавание символов (OCR) (10 минут)

OCR (Optical Character Recognition) — это технология, которая переводит изображения печатного или рукописного текста (сканы, фотографии документов, вывески) в текстовые данные, доступные для редактирования и поиска.

Архитектура современного OCR-пайплайна:

Процесс состоит из двух последовательных шагов нейросетей:

1. Text Detection (Детекция текста): Специальная CV-модель сканирует изображение и находит области, где вообще есть буквы (строки, параграфы), отсекая фоновые рисунки.

2. Text Recognition (Распознавание текста): Вырезанные полосы с текстом передаются во вторую нейросеть (часто архитектуры CRNN — смесь сверточной и рекуррентной сети). Она распознает конкретные буквы, учитывая контекст соседних символов (чтобы не перепутать «З» и «3», «О» и «0»).

Прикладное значение: OCR — это основа цифровизации. Без него невозможен автоматический аудит договоров, распознавание автомобильных номеров на парковках, мгновенный перевод надписей через камеру смартфона или автоматическое чтение чеков в бухгалтерии.

4. Аннотирование изображений: Как создается фундамент для CV

Нейросеть не знает, как выглядит объект, пока человек ей это не покажет. Процесс разметки исходных данных называют аннотированием (Image Annotation). Это один из самых трудоемких и важных этапов в создании ИИ.

Основные типы разметки:

· Bounding Boxes (Прямоугольники): Выделение объектов для задач детекции. Самый быстрый и дешевый способ.

· Polygons (Многоугольники): Разметчик вручную обводит объект точками по контуру. Применяется для обучения моделей сегментации (например, в автопилотах).

· Keypoints (Ключевые точки): Разметка суставов человека (для анализа позы) или критических точек лица.

· OCR разметка: Выделение области с текстом + ручной ввод того, что там написано (создание эталона).

[Сырое изображение] à ( Работа разметчика / дата-аннотатора ) à [Датасет (Картинка + JSON/XML файл разметки)]

Профессия Data Annotator и краудсорсинг:

Разметка требует огромных человеческих ресурсов. Для этого используются специализированные платформы (например, Yandex Crowd, Amazon Mechanical Turk), где тысячи людей (аннотаторов) ежедневно размечают миллионы картинок. Качество разметки напрямую определяет, насколько умным будет ИИ. Ошибка в разметке — это гарантированная ошибка в работе будущей модели.

5. Заключение и этические вызовы CV

Компьютерное зрение стало глазами искусственного интеллекта, но его внедрение сопряжено со строгими ограничениями:

· Конфиденциальность (Privacy): Повсеместное внедрение камер с распознаванием лиц вызывает споры о «цифровом концлагере» и нарушении права на личную жизнь. В ряде стран (например, в ЕС) использование биометрии в общественных местах строго регулируется законодательством.

· Зависимость от условий: Изменение освещения, туман, грязь на камере или намеренная порча знаков (состязательные атаки / adversarial attacks) могут дезориентировать CV-систему, что критично для беспилотного транспорта.

Вопросы

1. Представьте, что вы создаете приложение для автоматической сортировки мусора. Какие типы задач компьютерного зрения (классификация, детекция или сегментация) вам понадобятся и почему?

2. Почему для распознавания текста (OCR) на мятом или грязном листе бумаги недостаточно просто иметь базу шрифтов, а обязательно нужна нейросеть, понимающая контекст языка?

Основы искусственного интеллекта

Лекция 8. Компьютерное зрение (CV) для прикладных задач, OCR и аннотирование изображений