Лекция 7. Технологии обработки естественного языка и речи (NLP, ASR и TTS)
Цель лекции:
Изучить
теоретические основы, математические концепции и лингвистические пайплайны,
лежащие в основе систем обработки текстовой информации и речевых сигналов,
сформировав понимание полного цикла взаимодействия человека и машины через
естественный язык.
1. Введение: Три кита
речевых технологий
Человеческий язык — одна из самых
сложных систем для автоматизации. Он контекстуален, изменчив и полон скрытых
смыслов. Чтобы компьютер мог общаться с нами на равных, ИИ-инженерия разделила
эту задачу на три самостоятельных, но связанных
направления:
·
NLP (Natural Language
Processing) — обработка естественного языка.
Это «мозг» системы, который отвечает за понимание текста, его анализ и генерацию
ответов.
·
ASR (Automatic Speech
Recognition) — автоматическое распознавание
речи. Перевод аудиоволны (голоса) в печатный текст
(Speech-to-Text).
·
TTS
(Text-to-Speech) — синтез речи. Обратный процесс:
превращение печатного текста в реалистичный человеческий
голос.

2. Теория NLP: Как
компьютер понимает человеческий текст
Главная проблема для компьютера
заключается в том, что он не понимает слова. Компьютер понимает только числа
(матрицы и векторы). Вся теория NLP строится на том, как превратить живой язык в
строгую математику.
А. Этапы предобработки
текста (Пайплайн)
Прежде чем анализировать смысл,
текст нужно «очистить» и стандартизировать:
1.
Токенизация: Разбиение текста на
минимальные единицы — токены (это могут быть слова, их части или даже отдельные
символы).
2.
Удаление стоп-слов: Фильтрация шума —
предлогов, союзов и междометий («и», «но», «в», «под»), которые не несут
самостоятельного смысла для алгоритма.
3.
Нормализация (Лемматизация или
Стемминг): Приведение слов к единой
форме.
o
Стемминг грубо отрезает окончания
(«бегу», «бежал», «бегущий» à «бег»).
o
Лемматизация приводит слово к
словарной форме («людьми» à
«человек»).
Б. Векторное
представление слов (Word Embeddings)
Как измерить схожесть слов
математически? Для этого используется концепция дистрибутивной семантики:
слова, которые часто встречаются в похожем окружении, имеют похожие
значения.
С помощью алгоритмов (например,
Word2Vec) каждому слову присваивается вектор — длинная строка из чисел
(координат в многомерном пространстве смыслов). В этом пространстве похожие по
смыслу слова оказываются рядом.
Классический пример
векторной математики в NLP:
Если мы возьмем вектор слова
«Король», вычтем из него вектор слова «Мужчина» и добавим вектор
слова «Женщина», алгоритм выдаст вектор, максимально близкий к слову
«Королева».
Король - Мужчина + Женщина =
Королева
В. Архитектурная
революция: Эволюция «памяти» ИИ
Понимание текста требует удержания
контекста. Технологии прошли три ключевых этапа:
·
RNN (Рекуррентные
нейросети): Читают текст строго по очереди,
слово за словом. Проблема: к концу длинного предложения сеть забывает, что было
в начале.
·
LSTM (Долгая краткосрочная
память): Улучшенная версия RNN со
специальными «воротами» для удержания важной информации, но все еще медленная в
обучении.
·
Transformers
(Трансформеры): Современный стандарт. Они
анализируют весь текст целиком параллельно. Благодаря механизму
Self-Attention (внимания), трансформер при обработке конкретного слова
смотрит на все остальные слова в предложении и оценивает их взаимосвязь
(например, понимает, к какому существительному относится местоимение
«его»).
3. Теория ASR: Из
звуковой волны в текст
Звук — это непрерывная аналоговая
волна. Задача ASR — оцифровать ее и сопоставить с буквами.
Физика звука и
Спектрограммы
1.
Дискретизация: Компьютер замеряет
амплитуду звуковой волны тысячи раз в секунду (обычно 16
кГц).
2.
Преобразование
Фурье:
Математический метод, который раскладывает сложную звуковую волну на чистые
частоты.
3.
Спектрограмма: Визуальное
представление звука, где по горизонтали идет время, по вертикали — частота, а
яркость цвета означает громкость. Для ИИ звук становится
картинкой.
Как работает современный
распознаватель речи (End-to-End)?
Раньше системы собирались из
отдельных акустических и лингвистических моделей. Сегодня доминируют сквозные
(End-to-End) нейросети:
·
Они принимают на вход спектрограмму
аудиозаписи.
·
С помощью сверточных слоев (как в
компьютерном зрении) выделяют фонетические особенности
звука.
·
С помощью декодеров предсказывают
наиболее вероятную последовательность символов текста, сглаживая особенности
акцента, шума на заднем плане и дефектов дикции.
4. Теория TTS: Оживление
текста
Синтез речи — это процесс, обратный
распознаванию. Компьютер должен не просто зачитать текст, а сделать это с
правильной интонацией, ударениями и естественным дыханием.
Двухэтапная модель
современного TTS:

1.
Лингвистический фронтенд (Текст
à
Спектрограмма):
o
Текст переводится из графем (букв)
в фонемы (звуки). На этом этапе ИИ решает проблемы омографов (различает
«зáмок» и «замóк» на основе контекста).
o
Генерируется
мел-спектрограмма — «слепок» будущего звука, адаптированный под
особенности человеческого слуха.
2.
Нейросетевой вокодер (Спектрограмма
à Аудио):
o
Спектрограмма сама по себе не
звучит. Нужен специальный алгоритм — вокодер (например, WaveNet,
HiFi-GAN), который превращает этот «рисунок» обратно в плотную сетку
амплитуд звуковой волны, добавляя текстуру голоса, тембр и реалистичные
обертоны.
5. Заключение и
этические вопросы теории звука и текста (5 минут)
Развитие NLP, ASR и TTS привело к
созданию комплексных голосовых ассистентов и переводчиков, работающих в реальном
времени. Однако эти технологии принесли с собой новые
вызовы:
·
Проблема предвзятости
(Bias):
Если NLP-модель обучалась на текстах из интернета, она перенимает человеческие
стереотипы и социальные предвзятости.
·
Голосовой фишинг: Современным
TTS-системам достаточно всего 3–5 секунд реальной записи голоса человека, чтобы
полностью скопировать его тембр (клонирование голоса) для создания убедительного
дипфейка.
·
Культурный барьер: Большинство моделей
создаются для «богатых ресурсами» языков (английский, китайский, испанский).
Развитие цифровых технологий для менее распространенных или локальных языков —
важнейшая задача современного ИИ-сообщества.
Вопросы для
экспресс-контроля / Дискуссии:
1.
Почему простая замена слов на числа
по порядку (например: я=1, учусь=2, в=3, вузе=4) не работает для
качественного анализа смысла текстов нейросетями?
2.
В каких ситуациях система ASR
(распознавание речи) чаще всего совершает ошибки и как их минимизировать с точки
зрения теории обработки сигналов?