Лекция 7. Технологии обработки естественного языка и речи (NLP, ASR и TTS)

 

Цель лекции: Изучить теоретические основы, математические концепции и лингвистические пайплайны, лежащие в основе систем обработки текстовой информации и речевых сигналов, сформировав понимание полного цикла взаимодействия человека и машины через естественный язык.

1. Введение: Три кита речевых технологий

Человеческий язык — одна из самых сложных систем для автоматизации. Он контекстуален, изменчив и полон скрытых смыслов. Чтобы компьютер мог общаться с нами на равных, ИИ-инженерия разделила эту задачу на три самостоятельных, но связанных направления:

·                     NLP (Natural Language Processing) — обработка естественного языка. Это «мозг» системы, который отвечает за понимание текста, его анализ и генерацию ответов.

·                     ASR (Automatic Speech Recognition) — автоматическое распознавание речи. Перевод аудиоволны (голоса) в печатный текст (Speech-to-Text).

·                     TTS (Text-to-Speech) — синтез речи. Обратный процесс: превращение печатного текста в реалистичный человеческий голос.

2.png

2. Теория NLP: Как компьютер понимает человеческий текст

Главная проблема для компьютера заключается в том, что он не понимает слова. Компьютер понимает только числа (матрицы и векторы). Вся теория NLP строится на том, как превратить живой язык в строгую математику.

А. Этапы предобработки текста (Пайплайн)

Прежде чем анализировать смысл, текст нужно «очистить» и стандартизировать:

1.                  Токенизация: Разбиение текста на минимальные единицы — токены (это могут быть слова, их части или даже отдельные символы).

2.                  Удаление стоп-слов: Фильтрация шума — предлогов, союзов и междометий («и», «но», «в», «под»), которые не несут самостоятельного смысла для алгоритма.

3.                  Нормализация (Лемматизация или Стемминг): Приведение слов к единой форме.

o                  Стемминг грубо отрезает окончания («бегу», «бежал», «бегущий» à «бег»).

o                  Лемматизация приводит слово к словарной форме («людьми» à «человек»).

Б. Векторное представление слов (Word Embeddings)

Как измерить схожесть слов математически? Для этого используется концепция дистрибутивной семантики: слова, которые часто встречаются в похожем окружении, имеют похожие значения.

С помощью алгоритмов (например, Word2Vec) каждому слову присваивается вектор — длинная строка из чисел (координат в многомерном пространстве смыслов). В этом пространстве похожие по смыслу слова оказываются рядом.

Классический пример векторной математики в NLP:

Если мы возьмем вектор слова «Король», вычтем из него вектор слова «Мужчина» и добавим вектор слова «Женщина», алгоритм выдаст вектор, максимально близкий к слову «Королева».

Король - Мужчина + Женщина = Королева

В. Архитектурная революция: Эволюция «памяти» ИИ

Понимание текста требует удержания контекста. Технологии прошли три ключевых этапа:

·                     RNN (Рекуррентные нейросети): Читают текст строго по очереди, слово за словом. Проблема: к концу длинного предложения сеть забывает, что было в начале.

·                     LSTM (Долгая краткосрочная память): Улучшенная версия RNN со специальными «воротами» для удержания важной информации, но все еще медленная в обучении.

·                     Transformers (Трансформеры): Современный стандарт. Они анализируют весь текст целиком параллельно. Благодаря механизму Self-Attention (внимания), трансформер при обработке конкретного слова смотрит на все остальные слова в предложении и оценивает их взаимосвязь (например, понимает, к какому существительному относится местоимение «его»).

3. Теория ASR: Из звуковой волны в текст

Звук — это непрерывная аналоговая волна. Задача ASR — оцифровать ее и сопоставить с буквами.

Физика звука и Спектрограммы

1.                  Дискретизация: Компьютер замеряет амплитуду звуковой волны тысячи раз в секунду (обычно 16 кГц).

2.                  Преобразование Фурье: Математический метод, который раскладывает сложную звуковую волну на чистые частоты.

3.                  Спектрограмма: Визуальное представление звука, где по горизонтали идет время, по вертикали — частота, а яркость цвета означает громкость. Для ИИ звук становится картинкой.

Как работает современный распознаватель речи (End-to-End)?

Раньше системы собирались из отдельных акустических и лингвистических моделей. Сегодня доминируют сквозные (End-to-End) нейросети:

·                     Они принимают на вход спектрограмму аудиозаписи.

·                     С помощью сверточных слоев (как в компьютерном зрении) выделяют фонетические особенности звука.

·                     С помощью декодеров предсказывают наиболее вероятную последовательность символов текста, сглаживая особенности акцента, шума на заднем плане и дефектов дикции.

4. Теория TTS: Оживление текста

Синтез речи — это процесс, обратный распознаванию. Компьютер должен не просто зачитать текст, а сделать это с правильной интонацией, ударениями и естественным дыханием.

Двухэтапная модель современного TTS:

3.png

1.                  Лингвистический фронтенд (Текст à Спектрограмма):

o                  Текст переводится из графем (букв) в фонемы (звуки). На этом этапе ИИ решает проблемы омографов (различает «зáмок» и «замóк» на основе контекста).

o                  Генерируется мел-спектрограмма — «слепок» будущего звука, адаптированный под особенности человеческого слуха.

2.                  Нейросетевой вокодер (Спектрограмма à Аудио):

o                  Спектрограмма сама по себе не звучит. Нужен специальный алгоритм — вокодер (например, WaveNet, HiFi-GAN), который превращает этот «рисунок» обратно в плотную сетку амплитуд звуковой волны, добавляя текстуру голоса, тембр и реалистичные обертоны.

5. Заключение и этические вопросы теории звука и текста (5 минут)

Развитие NLP, ASR и TTS привело к созданию комплексных голосовых ассистентов и переводчиков, работающих в реальном времени. Однако эти технологии принесли с собой новые вызовы:

·                     Проблема предвзятости (Bias): Если NLP-модель обучалась на текстах из интернета, она перенимает человеческие стереотипы и социальные предвзятости.

·                     Голосовой фишинг: Современным TTS-системам достаточно всего 3–5 секунд реальной записи голоса человека, чтобы полностью скопировать его тембр (клонирование голоса) для создания убедительного дипфейка.

·                     Культурный барьер: Большинство моделей создаются для «богатых ресурсами» языков (английский, китайский, испанский). Развитие цифровых технологий для менее распространенных или локальных языков — важнейшая задача современного ИИ-сообщества.

Вопросы для экспресс-контроля / Дискуссии:

1.                  Почему простая замена слов на числа по порядку (например: я=1, учусь=2, в=3, вузе=4) не работает для качественного анализа смысла текстов нейросетями?

2.                  В каких ситуациях система ASR (распознавание речи) чаще всего совершает ошибки и как их минимизировать с точки зрения теории обработки сигналов?