Лекция 4. Анализ табличных данных (Data Science).
1. Зачем нам анализ
табличных данных?
1.1. Табличные данные —
основа Data Science
Большинство ИИ-решений
начинается не с нейросетей, а с таблиц:
Примеры:
- журнал успеваемости
студентов
- продажи магазина по
месяцам
- показания датчиков
(температура, давление, влажность)
- анкеты, опросы,
статистика
Таблица =
структурированные данные, с которыми проще всего
работать.
1.2. Где используется
анализ табличных данных
Коротко и близко
студентам:
- образование — анализ
успеваемости, посещаемости
- медицина — статистика
пациентов
- бизнес — продажи, клиенты,
финансы
- сельское хозяйство — урожайность,
погода
- ИИ — подготовка данных для обучения
моделей
ИИ без анализа данных — как машина без
топлива
2. Что такое Data
Science простыми словами
2.1. Data Science —
это…
Data
Science
— это набор методов для:
- анализа
данных
- поиска
закономерностей
- получения полезных
выводов
- поддержки принятия
решений
Не обязательно быть
программистом, чтобы понимать логику Data Science.
2.2. Основные этапы
работы с данными
Упрощённый
цикл:
- Сбор
данных
- Очистка
данных
- Анализ
данных
- Визуализация
- Выводы и
решения
Сегодня фокус на
этапе 3 и 4.
3. Табличные данные:
структура и термины
3.1. Из чего состоит
таблица
- Строка (record,
observation) — один объект (один студент,
один день, один товар)
- Столбец (feature,
attribute) — характеристика (возраст,
оценка, цена)
Пример:
|
Студент |
Возраст |
Оценка |
Посещаемость |
|
|
|
|
|
3.2. Типы данных в
таблицах
Объясняем без
математики:
- Числовые
- возраст
- доход
- количество
- возраст
- Категориальные
- пол
- факультет
- город
- пол
- Дата-время
- дата
- месяц
- год
- дата
Тип данных определяет
как мы можем его анализировать
4. Описательная
аналитика (Descriptive Analytics)
4.1. Что такое
описательная аналитика
Описательная
аналитика отвечает на
вопрос:
«Что происходит с
данными?»
Она не
предсказывает, а описывает текущее состояние.
4.2. Основные
статистические показатели (простым языком)
Среднее значение
(mean)
- «Средняя оценка по
группе»
- чувствительно к
выбросам
Медиана
(median)
- значение
«посередине»
- устойчиво к
аномалиям
Минимум и
максимум
- диапазон
значений
Разброс
- насколько данные
отличаются друг от друга
В ИИ это важно
для:
- понимания
данных
- обнаружения
ошибок
- подготовки к обучению
моделей
4.3. Пример (без
формул)
Представим:
- оценки студентов: 40,
60, 70, 80, 100
Вопросы:
- средняя
оценка?
- есть ли
выбросы?
- все ли студенты учатся
одинаково?
Уже здесь начинается
аналитическое мышление
4.4. Группировка
данных
Примеры:
- средняя оценка по
факультетам
- посещаемость по
курсам
- продажи по
месяцам
Группировка
помогает:
- сравнивать
- находить
различия
- принимать
управленческие решения
5. Представление
результатов анализа (Visualization)
5.1. Почему визуализация
критически важна
- человек лучше понимает
картинки, чем таблицы
- графики помогают
объяснять результаты другим
- визуализация = мост
между аналитиком и руководством
5.2. Основные виды
визуализации
Столбчатая
диаграмма
- сравнение
категорий - оценки по
группам
Линейный
график
- изменение во времени -
успеваемость по семестрам
Круговая
диаграмма
- доли и проценты -
распределение студентов по специальностям
Гистограмма
- распределение значений
- как распределены оценки
5.3. Типичные ошибки
визуализации
- слишком много данных
на одном графике
- неподписанные
оси
- неправильный тип
диаграммы
- «красиво, но
непонятно»
В ИИ понятность
важнее красоты
6. Связь с искусственным
интеллектом
6.1. Почему ИИ
начинается с аналитики
Перед обучением модели
нужно:
- понять
данные
- очистить
данные
- проверить
распределения
- выявить
аномалии
90% успеха ИИ — это
работа с данными
6.2.
Примеры
- плохая аналитика →
плохая модель
- смещённые данные →
несправедливый ИИ
- неверные выводы →
неправильные решения
Итоги
лекции
- Data Science
начинается с табличных данных
- описательная аналитика
отвечает на вопрос «что происходит»
- статистика —
инструмент понимания, а не математика ради математики
- визуализация — ключ к
объяснению результатов
- без анализа данных ИИ
не работает
Вопросы для обсуждения
со студентами
- Почему среднее
значение не всегда показатель?
- Где в вашей
специальности используются таблицы?
- Какой график лучше
показать руководителю?
- Может ли визуализация
вводить в заблуждение?