Лекция 4. Анализ табличных данных (Data Science).

 

1. Зачем нам анализ табличных данных?

1.1. Табличные данные — основа Data Science

Большинство ИИ-решений начинается не с нейросетей, а с таблиц:

Примеры:

  • журнал успеваемости студентов
  • продажи магазина по месяцам
  • показания датчиков (температура, давление, влажность)
  • анкеты, опросы, статистика

Таблица = структурированные данные, с которыми проще всего работать.

 

1.2. Где используется анализ табличных данных

Коротко и близко студентам:

  • образование — анализ успеваемости, посещаемости
  • медицина — статистика пациентов
  •  бизнес — продажи, клиенты, финансы
  •  сельское хозяйство — урожайность, погода
  •  ИИ — подготовка данных для обучения моделей

 ИИ без анализа данных — как машина без топлива

 

2. Что такое Data Science простыми словами

2.1. Data Science — это…

Data Science — это набор методов для:

  • анализа данных
  • поиска закономерностей
  • получения полезных выводов
  • поддержки принятия решений

 

Не обязательно быть программистом, чтобы понимать логику Data Science.

 

2.2. Основные этапы работы с данными

Упрощённый цикл:

  1. Сбор данных
  2. Очистка данных
  3. Анализ данных
  4. Визуализация
  5. Выводы и решения

Сегодня фокус на этапе 3 и 4.

 

3. Табличные данные: структура и термины

3.1. Из чего состоит таблица

  • Строка (record, observation) — один объект (один студент, один день, один товар)
  • Столбец (feature, attribute) — характеристика (возраст, оценка, цена)

Пример:

Студент

Возраст

Оценка

Посещаемость

 

 

 

 

 

3.2. Типы данных в таблицах

Объясняем без математики:

  1. Числовые
    • возраст
    • доход
    • количество
  2. Категориальные
    • пол
    • факультет
    • город
  3. Дата-время
    • дата
    • месяц
    • год

Тип данных определяет как мы можем его анализировать

 

4. Описательная аналитика (Descriptive Analytics)

4.1. Что такое описательная аналитика

Описательная аналитика отвечает на вопрос:

«Что происходит с данными?»

Она не предсказывает, а описывает текущее состояние.

 

4.2. Основные статистические показатели (простым языком)

Среднее значение (mean)

  • «Средняя оценка по группе»
  • чувствительно к выбросам

Медиана (median)

  • значение «посередине»
  • устойчиво к аномалиям

Минимум и максимум

  • диапазон значений

Разброс

  • насколько данные отличаются друг от друга

В ИИ это важно для:

  • понимания данных
  • обнаружения ошибок
  • подготовки к обучению моделей

 

4.3. Пример (без формул)

Представим:

  • оценки студентов: 40, 60, 70, 80, 100

Вопросы:

  • средняя оценка?
  • есть ли выбросы?
  • все ли студенты учатся одинаково?

Уже здесь начинается аналитическое мышление

 

4.4. Группировка данных

Примеры:

  • средняя оценка по факультетам
  • посещаемость по курсам
  • продажи по месяцам

Группировка помогает:

  • сравнивать
  • находить различия
  • принимать управленческие решения

 

5. Представление результатов анализа (Visualization)

5.1. Почему визуализация критически важна

  • человек лучше понимает картинки, чем таблицы
  • графики помогают объяснять результаты другим
  • визуализация = мост между аналитиком и руководством

 

5.2. Основные виды визуализации

Столбчатая диаграмма

  • сравнение категорий  - оценки по группам

Линейный график

  • изменение во времени - успеваемость по семестрам

Круговая диаграмма

  • доли и проценты - распределение студентов по специальностям

Гистограмма

  • распределение значений - как распределены оценки

 

5.3. Типичные ошибки визуализации

  • слишком много данных на одном графике
  • неподписанные оси
  • неправильный тип диаграммы
  • «красиво, но непонятно»

В ИИ понятность важнее красоты

 

6. Связь с искусственным интеллектом

6.1. Почему ИИ начинается с аналитики

Перед обучением модели нужно:

  • понять данные
  • очистить данные
  • проверить распределения
  • выявить аномалии

90% успеха ИИ — это работа с данными

 

6.2. Примеры

  • плохая аналитика → плохая модель
  • смещённые данные → несправедливый ИИ
  • неверные выводы → неправильные решения

 

Итоги лекции

  • Data Science начинается с табличных данных
  • описательная аналитика отвечает на вопрос «что происходит»
  • статистика — инструмент понимания, а не математика ради математики
  • визуализация — ключ к объяснению результатов
  • без анализа данных ИИ не работает

 

Вопросы для обсуждения со студентами

  1. Почему среднее значение не всегда показатель?
  2. Где в вашей специальности используются таблицы?
  3. Какой график лучше показать руководителю?
  4. Может ли визуализация вводить в заблуждение?