Брендан Тирни,Джон Келлехер

Наука о данных: Базовый курс

    Ilya Babeshkoдәйексөз қалдырдыбылтырғы жыл
    данные создаются с помощью абстракции или измерения мира;
    информация — это данные, которые были обработаны, структурированы или встроены в контекст таким образом, что стали значимы для людей;
    знание — это информация, которая была истолкована и понята таким образом, что появилась возможность действовать в соответствии с ней по необходимости;
    мудрость — это умение найти надлежащее применение знанию.
    Алина Сизовадәйексөз қалдырдыбылтырғы жыл
    Наука о данных включает в себя набор принципов, методов постановки задач, алгоритмов и процессов для выявления скрытых полезных закономерностей в больших данных
    marinaproninaдәйексөз қалдырды17 күн бұрын
    поиском ассоциативных правил.
    Абулхаир Мухамбетиярдәйексөз қалдырдыөткен ай
    В последние годы растет интерес к вычислительным методам сохранения конфиденциальности на протяжении всего процесса анализа данных. Наиболее известны два из этих методов: дифференциальная приватность и федеративное машинное обучение.
    Абулхаир Мухамбетиярдәйексөз қалдырдыөткен ай
    Структурно проблема регрессии похожа на проблему классификации — в обоих случаях наука о данных предполагает построение модели, которая может предсказать недостающее значение на основании набора входных атрибутов. Единственное отличие состоит в том, что классификация оценивает значения категориального атрибута, а регрессия — значения непрерывного.
    Абулхаир Мухамбетиярдәйексөз қалдырдыөткен ай
    В отличие от кластеризации и обнаружения аномалий, которые фокусируются на выявлении сходств или различий между объектами (или строками) в наборе данных, поиск ассоциативных правил фокусируется на рассмотрении связей между атрибутами (или столбцами) в наборе данных.
    Абулхаир Мухамбетиярдәйексөз қалдырдыөткен ай
    Поиск ассоциативных правил — это метод анализа данных при обучении без учителя. Его суть состоит в поиске групп элементов, часто встречающихся вместе. Ассоциативные правила применяются при анализе покупательской корзины, когда розничные компании пытаются выявить наборы товаров, приобретаемых вместе, например хот-дог, кетчуп и пиво.
    Абулхаир Мухамбетиярдәйексөз қалдырдыөткен ай
    Метод опорных векторов (SVM) является хорошо известным одноклассным классификатором. В общих чертах алгоритм SVM анализирует данные как одну единицу (т.е. один класс) и выявляет основные характеристики и ожидаемое поведение объектов. Затем алгоритм маркирует каждый объект, чтобы указать, насколько он похож или отличен от основных характеристик и ожидаемого поведения. С помощью этой информации выявляют аномалии, требующие дальнейшего расследования. Чем больше объект не похож на остальные, тем выше необходимость его исследования.
    Абулхаир Мухамбетиярдәйексөз қалдырдыөткен ай
    Кроме того, нескольких экземпляров аномальных записей недостаточно, чтобы обучить модель прогнозирования — набор данных должен содержать определенное количество объектов каждого класса. В идеале он должен быть сбалансирован на выдачу бинарного результата, что подразумевает разделение данных 50:50. Как правило, получение таких обучающих данных для обнаружения аномалий не представляется возможным: по определению аномалии являются редкими событиями, составляющими 1–2% всех данных или менее. Это ограничение препятствует нормальному использованию моделей прогнозирования. Однако существуют алгоритмы машинного обучения, известные как одноклассные классификаторы, которые предназначены для работы с несбалансированными данными при обнаружении аномалий.
    Абулхаир Мухамбетиярдәйексөз қалдырдыөткен ай
    В некотором смысле обнаружение аномалий является противоположностью кластеризации: цель кластеризации состоит в том, чтобы найти группы схожих элементов, тогда как цель обнаружения аномалий — поиск элементов, непохожих на остальную часть набора данных
    Абулхаир Мухамбетиярдәйексөз қалдырдыөткен ай
    Некоторые языки программирования уже включают специальные команды для облегчения кодирования этих типов правил. Например, версии SQL для базы данных теперь включают функцию MATCH_RECOGNIZE, упрощающую обнаружение закономерности в данных.
    Абулхаир Мухамбетиярдәйексөз қалдырдыөткен ай
    Кроме того, хотя в нашем примере кластеризация применяется для разбиения клиентов на группы, она также бывает полезна и для других задач. Например, для анализа учебных курсов с целью выявления групп студентов, которые нуждаются в дополнительной поддержке или предпочитают разные методы обучения; для идентификации групп похожих документов в корпусе текстов; в биоинформатике для анализа последовательностей генов в процессе, называемом микрочиповым анализом.
    Абулхаир Мухамбетиярдәйексөз қалдырдыөткен ай
    Одним из важнейших навыков специалиста по данным является способность сформулировать насущную проблему как стандартную задачу науки о данных. Большинство проектов в этой области можно отнести к одному из четырех основных классов задач:

    кластеризация (или сегментация);
    обнаружение аномалий (или выбросов);
    поиск ассоциативных правил;
    прогнозирование (включая подзадачи классификации и регрессии).
    Абулхаир Мухамбетиярдәйексөз қалдырдыөткен ай
    Учебный набор используется для обучения начальной группы моделей. Оценочный набор — для сравнения эффективности этих моделей на новых данных. Сравнение эффективности начальных моделей на оценочном наборе позволяет нам определить, какой алгоритм сгенерировал лучшую модель.
    Абулхаир Мухамбетиярдәйексөз қалдырдыөткен ай
    Стандартный процесс для обеспечения этого правила таков: данные разбиваются на три части — обучающий набор, оценочный набор и тестовый набор. Пропорции, используемые для этого разбиения, будут различаться в зависимости от проекта, но обычно они составляют 50:20:30 или 40:20:40.
    Абулхаир Мухамбетиярдәйексөз қалдырдыөткен ай
    Первая состоит в том, чтобы выявить алгоритм, который генерирует лучшие модели. Вторая — оценить эффективность обобщения наилучшей модели, т.е. насколько хорошо она может справиться с новыми данными. Золотое правило оценки моделей заключается в том, что их никогда не следует тестировать на тех же данных, на которых они были обучены. Использование одних и тех же данных для моделей обучения и тестирования равносильно тому, чтобы показать ученикам экзаменационные вопросы за ночь до экзамена.
    Абулхаир Мухамбетиярдәйексөз қалдырдыөткен ай
    Термин «смещение выборки» описывает то, как процесс, используемый для формирования набора данных, может внести искажения в последующую аналитику, будь то статистический анализ или создание прогностических моделей с использованием машинного обучения.

    Вторым фактором, который влияет на модель, генерируемую из набора данных, является выбор алгоритма машинного обучения. Их существует множество, и каждый кодирует свой способ обобщения набора данных. Тип обобщения, который кодирует алгоритм, известен как смещение обучения (или смещение выбора) алгоритма.
    Абулхаир Мухамбетиярдәйексөз қалдырдыөткен ай
    Однако выход этого нейрона наравне с его сестринскими нейронами в первом слое подается в нейроны второго слоя, изучающие функции, которые преобразуют выходные данные первого слоя в новые и еще более полезные представления. Этот процесс сопоставления входных данных с новыми атрибутами и передачи этих новых атрибутов в качестве входных данных для следующих функций распространяется по сети, и по мере того, как сеть становится глубже, она может изучать все более и более сложные сопоставления. Именно способность автоматически изучать сложные сопоставления входных данных с полезными атрибутами делает модели глубокого обучения настолько точными при выполнении задач с многомерным вводом (таких, как обработка изобра­жений и текста).
    Абулхаир Мухамбетиярдәйексөз қалдырдыөткен ай
    Например, если сеть выполняет распознавание лиц, она должна уметь распознавать форму глаза, где бы он ни находился — в верхнем правом углу или в центре изобра­жения. СНС достигают этого за счет групп нейронов, которые имеют одинаковый набор весов на своих входах. В этом контексте набор входных весов определяет функцию, которая возвращает истинное значение, если в наборе поступающих в нее пикселей появляется определенный визуальный признак. Это означает, что каждая группа нейронов с одинаковыми весами учится идентифицировать определенный визуальный признак и каждый нейрон в группе действует как детектор этого признака. В СНС нейроны в каждой группе расположены так, чтобы каждый исследовал свой фрагмент изображения, а вместе группа охватывала бы его целиком. Таким образом, если заданный визуальный признак присутствует на изображении, один из нейронов в группе идентифицирует его.
    Абулхаир Мухамбетиярдәйексөз қалдырдыөткен ай
    Другой популярной архитектурой глубоких нейронных сетей являются сверхточные нейронные сети (СНС). СНС были первоначально разработаны для использования с данными изображений
fb2epub
Файлдарды осы жерге салыңыз, бір әрекетте 5 кітаптан асыруға болмайды