Всероссийская научно-практическая конференция обучающихся «Цифровые технологии вокруг нас» Научно-исследовательская работа на тему «B IG DATA » ПРОСТЫМИ СЛОВАМИ Подготовили : Обучающиеся гр.106, 1 курса Антонова Василиса Дмитриевна , Верба Кира Дмитриевна Преподаватель : Цитцер Мария Сергеевна
Цель данной научно- исследовательской работы: осуществить исследование «BIG DATA » ; найти достоинства и недостатки данной программы; определить сферы деятельности, в которых «BIG DATA» занимает ключевые места р ассмотреть как используется «BIG DATA » в нашей стране.
« Big Data » –это массивы данных большого объема информации, которые компания собирает и хранит для последующего использования. Большие данные необходимы, чтобы проанализировать все значимые факторы и принять правильное решение. С помощью Big Data строят модели-симуляции, чтобы протестировать то или иное решение, идею, продукт.
1. Volume — объем данных: от 150 Гб в сутки; 2. Velocity — скорость накопления и обработки массивов данных. Большие данные обновляются регулярно, поэтому необходимы интеллектуальные технологии для их обработки в режиме онлайн; 3. Variety — разнообразие типов данных. Данные могут быть структурированными, неструктурированными или структурированными частично. Например, в соцсетях поток данных не структурирован: это могут быть текстовые посты, фото или видео.
4. Veracity — достоверность как самого набора данных, так и результатов его анализа; 5. Variability — изменчивость. У потоков данных бывают свои пики и спады под влиянием сезонов или социальных явлений. Чем нестабильнее и изменчивее поток данных, тем сложнее его анализировать; 6. Value — ценность или значимость. Как и любая информация, большие данные могут быть простыми или сложными для восприятия и анализа. Пример простых данных — это посты в соцсетях , сложных — банковские транзакции.
Главные источники больших данных: – интернет вещей ( IoT ) и подключенные к нему устройства; – соцсети , блоги и СМИ; -данные компаний: транзакции, заказы товаров и услуг, поездки на такси и каршеринге , профили клиентов; -показания приборов: метеорологические станции, измерители состава воздуха и водоемов, данные со спутников; -статистика городов и государств: данные о перемещениях, рождаемости и смертности; -медицинские данные: анализы, заболевания, диагностические снимки.
В каких отраслях уже используют Big Data ? Государственное управление. Изучение и анализ больших данных помогает правительствам принимать решения в таких областях, как здравоохранение, занятость населения, экономическое регулирование, борьба с преступностью и обеспечение безопасности, реагирование на чрезвычайные ситуации;
Медицина Огромное количество данных, собираемых медицинскими учреждениями и различными электронными приспособлениями (фитнес-браслетами и т.п.) открывает принципиально новые возможности перед индустрией здравоохранения. Большие данные помогают находить новые лекарства, точнее ставить диагнозы, подбирать эффективное лечение, бороться с пандемий;
Интернет вещей . Big Data и интернет вещей неразрывно связаны между собой. Промышленные и бытовые приборы, подключенные к интернету вещей, собирают огромное количество данных, на основе анализа которых впоследствии регулируется работа этих приборов;
Рынок недвижимости. Девелоперы используют технологии Big Data , чтобы собрать и проанализировать весь массив информации, а затем выдать пользователю наиболее интересные для него варианты. Уже сейчас будущий покупатель может посмотреть понравившийся дом без продавца;
Вывод : 1. Большие данные помогают решать глобальные проблемы — например, бороться с пандемией, находить лекарства от рака и предотвращать экологический кризис; 2. Big Data — хороший инструмент для создания умных городов и решения проблемы транспорта ; 3. Большие данные помогают экономить средства даже на государственном уровне: например, в Германии вернули в бюджет около €15 млрд , обнаружив, что часть граждан получают пособие по безработице без всяких оснований. Их вычислили с помощью транзакций . 4. В ближайшем будущем большие данные станут главным инструментом для принятия решений — начиная с сетевых бизнесов и заканчивая целыми государствами и международными организациями
Спасибо за внимание!
Оптимизация путешествия клиента
Путешествие клиента – это маркетинговый
термин. Большие данные как раз дают вам
представление о путешествии клиента и его
пользовательском опыте. Как потребители
воспринимают наш бренд? Как они
путешествуют через Ваш сайт? Сколько
времени требуется, чтобы превратить их в
продажу? С помощью этой информации Вы
можете обнаружить точки прилипания в пути
от впечатления до преобразования и сделать
улучшения на этом пути.
Банки
и
компании,
выпускающие
кредитные карты, используют большие
данные, чтобы выявлять закономерности,
которые
указывают
на
преступную
деятельность.
Снижение финансовых рисков – до 60% в
банковском секторе;
Результаты внедрения технологий больших
данных:
1. рост качества клиентского сервиса;
2. оптимизация интеграции в цепи поставок;
3. оптимизация планирования организации;
4. ускорение взаимодействия с клиентами;
5. повышение эффективности обработки
запросов клиентов;
6. снижение затрат на сервис;
7. оптимизация обработки клиентских
заявок.
Драйверы и ограничители в бизнесе в России
Драйверы
Ограничители
Высокий спрос на Big Data для повышения конкурентоспособности с
помощью возможностей технологий
Необходимость обеспечивать безопасность и
конфиденциальность данных
Развитие методов обработки медиафайлов на мировом уровне
Нехватка квалифицированных кадров
Реализация отраслевого плана по импортозамещению программного
обеспечения
В большинстве российских компаний объем накопленных
информационных ресурсов не достигает уровня Big Data
Создание технопарков, которые способствуют развитию информационных
технологий
Новые технологии сложно внедрять в устоявшиеся
информационные системы компаний
Перенос на территорию России серверов, которые обрабатывают
персональную информацию
Государственная программа по внедрению грид-систем — виртуальных
суперкомпьютеров, которые распространяются по кластерам
Высокая стоимость технологий
Рост цен на импортную продукцию
Анализ социальных сетей используют чтобы:
1. Увидеть, как люди из разных групп
населения формируют связи с
посторонними лицами
2. Выяснить важность и влияние конкретного
человека в группе
3. Найти минимальное количество прямых
связей для соединения двух людей
4. Понять социальную структуру клиентской
базы
• Большие данные (Big Data) —
совокупность подходов, инструментов и
методов, предназначенных для обработки
структурированных и неструктурированных
данных (в т.ч. из разных независимых
источников)
с
целью
получения
воспринимаемых человеком результатов.
Большие
данные
характеризуются
значительным объемом, разнообразием и
скоростью
обновления,
что
делает
стандартные методы и инструменты работы с
информацией недостаточно эффективными.
Машинное обучение помогает:
1. Различать спам и не спам в электронной
почте
2. Изучать пользовательские предпочтения и
давать рекомендации
3. Определять лучший контент для
привлечения потенциальных клиентов
4. Определять вероятность выигрыша дела и
устанавливать юридические тарифы
Примерами источников информации, для
которых необходимы методы работы с
большими данными могут служить:
• логи поведения пользователей в Интернете;
• GPS-сигналы от автомобилей для транспортной
компании;
• информация о транзакциях всех клиентов банка;
• информация о всех покупках в крупной розничной
сети;
• информация с многочисленных городских IPвидеокамер;
• информация с датчиков большого производства,
оборудованного технологией промышленного
Интернета и т.д.
Третья — доступность данных. У нас есть
серьезные ограничения по обработке и
обмену
разными
типами
данных.
Необходимы стандарты по анонимизации и
деперсонализации данных, возможность
свободного оборота данных, которые
перестали быть персональными.
Разработать целевые маркетинговые
сообщения
Ключ к пониманию ваших клиентов – ответ на
вопрос «Как и когда они делают покупки?»,
«Что является для них ценным?». На основе
подобной
информации
вы
можете
разработать
более
эффективные
маркетинговые сообщения для рынка и
снизить затраты на привлечение клиентов.
Большие данные могут помочь вашей
компании (вне зависимости от ее размера)
решить, когда, где и как ориентироваться на
потенциальных клиентов и какой контент
будет работать лучше всего в настоящий
период времени.
Проблемы внедрения
Первая проблема — дефицит кадров:
сектору не хватает специалистов по всем
направлениям, связанным с обработкой и
внедрением больших данных. Сейчас
многие коммерческие компании готовят
кадры
самостоятельно,
но
этого
недостаточно, чтобы решить эту проблему.
2) Большое количество информации,
которую необходимо обрабатывать. Если,
например, исследование дает не 2-3, а
многочисленное количество результатов,
очень сложно остаться объективным и
выделить из общего потока данных только
те, которые окажут реальное влияние на
состояние какого-либо явления
Большие данные объединяют техники и
технологии, которые извлекают смысл из
данных на экстремальном пределе
практичности.
Вторая — инфраструктура. По количеству
ЦОД и вычислительных мощностей РФ
существенно уступает развитым странам. В
США, например, они занимают около 65
млн кв. метров. В РФ — на порядок
меньше. Нужно развивать инфраструктуру
как для обработки данных, так и для
передачи этих данных на высокой скорости.
MapReduce предполагает, что данные организованы в виде некоторых записей. Обработка данных происходит в 3 стадии
1. Стадия Map.
2. Стадия Shuffle.
3. Стадия Reduce.
Источники данных
1
Интернет
2
3
Корпоративные
Показания
данные
устройств
соцсети, блоги, СМИ,
транзакционная деловая
датчиков, приборов, а также
форумы, сайты
информация, архивы,
метеорологические данные,
базы данных
данные сотовой связи и т. д.
Студент I курса магистратуры направления «Прикладная информатика» Нестерович А. Проверил
Доклад
на тему: Big Date (Большие данные)
Выполнил: студент I курса магистратуры
направления «Прикладная информатика»
Нестерович А. А.
Проверил:
ст. преподаватель Глазов А. Б.
• Больница может использовать его для
обеспечения безопасности, актуальности
данных пациента и полного сохранения их
качества. Размещая базы данных о
здоровьи
в
блокчейн,
больница
обеспечивает всем своим сотрудникам
доступ
к
единому,
неизменяемому
источнику информации.
Big Data в маркетинге
Зачем нужны большие данные в маркетинге? Анализ массивов информации о
компании открывает новые возможности:
1. Понять работу бизнеса в цифрах.
2. Изучить конкурентов.
3. Узнать своих клиентов.
Сервисы Big Data:
1. 1 С-Битрикс BigData – сервис персонализации торговых предложений
2. R TB Media – Сервис по управлению закупками цифровой рекламы
3. Alytics – Система сквозной аналитики с автоматизацией контекстной рекламы и интерактивными отчетами
С помощью правил ассоциации:
1. Размещают продукты в большей близости
друг к другу, чтобы увеличились продажи
2. Извлекают информацию о посетителях
веб-сайтов из журналов веб-сервера
3. Анализируют биологические данные
4. Отслеживают системные журналы для
обнаружения злоумышленников
5. Определяют чаще ли покупатели чая берут
газированные напитки
Использование технологии больших
данных позволяют:
Лучше понимать клиентов
Большие данные могут рассказать много
нового о том, что заставляет ваших
клиентов покупать предлагаемые им
продукты и услуги.
Принципы работы с большими данными
1. Горизонтальная масштабируемость
2. Отказоустойчивость
3. Локальность данных
Все современные средства работы с
большими данными так или иначе следуют
этим трём принципам.
Презентация урока информатики “Большие данные”
«Большие данные»
Характеристики больших данных
Сферы применения больших данных
Профессии в области больших данных
Введение термина «большие данные» относят к
Клиффорду Линчу, редактору журнала Nature, 3
сентября 2008 года
Четвертая проблема — исследования и
идеи.
Нет
необходимой
экспериментальной
среды и ресурсов для разработки и
внедрения новых технологий работы с Big
Data. Для инноваторов необходимо создать
облегченный доступ к большим данным,
кросс-отраслевые инкубаторы.
3)Проблема конфиденциальности Big
Data. В связи с тем, что большинство
сервисов по обслуживанию клиентов
переходят
на
онлайн-использование
данных, очень легко стать очередной
мишенью для киберпреступников. Даже
простое хранение личной информации без
совершения
каких-либо
интернеттранзакций
может
быть
чревато
нежелательными для клиентов облачных
хранилищ последствиями.
Техники и технологии
Техники и методы анализа,
применимые к Big data
Технологии
1. Data Mining;
1. NoSQL;
2. Краудсорсинг;
2. MapReduce;
3. Машинное обучение;
3. Hadoop;
4. Искусственные нейронные сети;
4. R;
5. Распознавание образов;
5. Аппаратные решения.
6. Прогнозная аналитика;
6. Столбцовые БД (ClickHouse)
7. Имитационное моделирование;
8. Пространственный анализ;
9. Статистический анализ;
10. Визуализация аналитических данных.
Регрессионный анализ используют для
определения:
1. Уровней удовлетворенности клиентов
2. Как прогноз погоды за предыдущий день
влияет на количество полученных звонков
в службу поддержки
3. Как район и размер домов влияют на цену
жилья
• Промышленность
в
целом
и
энергетический
сектор
в
частности
генерируют огромный объем информации,
которая при применении традиционных
методов аналитики используется не в
полной мере. В D позволяют извлекать,
преобразовывать, обрабатывать и хранить
данные, которые не всегда учитываются, но
могут косвенно влиять на работу
производства.
Большие данные (Big Data, биг дата)
это структурированные и неструктурированные данные
огромных объемов и разнообразия, а также методы их
обработки, которые позволяют распределенно
анализировать информацию.
Анализ больших данных проводят для того, чтобы
получить новую, ранее неизвестную информацию.
Подобные открытия называют инсайтом, что означает
озарение, догадку, внезапное понимание.
Проблемы Big Data
1) Самой большой проблемой больших
данных являются затраты на их обработку.
Сюда можно включить как дорогостоящее
оборудование, так и расходы на заработную
плату квалифицированным специалистам,
способным обслуживать огромные массивы
информации. Очевидно, что оборудование
придется регулярно обновлять, чтобы оно не
теряло минимальной работоспособности при
увеличении объема данных.
Big Data в бизнесе
Всех, кто имеет дело с большими данным, можно условно разделить на
несколько групп:
1. Поставщики инфраструктуры — решают задачи хранения и предобработки данных. Например: IBM, Microsoft, Oracle, Sap
2. Датамайнеры — разработчики алгоритмов, которые помогают заказчикам извлекать ценные сведения. Среди них: Yandex
Data Factory, CleverData;
3. Системные интеграторы — компании, которые внедряют системы анализа больших данных на стороне клиента. К примеру:
«Форс», «Крок» и др
4. Потребители — компании, которые покупают программно-аппаратные комплексы и заказывают алгоритмы у консультантов.
Это «Сбербанк», «Газпром», «МТС», «Мегафон»
5. Разработчики готовых сервисов — предлагают готовые решения на основе доступа к большим данным. Они открывают
возможности Big Data для широкого круга пользователей
Большие данные открывают перед
энергетикой и другие возможности. Они
позволяют тщательнее контролировать
динамику потребления электроэнергии,
точечно
отслеживать
дебиторскую
задолженность,
дают
возможность
качественнее
управлять
стоимостью
контрактов
и
прогнозировать
возникновение спроса на дополнительные
услуги среди клиентов отрасли.
Генетические алгоритмы используют для:
1. Составления расписания врачей для
отделений неотложной помощи в
больницах
2. Расчет оптимальных материалов для
разработки экономичных автомобилей
3. Создания «искусственно творческого»
контента, такого как игра слов и шутки
Пятая
—
невозможность
массово
имплементировать большие данные в
масштабах всей экономики.
Быстрая проверка идей
Особенность малого бизнеса заключается
в большей гибкости по сравнению с
корпорациями. С помощью больших
данных вы можете быстро извлечь выгоду
из полученных идей, проверить их в
практике и вывести продукты на рынок,
прежде, чем ваши более крупные
конкуренты начнут действовать
Большие данные — совокупность подходов,
инструментов и методов обработки
структурированных и неструктурированных данных
огромных объёмов и значительного многообразия
для получения воспринимаемых человеком
результатов, эффективных в условиях непрерывного
прироста, распределения по многочисленным узлам
вычислительной сети, альтернативных
традиционным системам управления базами данных
и решениям класса Business Intelligence .
В 2011 году Gartner (исследовательская и
консалтинговая компания, специализирующаяся на
рынках информационных технологий. ) отмечает
большие данные как тренд номер два в
информационно-технологической инфраструктуре
(после виртуализации).
Ускорить вывод на рынок новых продуктов
Данная причина особенно важна для
онлайн-продуктов
и
услуг,
поскольку
пользовательские данные клиентов могут
помочь вам понять, что и как работает, а что
нет. Сколько времени ваши клиенты
пользуются продуктом? Что мотивирует их
продолжать пользоваться продуктом или
наоборот – отказаться? Благодаря этой
информации, вы можете увеличить целевые
показатели существующих продуктов и сделать
новые
продукты
с
более
высокими
результатами
Классификация используется для:
1. Автоматического присвоения документов
категориям
2. Классификации организмов по группам
3. Разработки
профилей
студентов,
проходящих онлайн-курсы
Технология Больших данных — это
инструмент принятия решений на основе
больших объемов информации.
NoSQL
NoSQL в информатике — термин, обозначающий
ряд подходов, направленных на реализацию
хранилищ баз данных, имеющих существенные
отличия от моделей, используемых в традиционных
реляционных СУБД с доступом к данным
средствами языка SQL.
MapReduse
MapReduce — модель распределённых вычислений,
представленная компанией Google, используемая
для параллельных вычислений над очень большими
наборами данных в компьютерных кластерах.
Hadoop
Hadoop — проект фонда Apache Software Foundation,
свободно распространяемый набор утилит,
библиотек и фреймворк для разработки и
выполнения распределённых программ,
работающих на кластерах из сотен и тысяч узлов.
Применение
Больших данных (Big Data)
Самый быстрый рост расходов на
технологии больших данных происходит в
банковской сфере, здравоохранении,
страховании, ценных бумагах и
инвестиционных услугах, а также в области
телекоммуникаций.
Существуют разные определения
больших данных, но большинство из
них базируется на концепции «трех V»
больших данных:
Объем (Volume)
Разнообразие (Variety)
Скорость (Velocity)
Методы работы с большими данными:
1. Машинное обучение
2. Анализ настроений
3. Анализ социальной сети
4. Ассоциация правил
5. Анализ дерева классификации
6. Генетические алгоритмы
7. Регрессионный анализ
Аппаратные решения
1
⟶
Горизонтальная масштабируемость.
2
Отказоустойчивость
⟶
3
Локальность данных — для
любая система, которая
снижения издержек данные
обрабатывает большие данные
необходимо обрабатывать на том же
должна быть расширяемой
сервере, где они хранятся.
Признаки,
характеристики
1
Volume
2
Velocity
3
Variety
величина физического
Скорость прироста.
Разнообразие. Данные могут
объёма
Данные регулярно
иметь неоднородные
обновляются, что требует
форматы, быть
их постоянной обработки.
неструктурированными или
структурированными
частично.
Разница подходов
Традиционная аналитика
1.
Постепенный анализ небольших
Big Data
1.
пакетов данных
2.
Редакция и сортировка данных перед
обработкой
3.
4.
данных
2.
Данные обрабатываются в их исходном виде
3.
Поиск корреляций по всем данным до
Старт с гипотезы и ее тестирования
относительно данных
Данные собираются, обрабатываются,
хранятся и лишь затем анализируются
Обработка сразу всего массива доступных
получения искомой информации
4.
Анализ и обработка больших данных в
реальном времени, по мере поступления
4) Проблема потери информации. Меры
предосторожности
требуют
не
ограничиваться простым однократным
резервированием данных, а делать хотя бы
2-3 резервных копии хранилища. Однако с
увеличением объема растут сложности с
резервированием – и IT-специалисты
пытаются найти оптимальное решение
данной проблемы
Функции и задачи
Функция
Задача
Хранение и управление большими объемами постоянно
Big Data — собственно массивы необработанных данных
обновляющейся информации
Data mining — процесс обработки и структуризации данных,
этап аналитики для выявления закономерностей
Структурирование разнообразных сведений, поиск скрытых и
неочевидных связей для приведения к единому знаменателю
Machine learning — процесс машинного обучения на основе
обнаруженных связей в процессе анализа
Аналитика и прогнозирование на основе обработанной и
структурированной информации
В большинстве случаев работа с большими данными подразумевает стандартный рабочий процесс
В большинстве случаев работа с большими данными
подразумевает стандартный рабочий процесс: от сбора
необработанных данных и до получения пригодной для
использования информации.
Сбор. Сбор необработанных данных
Хранение. Любая платформа для работы с
большими данными должна включать надежный,
безопасный и масштабируемый репозиторий для
хранения данных как до обработки, так и после
таковой.
Обработка и анализ достигается за счет
сортировки, агрегации, объединения или
применения специальных расширенных функций и
алгоритмов
Визуализация и использование. Основная цель
работы с большими данными – это получение на их
основании ценных аналитических выводов для
практического применения.
Улучшение бизнес-процессов внутри
организации
Просматривая данные по существующим
внутри
компании
бизнес-процессам,
собранные компанией на протяжении многих
лет, а также анализируя их, можно не только
найти слабые места в бизнес-процессах, но и
оптимизировать их либо переделать с нуля.
Большие данные могут помочь вам
предсказать, сколько клиентов прогнозируется
в
следующем
квартале
и
помочь
укомплектовать свои магазины.