Всё сдал! - помощь студентам онлайн Всё сдал! - помощь студентам онлайн

Реальная база готовых
студенческих работ

Узнайте стоимость индивидуальной работы!

Вы нашли то, что искали?

Вы нашли то, что искали?

Да, спасибо!

0%

Нет, пока не нашел

0%

Узнайте стоимость индивидуальной работы

это быстро и бесплатно

Получите скидку

Оформите заказ сейчас и получите скидку 100 руб.!


История возникновения и использования «Больших данных»

Тип Реферат
Предмет Информатика

ID (номер) заказа
2041675

200 руб.

Просмотров
1354
Размер файла
62.84 Кб
Поделиться

Ознакомительный фрагмент работы:

Содержание

Введение 4
Глава 1. Большие данные до эры развития интернета 9
1.1 Древние времена 9
1.2 Большие данные в XVII-XX веке 10
1.3 Краткая хронология развития и использования больших данных
до развития интернета 14
1.4 Выводы 16
Глава 2. Большие данные в эру развития интернета 17
2.1 Современное понятие о больших данных 17
2.2 Большие данные во второй половине XX-го века 19
2.2.1 MapReduce 21
2.2.2 Hadoop 23
2.3 Краткая хронология развития и использования больших данных в
эпоху развития интернета 24
2.4 Выводы 26
Глава 3. Большие данные в современном мире 28
3.1 Краткая хронология развития и использования больших данных в
период с 2005 года до наших дней 28
3.2 Использование больших данных в современном мире 29
3.3 Выводы 33
Заключение 34
Список использованных источников 36

Введение

Актуальность данной работы заключается в том, что даже спустя множество столетий, анализ, хранение и обработка больших данных является одной из важных задач. В наше время Big Data по-прежнему один из ключевых трендов на рынке аналитики. Новые преимущества, которые дает анализ больших данных – это скорость и эффективность. Если раньше люди не могли анализировать большой объём данных (это делалось вручную), то с развитием компьютерных технологий, данная задача была решена.
Само понятие BigData означает не просто большие пласты данных. Это огромные хранимые и обрабатываемые массивы из сотен гигабайт, и даже петабайт данных. Данных, которые можно обработать и извлечь из них некоторое количество полезной информации. Говоря коротко, можно определить BigData как совокупность технологий обработки информации для получения информации.
По своей сути, большие данные не являются чем-то совершенно новым. На протяжении веков люди пытались использовать методы анализа данных и аналитики для поддержки процесса принятия решений. Древние египтяне около 300 г. до н.э. уже пытались собрать все существующие «данные» в Александрийской библиотеке. Более того, Римская империя тщательно анализировала статистику своих военных, чтобы определить оптимальное распределение их армий.
Тем не менее, за последние два десятилетия объем и скорость, с которой генерируются данные, изменились – за гранью человеческого понимания. Общий объем данных в мире в 2013 году составил 4,4 зеттабайта. К 2020 году этот показатель возрос до 44 зеттабайта. Для сравнения, 44 зеттабайта эквивалентны 44 триллионам гигабайт. Даже с самыми передовыми технологиями сегодня невозможно проанализировать все эти данные. Необходимость обработки этих все более крупных (и неструктурированных) наборов данных заключается в том, как традиционный анализ данных превратился в «большие данные» за последнее десятилетие.
В последние несколько лет термин «большие данные» стал модным словом в различных отраслях. Термин «Большие данные» превратился в мейнстрим еще в 2012 году, отчасти благодаря тому, что был представлен в докладе Всемирного экономического форума под названием «Большие данные, большое влияние».
Ключевым моментом, сделанным в документе, было то, что с учетом того, что множество различных устройств, с которыми мы взаимодействуем каждый день, собирают все большие объемы данных, важно «обеспечить, чтобы эти данные помогали отдельным лицам и сообществам, которые их создают». Кажется, это простой призыв к действию, но большие данные можно использовать для описания наборов данных, таких больших, что традиционные вычислительные системы не могут их обработать.
Понятно, что объединение и анализ таких гигантских объемов данных – огромная проблема. Тем не менее, преимущества могут быть такими же существенными, не только для предприятий и их потребителей, но и для государственных организаций, благотворительных организаций и всех, кто находится между ними.
Целью данного реферата является изучение истории возникновения и использования больших данных.
Для достижения поставленной цели, необходимо решить ряд задач:
1. Изучить историю больших данных до эпохи развития интернета.
2. Дать определение термину «Big Data» и определить основные критерии успешной обработки больших данных.
3. Изучить историю больших данных в эпоха развития интернета и привести примеры различных решений.
4. Изучить историю использования больших данных в наше время определить перспективы развития.
В качестве объекта исследования выступает технология BigData.
В качестве предмета исследования рассматривается история технологии BigData.
При написании данного реферата были использованы следующие научные методы:
1. Дескриптивный (описательно повествовательный). С помощью данного метода, мы описываем, зачем используются Big Data.
2. Диахронический. С помощью данного метода мы изучаем исторические факты, связанные с большими данными.
3. Компаративный. С помощью данного метода мы проводим историческое сравнение: как люди анализировали большие данные до компьютерной эры и после.
Хронологические рамки данной темы начинаются от древнего Египта (около 300 лет до нашей эры) и заканчиваются текущим 2020 годом.
В данной работе было использовано 15 источников литературы.
1. Книга «Просто BIG DATA» автора Деменока С. Л. рассказывает о практическом применении технологии BigData в торговле и банковском деле, медицине и метеорологии, о том, как большие данные помогают обеспечивать безопасность, предсказывать погоду и заставляют людей делать покупки. В книге хорошо освещены аспекты применения технологии BigData в современном мире.
2. Книга «Революция в аналитике. Как в эпоху Big Data улучшить ваш бизнес с помощью операционной аналитики» автора Фрэнкса Билла содержит практические знания о том, что такое операционная аналитика, что о ней должна знать организация и каким образом успешно ее использовать. В книге описаны методы применения технологии BigData крупными организациями. Содержит практические знания о том, что такое операционная аналитика, что о ней должна знать организация и каким образом успешно ее использовать.
3. В статье «BigData: анализ больших данных сегодня» автора Веретенникова А. В. рассматривается, что такое BigData, текущее положения дел, перспективы развития. В статье даётся базовые понятия, описываются сферы применения, а также рассказывается о подходах обработки данных.
4. В книге «Все лгут. Поисковики, Big Data и Интернет знают о вас все» автор Cтивенс-Давидовиц Cет, специалист Google по Data Science, провел исследование, опираясь на науку о больших данных (Big Data), а также данные, которые может предоставить исследователю Интернет. В результате он получил сенсационные результаты, полностью переворачивающие современные представления об обществе, в котором мы живем.
5. В статье «История понятия «большие данные» (Вig Data): словари, научная и деловая периодика» автора М.С. Корнева кратко рассмотрена история понятия «большие данные» (Big Data) и уточняются некоторые аспекты появления и развития понятия в словарях, научной и деловой периодике. Что важно – выявлена фактологическая неточность относительно зарождения термина, которая реплицируется во многих отечественных публикациях (в том числе научных). В связи с чем дается уточнение по поводу появления и бытования термина в российских научных, научно-популярных и деловых публикациях. Статья также предлагает посмотреть немного шире на эволюцию представлений о «больших данных» и возможности для гуманитарных исследователей.
6. В статье «Термин Big Data и способы его применения» Медетов А. А. рассказывается о том, как рост количества информации спровоцировал появление новых технологий и методов для обработки данных. Также, даётся определение «BigData», описываются основные принципы работы с данной технологией и рассматриваются области применения.
Выше были рассмотрены научные печатные источники, в которых освещался вопрос истории технологии BigData. Далее рассмотрены сетевые источники.
1. В статье «История больших данных» в двух частях, опубликованной на сайте www.computerra.ru приведена подробная история появления и развития технологии BigData (от древней Александрии до наших дней).
2. В статье «История Big Data восходит к практикам общественного порядка XIX века» опубликованной на сайте https://22century.ru/popular-science-publications/big-data-problems описываются некоторые связи между двумя «революциями» данных (первая революция в XIX веке, а вторая в наше время) и последствия для политики информации в современном обществе.
3. В иностранной статье «A brief history of big data everyone should read» опубликованной на сайте www.weforum.org, приводится чёткая хронология развития больших данных от 18000 г. до н.э. до наших дней. Из данной статьи будут выделены основные события, произошедшие в истории BigData.
4. В иностранной статье «Big Data History, Technologies and Use Cases» Опубликованной на сайте data-flair.training приводятся примеры сфер деятельности, где используются большие данные.
5. В иностранных статьях «A History of Big Data: Management and Systems» (content.dsp.co.uk), «A Brief History of Big Data» (www.dataversity.net), «Brief History of Big Data» (www.cleverism.com) и « A short history of Big Data» (www.bigdataframework.org) описывается история развития больших данных преимущественно с начала 1950-ых годов и до нашего времени.
Подобранная литература является исчерпывающей для данной работы, так как в ней подробно описываются 4 основных этапа исторического развития технологии: древние времена, XVII-XX век, период с 2000 по 2010 годы, наше время. Также в данной литературе даются все необходимые понятия и определения. Необходимые для написания данного реферата.
Глава 1. Большие данные до эры развития интернета

1.1 Древние времена

«Скажи мне, кто твой друг – и я скажу тебе, кто ты». Древнегреческий поэт Еврипид сам того не зная еще до нашей эры предсказал использование big data – больших данных [6, c.1]. Дело в том, что поисковые системы анализируют все запросы пользователей, их личные страницы, историю посещений, с целью предложения рекламы. Поскольку, большинство людей ведёт социальные сети, то на основе поисковых запросов друзей, можно получить картину человека.
История больших данных как термина может быть достаточно новой, но многие основы, на которых благодаря которым работают современные системы, были заложены достаточно давно.
Ещё задолго до того, как компьютеры (какими мы их знаем сегодня) стали обычным явлением, была популярна идея о том, что мы создаем постоянно расширяющийся массив знаний, готовый для анализа [7, c.1].
Данные появились где-то 6000 лет назад вместе с появлением сельскохозяйственных общин — это концепция данных в современном понимании. Люди, занятые сельским хозяйством, фиксировали, когда пахать землю, когда сеять те или иные культуры, когда собирать урожай, сколько семян нужно для засевания той или иной площади. Например, геометрия появилась в Египте в связи с необходимостью восстанавливать раздел полей после ежегодного разлива Нила и являлась практическим инструментом [3, c. 4-5].
Первые библиотеки Вавилона в 2000-х годах до нашей эры, позднее – библиотеки в Александрии – всё это пример того, как люди в тот или иной момент сталкивались с вопросами хранения большого объема информации и ее консолидации для удобства использования. Проблемы тогда, правда, сводились в основном к тому, чтобы не потерять всю накопленную мудрость при следующем вражеском набеге, как это произошло в Александрии при вторжении римлян, когда большая часть библиотеки была утрачена.
Про какой-либо серьезный анализ в привычном нам контексте в то время говорить не приходилось вплоть до середины XVII века, когда Джон Грант, известный своими работами в области демографической статистики, кроме прочего выпустил труд, описывавший теорию, в которой использование аналитики смертности позволяло предупреждать о начале эпидемии бубонной чумы [7, c.1].
1.2 Большие данные в XVII-XX векеПериод с XVII века до первой половины XX века был доцифровой эрой, в которой «компьютер» скорее был человеком за столом, делающим подсчёты и расчёты вручную, а не электромеханическим или электронным устройством, но даже эта ранняя инфраструктура подготовила почву для нашей современной ситуации [9, c.1].
Например, в Месопотамии большие данные были использованы для регистрации роста урожая и скотоводства. Принципы продолжали расти и улучшаться, и Джон Граунт в 1663 году записал и проанализировал информацию о уровне смертности в Лондоне. Джон Грант сделал это, чтобы повысить осведомленность о последствиях бубонной чумы, которая продолжалась в то время.
В своей книге «Естественные и политические наблюдения, сделанные на основе счетов о смертности» Джон Граунт представил миру первый статистический анализ данных, когда-либо зарегистрированных. Книга дала представление о причинах смерти в Англии XVII века. Благодаря своей работе, Джон Граунт широко известен как пионер в области статистики.
После работ Граунта принципы бухгалтерского учета продолжали совершенствоваться и развиваться, но ничего необычного не происходило до недавнего времени в XX веке, когда началась информационная эра. Отправная точка современных данных начинается в 1889 году, когда Герман Холлерит изобрел вычислительную систему в попытке организовать данные переписи [14, c.1].
В XVIII веке уже произошло быстрое развитие словарей различных видов, в том числе Encyclopédie Дидро 1751 года (на основе Циклопедии Чемберса) и Словаря английского языка Джонсона 1755 года (не первый в своём роде), иллюстрирующих растущую потребность не только собирать, но классифицировать, категоризировать и упорядочивать информацию, чтобы сделать её значимой и полезной. В следующем веке появилось понятие о врождённых правилах и закономерностях в широком спектре явлений, и тогда же начался их поиск – вместе с поисками законов природы.
Системы каталогизации существовали в течение многих столетий, но в тот период произошло их становление в качестве формализованных систем, начиная от классификации «Руководства книготорговца и любителя книг» Жака Шарля Брюне (1810) до Десятичной классификации Мелвила Дьюи (1876 г.). Хранение и извлечение также стало проблемой, что приводит к развитию библиотечной науки, архивных стратегий управления и механических систем обработки [9, c.1].
В 1865 году профессор Ричард Миллер Девинс (Richard Millar Devens) впервые ввел в обиход термин Business Intelligence, использовав его в своей книге Cyclopedia of Commercial and Business Anecdotes, где кроме прочего рассказал Генри Фернезе, который пришёл к успеху благодаря структурированию и анализу информации о деловой активности.
Сбор данных стал центральным понятием, которое продолжает оставаться релевантным по отношению к производству современных знаний в нескольких дисциплинах и областях практики (например, ботанике, геологии, антропологии). Развитие обществ и ассоциаций в качестве форумов для выявления, изучения и формализации новых и расширения областей знаний также набирало обороты.
С увеличением количества данных, которые люди стали использовать в различных сферах своей деятельности, возникало все больше проблем с их обработкой и анализом.
Сложности с большими данными возникли в связи с проведением переписи населения. Первая перепись населения США была проведена в 1790 году. Тогда население Соединенных Штатов составило чуть менее 4 миллионов человек. Во время последней переписи, которая проводилась в 2010 году, население страны составляло уже 308745538 человек. В соответствии со статьей 1 Конституции США перепись населения должна проводиться не реже чем раз в десять лет. Она проводится в годы, заканчивающиеся на «0». С 1790-го по 1840 год она проводилась шерифами, а в 1840 году появился первый центральный офис Бюро по переписи населения [3, c. 8-9].
Американское бюро по переписи населения, столкнулось с трудностью и объявило, что с современными подходами к работе с данными произвести подсчет они смогут лишь за 8 лет, а при следующей переписи в 1890 году, ввиду увеличения численности населения и постоянной миграции, дать точные результаты удастся не раньше, чем через 10 лет, когда они уже полностью устареют. Получалась ситуация, когда к моменту следующего сбора данных не будут еще полностью проанализированы результаты прошлой переписи, что полностью обесценивает эту информацию и ставит само существование бюро под сомнение.
На помощь пришел инженер по имени Герман Холлерит (Herman Hollerith), который в 1888 году создал устройство (табулятор), которое, оперируя перфокартами, сокращало 10-летний труд до 3 месяцев. Воодушевленный успехом Холлерит создал компанию TMC, специализирующуюся на создании табулирующих машин. Позже ее купила компания C-T-R, которая в 1924 году была переименована в IBM [8, c.1].
Дальнейший рост информации и проблемы, встававшие перед нашими предшественниками, всегда сводились в равной степени к вопросам хранения и скорости обработки этих данных.
После вклада Германа Холлерита следующий заслуживающий внимания скачок в разработке данных произошел в 1937 году при президентской администрации Франклина Д. Рузвельта в США. После того, как конгресс США принял Закон о социальном обеспечении, правительство должно было следить за миллионами американцев. Правительство заключило контракт с IBM на разработку системы чтения перфокарт, которая будет применяться в этом обширном проекте данных.
Во время Второй мировой войны необходимость в быстром анализе данных послужила созданию ряда компьютеров, позволяющих дешифровать сообщения неприятеля. Так, в 1943 году британские ученые создали машину Colossus, которая ускорила расшифровку сообщений с нескольких недель до нескольких часов. Как таковой личной памяти у «Колосса» не было, поэтому данные подавались через перфорированное колесо. Трудно представить сейчас, сколько жизней спас этот, по нашим меркам, допотопный компьютер с производительностью, аналогичной производительности современного процессора с частотой 5.8 мегагерц, и как изменился бы ход истории, если не существовало бы проблем со скоростью обработки информации.
Но скорость анализа не единственный вопрос, которым были озадачены наши предшественники в середине XX века. В 1944 году библиотекарь Фремонт Райдер (Fremont Rider) выпустил труд The Scholar and the Future of the Research Library, в котором он проанализировал, что с существующим ростом выпускаемых работ библиотеки должны удваивать свою вместительность каждые 16 лет. Это приведет к тому, что, к примеру, Йельская библиотека к 2040 году должна будет состоять из 6000 миль (около 10000 км) полок [8, c.1].
1.3 Краткая хронология развития и использования больших данных до развития интернетаС 18000 г. до н.э. Самыми ранними примерами хранения и анализа данных людьми являются контрольные палочки. Кость Ишанго была обнаружена в 1960 году в нынешней Уганде и считается одним из самых ранних свидетельств доисторического хранения данных. Палеолитические племена отмечали бы надрезы на палках или костях, чтобы отслеживать торговую деятельность или поставки. Они будут сравнивать палки и вырезы для выполнения элементарных вычислений, позволяя им делать прогнозы, например, как долго продержатся их запасы продовольствия [11, c.1].
C 2400 до н.э. Абакус – первое специальное устройство, созданное специально для выполнения расчетов, начинает использоваться в Вавилоне. Примерно в это же время появились первые библиотеки, представляющие наши первые попытки массового хранения данных.
300 г. до н.э. - 48 г. н.э. – Александрийская библиотека является, пожалуй, самой большой коллекцией данных в древнем мире, в которой хранится до полумиллиона свитков и охватывают все, что мы узнали до сих пор, почти все. К сожалению, в 48 году он, как полагают, был разрушен вторгающимися римлянами, возможно, случайно. Вопреки распространенному мифу, не все было потеряно - значительная часть фондов библиотеки была перенесена в другие здания города или украдена и разбросана по всему древнему миру.
C 100 - 200 г. н.э. Antikythera механизм, самый ранний обнаружили механический компьютер, производятся, предположительно греческими учеными. Его «процессор» состоит из 30 взаимосвязанных бронзовых передач, и, как полагают, он был разработан для астрологических целей и отслеживания цикла Олимпийских игр. Его дизайн предполагает, что это, вероятно, эволюция более раннего устройства, но они до сих пор остаются неоткрытыми [11, c.1].
1663. В Лондоне Джон Граунт проводит первый зарегистрированный эксперимент по статистическому анализу данных. Записав информацию о смертности, он предположил, что может разработать систему раннего предупреждения для бубонной чумы, разоряющей Европу.
1865. Термин «бизнес-аналитика» используется Ричардом Милларом Девенсом в его «Энциклопедии коммерческих и деловых анекдотов», описывающих, как банкир Генри Фурнезе добился преимущества перед конкурентами, структурируя сбор и анализ информации, относящейся к его бизнес-деятельности. Считается, что это первое исследование бизнеса, в котором анализ данных используется для коммерческих целей.
1880. У Бюро переписей США есть проблема – по его оценкам, потребуется 8 лет, чтобы собрать все данные, собранные в ходе переписи 1880 года, и прогнозируется, что данные, полученные в результате переписи 1890 года, займут более 10 лет, то есть они не будут готовы к переписи 1900 года. В 1888 году молодой инженер, работающий в бюро, Герман Холлерит производит то, что станет известным как табуляционная машина Холлерита. Используя перфокарты, он сокращает 10-летнюю работу до трех месяцев и достигает своего места в истории как отец современных автоматизированных вычислений. Компания, которую он основал, станет известной как IBM [11, c.1].
1926. В интервью журналу Colliers изобретатель Никола Тесла утверждает, что, когда беспроводные технологии «идеально применяются», вся Земля превращается в огромный мозг, который на самом деле представляет собой частицы реального и ритмичного целого… и инструменты, с помощью которых мы сможем сделать это будет удивительно просто по сравнению с нашим нынешним телефоном. Мужчина сможет носить его в кармане жилета.
1928. Фриц Пфлюмер, немецко-австрийский инженер, изобретает метод магнитного хранения информации на ленте. Принципы, которые он разрабатывает, все еще используются сегодня, так как подавляющее большинство цифровых данных хранятся на магнитных дисках компьютера.
1.4 ВыводыИсходя из вышенаписанного, можно сделать следующие выводы:
1. Человечество сталкивалось с обработкой больших данных ещё с древних времён. Однако данная задача в те времена была тяжело решаема, так как не было средств, позволяющих быстро анализировать накопившуюся информацию.
2.  Не обращая внимания на некоторые разговоры о датах, существует общее мнение, что период с XVII века до первой половины XX века был временем, когда накопление, анализ и создание различных форм информации росли со скоростью, с которой человечество ещё не сталкивалось. В этот период и появлялись первые идеи по автоматизированной обработки больших данных.

Глава 2. Большие данные в эру развития интернета

2.1 Современное понятие о больших данных

Перед тем как вплотную подойти к вопросу о Больших Данных, технологиях и областях применения, необходимо сделать ремарку и подготовить почву для обсуждения самого вопроса.
В 2001 г. вышло основополагающее исследование Дуга Ланей (Doug Laney) для Meta Group, которое определило три ключевых параметра больших данных: объем, скорость, разнообразие (так называемые три «V»: Volume, Velocity, Variety). Большие данные характеризуются гигантскими размерами (точных определений нет), большими скоростями их новой генерации и притока, неоднородностью и неупорядоченностью. И эти три «VVV» в том или ином виде признают все эксперты, что свидетельствует о более раннем появлении понятия и его эволюции [4, c.83]. Этот документ, описывал основные проблемные зоны, связанные с повышенными требованиями к центральным хранилищам данных на фоне бурного роста электронной коммерции (e-commerce), а также делающий прогноз на изменение стратегии IT-компаний в отношении подходов к построению архитектуры решений, связанных с хранением и обработкой информации.
Нужно учесть, что эти аспекты обсуждались без отсылки к понятию Больших Данных, концепцию которых начали применять чуть позже, но эти параметры как никакие другие описали основные принципы того, что мы с вами называем Big Data.
Количество данных (Volume) имеет значение. В больших данных приходится обрабатывать большие объемы неструктурированных данных с низкой плотностью. Это могут быть данные самого разного типа, такие как каналы данных Twitter, потоки кликов на веб-странице и в мобильном приложении, или оборудование с поддержкой датчиков. Для некоторых организаций это могут быть десятки терабайт данных. Для других это могут быть сотни петабайт [15, c.1].
Скорость (Velocity) – это требование, согласно которому, обработка данных должна происходить с высокой скоростью. Обычно самая высокая скорость потоков данных достигается благодаря помещению данных в оперативную память по сравнению с записью на диск. Некоторые интеллектуальные продукты с поддержкой Интернета работают в режиме реального времени или почти в реальном времени и требуют обработки и анализа в реальном времени. В качестве примера, можно привести данные включающие в себя уровень содержания вредных веществ, сейсмические показания и прочую информацию, способную указать на вероятность обрушения, утечку газа или иные катастрофические последствия, возможные в конкретно взятом месте. А теперь представьте себе, что поступившие данные в силу тех или иных причин были обработаны за 2 часа вместо, скажем, 10 минут и результатом обработки была информация о высоком риске катастрофы, которое случилось во время анализа этой информации и поэтому превентивные меры не были приняты.
Структурированность (Variety) относится ко многим типам данных, которые обрабатываются. Традиционные типы данных были структурированы и аккуратно помещались в классическую реляционную базу данных. С ростом больших данных данные стали поступать в виде новых неструктурированных типов данных. Неструктурированные и полуструктурированные типы данных, такие как текст, аудио и видео, требуют дополнительной предварительной обработки для получения значения и поддержки метаданных.
На основании изложенного в данном параграфе материала сделаем выводы:
1. Наличие большого объёма данных совершенно не значит, что система решает задачу больших данных.
2. Большое внимание следует уделять скорости обработки данных, в противном случае можно обесценить их и передать на анализ уже неправильные данные или в качестве результата предоставить неактуальную информацию.
3. Важно уметь обрабатывать и находить взаимосвязи в неструктурированных данных, так как они представляют большую часть всех полезных обрабатываемых данных [7, c.1].
4. Система должна быть хорошо масштабируемой на уровне логики, иначе мы не сможем обрабатывать большие объёмы поступающей информации.
2.2 Большие данные во второй половине XX-го векаНачиная с 1950-х годов, наряду с все увеличивающейся потребностью в хранении и обработке информации, начался бурный рост технологий ее хранения и обработки, стали появляться центры обработки данных. Люди из разных отраслей деятельности начали приходить к пониманию, что их преимущества так или иначе будут зависеть от умения хранить и анализировать информацию, а также от скорости этого анализа и полученной от него ценностью.
Самая первая машина для обработки данных была названа «Колосс» и была разработана британцами для расшифровки нацистских кодов во Второй мировой войне 1943 года. Эта машина работала путем поиска любых шаблонов, которые будут регулярно появляться в перехваченных сообщениях. Машина работала с рекордной скоростью в пять тысяч символов в секунду, что сократило объем работы, которая может занять несколько недель до нескольких часов.
В 1952 году в Соединенных Штатах было создано Агентство национальной безопасности (АНБ). Перед сотрудниками АНБ была поставлена ​​задача расшифровки полученных сообщений в ходе холодной войны. На этом этапе разработка машин достигла уровня, на котором машины могут самостоятельно и автоматически собирать, и обрабатывать информацию.
Первый дата-центр был построен правительством США в 1965 году с целью хранения миллионов налоговых деклараций и отпечатков пальцев. Это было достигнуто путем переноса каждой записи на магнитные ленты, которые должны были систематически храниться в центральном месте. Данная инициатива была отправной точкой большого электронного хранилища.
Тим Бернерс-Ли, британский компьютерный ученый, изобрел Всемирную паутину в 1989 году. Намерение Бернерс-Ли состояло в том, чтобы обеспечить обмен информацией через гипертекстовую систему. Он понятия не имел, какое влияние его изобретение окажет на мир. Когда мы вступили в 1990-е годы, создание данных росло очень быстрыми темпами, поскольку все больше устройств получали доступ к Интернету [14, c.1].
В 1990-е годы наблюдался невероятный рост интернета, и персональные компьютеры становились все более мощными и гибкими. Рост интернета основывался как на усилиях Тима Бернерса-Ли, так и на бесплатном доступе Cern, а также на доступе к отдельным персональным компьютерам [10, c.1].
Первый суперкомпьютер был построен в 1995 году. Этот компьютер был способен справляться с работой, на которую одному человеку понадобилось бы тысячи лет за считанные секунды.
Наступил XXI век. Именно тогда Роджер Мугалас впервые представил миру термин «большие данные».
В течение этого периода социальные сети быстро росли, и ежедневно создавалось большое количество данных. Компании и правительства начали создавать проекты больших данных. Например, в 2009 году в крупнейшей биометрической базе данных, когда-либо созданной, правительство Индии хранило отпечатки пальцев и радужную оболочку всех своих граждан.
Эрик Шмидт выступил с речью на конференции Techonomy в Лейк-Тахо, штат Калифорния, в 2010 году. В своем выступлении он представил, что с начала времен до 2003 года хранилось 5 эксабайт данных. Эрик Шмидт, возможно, не мог себе представить, что В 2016 году один и тот же объем данных обычно создается каждые два дня. Скорость роста больших данных, похоже, тоже не замедляется [14, c.1].
За последние несколько лет были различные организации, которые пытались работать с большими данными, например, HCL. Бизнес этих организаций помогает другим предприятиям понимать большие данные. Каждый день все больше и больше предприятий стремятся к принятию и использованию больших данных.
Многим кажется, что мы приближаемся к вершине развития больших данных, так как они существуют достаточно давно. Однако большие данные могут находиться, всего лишь, на определённом этапе эволюции и в будущем предстанут перед людьми в совершенно ином цвете.
2.2.1 MapReduceВ 2004 году корпорация Google в лице Джеффри Дина и Санжая Гемавата представила миру на удивление простой, но невероятно действенный подход к обработке огромного количества информации. По сути, данный алгоритм позволял работать с неограниченным объемом данных при условии возможности наращивания новых кластерных узлов пропорционально увеличению количества обрабатываемой информации [8, c.1].
Как можно понять из названия, алгоритм сводился к разбиению процесса обработки на две простые функцмне лии – Map и Reduce, причем единую задачу мы можем разбить на бесконечно большое количество малых подзадач, которые будут выполняться параллельно друг с другом, а потом просто сложить полученный результат. Каждую часть одной большой задачи можно отдать на обработку одному из узлов единого кластера и все, что нам останется при увеличении объемов информации – это расширить кластер до необходимых нашей задаче размеров.
Эта технология стала отправной точкой для создания систем, работающих с Большими Данными и стала чем-то вроде стандарта de facto при разработке решений в области Big Data. Такой подход помог компании Google повысить эффективность своего поискового ресурса и распараллеливать линейные задачи при работе с петабайтами данных. На своей заре MapReduce использовался Google как средство оптимизации индексирования данных для поисковых запросов [8, c.1].
Но как хранить эти данные, а главное – как их быстро находить и обращаться к ним, если они размещены на тысячах серверов?
Для этих целей Google использовал свою же разработку – распределенную файловую систему GFS (Google File System), которая в качестве единицы хранения использовала так называемые чанки, имеющие определенный размер и несущие в себе информацию. Все серверы, входящие в кластер GFS, можно представить как один большой жесткий диск, в отличие от которого, информация о расположении того или иного блока данных (чанка) хранится на отдельных мастер-серверах, постоянно держащих в оперативной памяти метаданные, что позволяет оперативно обращаться именно к нужной части кластера. Для достижения избыточности копия одного чанка хранится на нескольких серверах, а мастер-сервер рассылает снимки своей оперативной памяти на подчиненные серверы, в любой момент готовые развернуть снимок в своем пространстве и перехватить роль мастера.
Такой подход дал быстрый старт развитию технологий, связанных с большими данными. После поисковых систем эстафету стали перенимать социальные сети, интернет вещей, банковский и научно-исследовательский сектор, а также все сферы бизнеса, в которых внедрение технологий Big Data давало ощутимые преимущества над конкурентами.
2.2.2 HadoopКак было упомянуто выше, разработанная Google концепция быстро подстегнула интерес сообщества к распределенному хранению и анализу информации [8, c.1].
Несмотря на то, что Google не раскрыла никакой точной информации о работе своих технологий, вскоре стали появляться аналогичные реализации данного подхода, и главной из них, без сомнения, является Hadoop, разработка которого началась практически сразу после доклада Google о вычислительной модели MapReduce. Работа над проектом изначально велась силами всего двух разработчиков: Дугом Каттингом и Майком Кафареллом. Предтечей Hadoop был проект Nutch, в котором Дуг Каттинг пытался решить проблему больших данных в сфере поисковых систем, но его архитектура не позволила этого сделать.
Глотком свежего воздуха для Каттинга и послужил доклад об алгоритме MapReduce. В 2006 году его пригласили возглавить команду разработчиков в Yahoo для реализации системы распределенных вычислений, в результате чего и появился проект Hadoop, названный так в честь игрушечного слоненка сынишки Дуга Каттинга. Через два года Hadoop управлял распределенной поисковой системой, развернувшийся на 10 000 процессорных ядрах. Тогда же Hadoop вошел в состав Apache Software Foundation. Основой Hadoop, как и в случае с Google, является распределенная файловая система HDFS и алгоритм распределенных вычислений Hadoop MapReduce [8, c.1].
После явного успеха поисковой системы Yahoo, основанной на Hadoop, технологию стали применять такие компании, как Amazon, Facebook, NewYork Time, Ebay и многие другие. Успех Hadoop был настолько ошеломляющим, что его бросились коммерциализировать как основные, так и новые игроки рынка. Первой золотую жилу начала осваивать компания Cloudera (куда позже перешел Каттинг), за ней подтянулись MapR, IBM, Oracle, EMC, Intel и другие. Yahoo вывела отдел разработки в отдельную компанию Hortonworks, позже писавшую реализацию Hadoop для Microsoft. Решение проблем 3-х литер V сдвинулось с мертвой точки [8, c.1].
2.3 Краткая хронология развития и использования больших данных в эпоху развития интернета1958. Исследователь IBM Ханс Питер Лун определяет бизнес-аналитику как «способность воспринимать взаимосвязь представленных фактов таким образом, чтобы направлять действия к желаемой цели».
1962. Первые шаги предпринимаются в направлении распознавания речи, когда инженер IBM Уильям С. Дерш представляет Shoebox Machine на Всемирной выставке 1962 года. Он может интерпретировать числа и шестнадцать слов, произносимых на английском языке, в цифровую информацию.
1964. В статье в New Statesman говорится о трудностях управления растущим объемом информации, которая становится доступной.
1965. Правительство США планирует пер


Нет нужной работы в каталоге?

Сделайте индивидуальный заказ на нашем сервисе. Там эксперты помогают с учебой без посредников Разместите задание – сайт бесплатно отправит его исполнителя, и они предложат цены.

Цены ниже, чем в агентствах и у конкурентов

Вы работаете с экспертами напрямую. Поэтому стоимость работ приятно вас удивит

Бесплатные доработки и консультации

Исполнитель внесет нужные правки в работу по вашему требованию без доплат. Корректировки в максимально короткие сроки

Гарантируем возврат

Если работа вас не устроит – мы вернем 100% суммы заказа

Техподдержка 7 дней в неделю

Наши менеджеры всегда на связи и оперативно решат любую проблему

Строгий отбор экспертов

К работе допускаются только проверенные специалисты с высшим образованием. Проверяем диплом на оценки «хорошо» и «отлично»

1 000 +
Новых работ ежедневно
computer

Требуются доработки?
Они включены в стоимость работы

Работы выполняют эксперты в своём деле. Они ценят свою репутацию, поэтому результат выполненной работы гарантирован

avatar
Математика
История
Экономика
icon
159599
рейтинг
icon
3275
работ сдано
icon
1404
отзывов
avatar
Математика
Физика
История
icon
156450
рейтинг
icon
6068
работ сдано
icon
2737
отзывов
avatar
Химия
Экономика
Биология
icon
105734
рейтинг
icon
2110
работ сдано
icon
1318
отзывов
avatar
Высшая математика
Информатика
Геодезия
icon
62710
рейтинг
icon
1046
работ сдано
icon
598
отзывов
Отзывы студентов о нашей работе
63 457 оценок star star star star star
среднее 4.9 из 5
Филиал государственного бюджетного образовательного учреждения высшего образования Московской област
Спасибо Елизавете за оперативность. Так как это было важно для нас! Замечаний особых не бы...
star star star star star
РУТ
Огромное спасибо за уважительное отношение к заказчикам, быстроту и качество работы
star star star star star
ТГПУ
спасибо за помощь, работа сделана в срок и без замечаний, в полном объеме!
star star star star star

Последние размещённые задания

Ежедневно эксперты готовы работать над 1000 заданиями. Контролируйте процесс написания работы в режиме онлайн

решить 6 практических

Решение задач, Спортивные сооружения

Срок сдачи к 17 дек.

только что

Задание в microsoft project

Лабораторная, Программирование

Срок сдачи к 14 дек.

только что

Решить две задачи №13 и №23

Решение задач, Теоретические основы электротехники

Срок сдачи к 15 дек.

только что

Решить 4задачи

Решение задач, Прикладная механика

Срок сдачи к 31 дек.

только что

Выполнить 2 задачи

Контрольная, Конституционное право

Срок сдачи к 12 дек.

2 минуты назад

6 заданий

Контрольная, Ветеринарная вирусология и иммунология

Срок сдачи к 6 дек.

4 минуты назад

Требуется разобрать ст. 135 Налогового кодекса по составу напогового...

Решение задач, Налоговое право

Срок сдачи к 5 дек.

4 минуты назад

ТЭД, теории кислот и оснований

Решение задач, Химия

Срок сдачи к 5 дек.

5 минут назад

Решить задание в эксель

Решение задач, Эконометрика

Срок сдачи к 6 дек.

5 минут назад

Нужно проходить тесты на сайте

Тест дистанционно, Детская психология

Срок сдачи к 31 янв.

6 минут назад

Решить 7 лабораторных

Решение задач, визуализация данных в экономике

Срок сдачи к 6 дек.

7 минут назад

Вариационные ряды

Другое, Статистика

Срок сдачи к 9 дек.

8 минут назад

Школьный кабинет химии и его роль в химико-образовательном процессе

Курсовая, Методика преподавания химии

Срок сдачи к 26 дек.

8 минут назад

Вариант 9

Решение задач, Теоретическая механика

Срок сдачи к 7 дек.

8 минут назад

9 задач по тех меху ,к 16:20

Решение задач, Техническая механика

Срок сдачи к 5 дек.

9 минут назад
9 минут назад
10 минут назад
planes planes
Закажи индивидуальную работу за 1 минуту!

Размещенные на сайт контрольные, курсовые и иные категории работ (далее — Работы) и их содержимое предназначены исключительно для ознакомления, без целей коммерческого использования. Все права в отношении Работ и их содержимого принадлежат их законным правообладателям. Любое их использование возможно лишь с согласия законных правообладателей. Администрация сайта не несет ответственности за возможный вред и/или убытки, возникшие в связи с использованием Работ и их содержимого.

«Всё сдал!» — безопасный онлайн-сервис с проверенными экспертами

Используя «Свежую базу РГСР», вы принимаете пользовательское соглашение
и политику обработки персональных данных
Сайт работает по московскому времени:

Вход
Регистрация или
Не нашли, что искали?

Заполните форму и узнайте цену на индивидуальную работу!

Файлы (при наличии)

    это быстро и бесплатно
    Введите ваш e-mail
    Файл с работой придёт вам на почту после оплаты заказа
    Успешно!
    Работа доступна для скачивания 🤗.