Всё сдал! - помощь студентам онлайн Всё сдал! - помощь студентам онлайн

Реальная база готовых
студенческих работ

Узнайте стоимость индивидуальной работы!

Вы нашли то, что искали?

Вы нашли то, что искали?

Да, спасибо!

0%

Нет, пока не нашел

0%

Узнайте стоимость индивидуальной работы

это быстро и бесплатно

Получите скидку

Оформите заказ сейчас и получите скидку 100 руб.!


История возникновения и использования "Больших данных"

Тип Реферат
Предмет Информатика

ID (номер) заказа
1845146

200 руб.

Просмотров
2574
Размер файла
199.04 Кб
Поделиться

Ознакомительный фрагмент работы:

Содержание

Введение 2
Глава 1. Большие данные до эры развития интернета 4
1.1 Древние времена 4
1.2 Большие данные в 17-20 веке 5
1.3 Краткая хронология развития и использования больших данных
до развития интернета 9
Глава 2. Большие данные в эру развития интернета 11
2.1 Современное понятие о больших данных 11
2.2 Большие данные во второй половине 20-ом веке 13
2.2.1 MapReduce 15
2.2.2 Hadoop 17
2.2.3 Краткая хронология развития и использования больших данных
в эпоху развития интернета 18
Глава 3. Большие данные в современном мире 21
3.1 Краткая хронология развития и использования больших данных в
период с 2005 года до наших дней 21
3.2 Использование больших данных в современном мире 22
Заключение 26
Список использованных источников 28

Введение

Термин «большие данные» используется с начала 1990-х годов. Хотя точно не известно, кто впервые использовал этот термин, большинство людей считают Джона Р. Маши (который в то время работал в Silicon Graphics) за то, что он сделал этот термин популярным.
По своей сути, большие данные не являются чем-то совершенно новым. На протяжении веков люди пытались использовать методы анализа данных и аналитики для поддержки процесса принятия решений. Древние египтяне около 300 г. до н.э. уже пытались собрать все существующие «данные» в Александрийской библиотеке. Более того, Римская империя тщательно анализировала статистику своих военных, чтобы определить оптимальное распределение их армий. [4]
Тем не менее, за последние два десятилетия объем и скорость, с которой генерируются данные, изменились – за гранью человеческого понимания. Общий объем данных в мире в 2013 году составил 4,4 зеттабайта. К 2020 году этот показатель резко возрастет до 44 зеттабайта. Для сравнения, 44 зеттабайта эквивалентны 44 триллионам гигабайт. Даже с самыми передовыми технологиями сегодня невозможно проанализировать все эти данные. Необходимость обработки этих все более крупных (и неструктурированных) наборов данных заключается в том, как традиционный анализ данных превратился в «большие данные» за последнее десятилетие.
В последние несколько лет термин «большие данные» стал модным словом в различных отраслях. Созданный еще в 1941 году, «Большие данные» превратился из термина, используемого в специализированных технологических кругах, в мейнстрим еще в 2012 году, отчасти благодаря тому, что был представлен в докладе Всемирного экономического форума под названием «Большие данные, большое влияние».
Ключевым моментом, сделанным в документе, было то, что с учетом того, что множество различных устройств, с которыми мы взаимодействуем каждый день, собирают все большие объемы данных, важно «обеспечить, чтобы эти данные помогали отдельным лицам и сообществам, которые их создают». Кажется, это простой призыв к действию, но большие данные можно использовать для описания наборов данных, таких больших, что традиционные вычислительные системы не могут их обработать. [3]
Понятно, что объединение и анализ таких огромных объемов данных – огромная проблема. Преимущества могут быть такими же существенными, не только для предприятий и их потребителей, но и для государственных организаций, благотворительных организаций и всех, кто находится между ними.
Целью данного реферата является изучение истории возникновения и использования больших данных.
Для достижения поставленной цели, необходимо решить ряд задач:
1. Изучить историю больших данных до эпохи развития интернета.
2. Дать определение термину «Big Data» и определить основные критерии успешной обработки больших данных.
3. Изучить историю больших данных в эпоха развития интернета и привести примеры различных решений.
4. Изучить историю использования больших данных в наше время определить перспективы развития.
Глава 1. Большие данные до эры развития интернета

1.1 Древние времена«Скажи мне, кто твой друг – и я скажу тебе, кто ты». Древнегреческий поэт Еврипид сам того не зная еще до нашей эры предсказал использование big data – больших данных. [9]
История больших данных как термина может быть достаточно новой, но многие основы, на которых благодаря которым работают современные системы, были заложены достаточно давно.
Ещё задолго до того, как компьютеры (какими мы их знаем сегодня) стали обычным явлением, идея о том, что мы создаем постоянно расширяющийся массив знаний, готовый для анализа, была популярна во все времена. [1]
Первые библиотеки Вавилона в 2000-х годах до нашей эры, позднее – библиотеки в Александрии – всё это пример того, как люди в тот или иной момент сталкивались с вопросами хранения большого объема информации и ее консолидации для удобства использования. Проблемы тогда, правда, сводились в основном к тому, чтобы не потерять всю накопленную мудрость при следующем вражеском набеге, как это произошло в Александрии при вторжении римлян, когда большая часть библиотеки была утрачена.
Про какой-либо серьезный анализ в привычном нам контексте в то время говорить не приходилось вплоть до середины XVII века, когда Джон Грант, известный своими работами в области демографической статистики, кроме прочего выпустил труд, описывавший теорию, в которой использование аналитики смертности позволяло предупреждать о начале эпидемии бубонной чумы.
Исходя из аышенаписанного, можно сделать вывод, что человечество сталкивалось с обработкой больших данных ещё с древних времён. Однака данная задача в те времена была тяжело решаема, так как не было средств, позволяющих быстро анализировать накопившуюся информацию.
1.2 Большие данные в 17-20 векеПериод с 17 века до первой половины 20 века был доцифровой эрой, в которой «компьютер» скорее был человеком за столом, делающим подсчёты и расчёты вручную, а не электромеханическим или электронным устройством, но даже эта ранняя инфраструктура подготовила почву для нашей современной ситуации. [10]
Например, в Месопотамии большие данные были использованы для регистрации роста урожая и скотоводства. Принципы продолжали расти и улучшаться, и Джон Граунт в 1663 году записал и проанализировал информацию о уровне смертности в Лондоне. Джон Грант сделал это, чтобы повысить осведомленность о последствиях бубонной чумы, которая продолжалась в то время.
В своей книге «Естественные и политические наблюдения, сделанные на основе счетов о смертности» Джон Грант представил миру первый статистический анализ данных, когда-либо зарегистрированных. Книга дала представление о причинах смерти в Англии семнадцатого века. Благодаря своей работе, Джон Граунт широко известен как пионер в области статистики.
После работ Граунта принципы бухгалтерского учета продолжали совершенствоваться и развиваться, но ничего необычного не происходило до недавнего времени в 20-ом веке, когда началась информационная эра. Отправная точка современных данных начинается в 1889 году, когда Герман Холлерит изобрел вычислительную систему в попытке организовать данные переписи.
В XVIII веке уже произошло быстрое развитие словарей различных видов, в том числе Encyclopédie Дидро 1751 года (на основе Циклопедии Чемберса) и Словаря английского языка Джонсона 1755 года (не первый в своём роде), иллюстрирующих растущую потребность не только собирать, но классифицировать, категоризировать и упорядочивать информацию, чтобы сделать её значимой и полезной. В следующем веке появилось понятие о врождённых правилах и закономерностях в широком спектре явлений, и тогда же начался их поиск – вместе с поисками законов природы.
Эти информационные устройства поддерживались растущим числом и разнообразием формализованных процессов производства и продуктов знания – библиотека, музей, бюро переписей, типографы и издатели с их книгами, газетами, периодическими изданиями, журналами, бюллетенями, бланками и конвертами. Системы каталогизации существовали в течение многих столетий, но в тот период произошло их становление в качестве формализованных систем, начиная от классификации «Руководства книготорговца и любителя книг» Жака Шарля Брюне (1810) до Десятичной классификации Мелвила Дьюи (1876 г.). Хранение и извлечение также стало проблемой, что приводит к развитию библиотечной науки, архивных стратегий управления и механических систем обработки.
В 1865 году профессор Ричард Миллер Девинс (Richard Millar Devens) впервые ввел в обиход термин Business Intelligence, использовав его в своей книге Cyclopedia of Commercial and Business Anecdotes, где кроме прочего рассказал Генри Фернезе, который пришёл к успеху благодаря структурированию и анализу информации о деловой активности.
В контексте колониальной администрации и научного поиска сбор данных стал центральным понятием, которое продолжает оставаться релевантным по отношению к производству современных знаний в нескольких дисциплинах и областях практики (например, ботанике, геологии, антропологии). Развитие обществ и ассоциаций в качестве форумов для выявления, изучения и формализации новых и расширения областей знаний также набирает обороты. Конвергенция этой совокупности фукольдианских концептов, категорий и практик ускорила производство данных в викторианский период.
С увеличением количества данных, которые люди стали использовать в различных сферах своей деятельности, возникало все больше проблем с их обработкой и анализом. Так, перед переписью 1880 года американское бюро, занимавшееся переписью населения, столкнулось с трудностью и объявило, что с современными подходами к работе с данными произвести подсчет они смогут лишь за 8 лет, а при следующей переписи в 1890 году, ввиду увеличения численности населения и постоянной миграции, дать точные результаты удастся не раньше, чем через 10 лет, когда они уже полностью устареют. Получалась ситуация, когда к моменту следующего сбора данных не будут еще полностью проанализированы результаты прошлой переписи, что полностью обесценивает эту информацию и ставит само существование бюро под сомнение.
На помощь пришел инженер по имени Герман Холлерит (Herman Hollerith), который в 1881 году создал устройство (табулятор), которое, оперируя перфокартами, сокращало 10-летний труд до 3 месяцев. Воодушевленный успехом Холлерит создал компанию TMC, специализирующуюся на создании табулирующих машин. Позже ее купила компания C-T-R, которая в 1924 году была переименована в IBM.
Дальнейший рост информации и проблемы, встававшие перед нашими предшественниками, всегда сводились в равной степени к вопросам хранения и скорости обработки этих данных.
После вклада Германа Холлерита следующий заслуживающий внимания скачок в разработке данных произошел в 1937 году при президентской администрации Франклина Д. Рузвельта в США. После того, как конгресс США принял Закон о социальном обеспечении, правительство должно было следить за миллионами американцев. Правительство заключило контракт с IBM на разработку системы чтения перфокарт, которая будет применяться в этом обширном проекте данных.
Однако самая первая машина для обработки данных была названа «Колосс» и была разработана британцами для расшифровки нацистских кодов во Второй мировой войне 1943 года. Эта машина работала путем поиска любых шаблонов, которые будут регулярно появляться в перехваченных сообщениях. Машина работала с рекордной скоростью в пять тысяч символов в секунду, что сократило объем работы, которая может занять несколько недель до нескольких часов.
Во время Второй мировой войны необходимость в быстром анализе данных послужила созданию ряда компьютеров, позволяющих дешифровать сообщения неприятеля. Так, в 1943 году британские ученые создали машину Colossus, которая ускорила расшифровку сообщений с нескольких недель до нескольких часов. Как таковой личной памяти у «Колосса» не было, поэтому данные подавались через перфорированное колесо. Трудно представить сейчас, сколько жизней спас этот, по нашим меркам, допотопный компьютер с производительностью около 6 мегагерц и как изменился бы ход истории, если не существовало бы проблем со скоростью обработки информации.
Но скорость анализа не единственный вопрос, которым были озадачены наши предшественники в середине XX века. В 1944 году библиотекарь Фремонт Райдер (Fremont Rider) выпустил труд The Scholar and the Future of the Research Library, в котором он проанализировал, что с существующим ростом выпускаемых работ библиотеки должны удваивать свою вместительность каждые 16 лет. Это приведет к тому, что, к примеру, Йельская библиотека к 2040 году должна будет состоять из 6000 миль (около 10000 км) полок.
В качестве вывода, можно сказать, что, не обращая на некоторые разговоры о датах, существует общее мнение, что период с 17 века до первой половины 20 века был временем, когда накопление, анализ и создание различных форм информации росли со скоростью, с которй человечество ещё не сталкивалось.
1.3 Краткая хронология развития и использования больших данных до развития интернетаС 18000 г. до н.э. Самыми ранними примерами хранения и анализа данных людьми являются контрольные палочки. Кость Ишанго была обнаружена в 1960 году в нынешней Уганде и считается одним из самых ранних свидетельств доисторического хранения данных. Палеолитические племена отмечали бы надрезы на палках или костях, чтобы отслеживать торговую деятельность или поставки. Они будут сравнивать палки и вырезы для выполнения элементарных вычислений, позволяя им делать прогнозы, например, как долго продержатся их запасы продовольствия. [6]
C 2400 до н.э. Абакус – первое специальное устройство, созданное специально для выполнения расчетов, начинает использоваться в Вавилоне. Примерно в это же время появились первые библиотеки, представляющие наши первые попытки массового хранения данных.
300 г. до н.э. - 48 г. н.э. – Александрийская библиотека является, пожалуй, самой большой коллекцией данных в древнем мире, в которой хранится до полумиллиона свитков и охватывают все, что мы узнали до сих пор, почти все. К сожалению, в 48 году он, как полагают, был разрушен вторгающимися римлянами, возможно, случайно. Вопреки распространенному мифу, не все было потеряно - значительная часть фондов библиотеки была перенесена в другие здания города или украдена и разбросана по всему древнему миру.
C 100 - 200 г. н.э. Antikythera механизм, самый ранний обнаружили механический компьютер, производятся, предположительно греческими учеными. Его «процессор» состоит из 30 взаимосвязанных бронзовых передач, и, как полагают, он был разработан для астрологических целей и отслеживания цикла Олимпийских игр. Его дизайн предполагает, что это, вероятно, эволюция более раннего устройства, но они до сих пор остаются неоткрытыми. [6]
1663. В Лондоне Джон Граунт проводит первый зарегистрированный эксперимент по статистическому анализу данных. Записав информацию о смертности, он предположил, что может разработать систему раннего предупреждения для бубонной чумы, разоряющей Европу.
1865. Термин «бизнес-аналитика» используется Ричардом Милларом Девенсом в его «Энциклопедии коммерческих и деловых анекдотов», описывающих, как банкир Генри Фурнезе добился преимущества перед конкурентами, структурируя сбор и анализ информации, относящейся к его бизнес-деятельности. Считается, что это первое исследование бизнеса, в котором анализ данных используется для коммерческих целей.
1880. У Бюро переписей США есть проблема – по его оценкам, потребуется 8 лет, чтобы собрать все данные, собранные в ходе переписи 1880 года, и прогнозируется, что данные, полученные в результате переписи 1890 года, займут более 10 лет, то есть даже будьте готовы смотреть, пока это не устарело переписью 1900 года. В 1881 году молодой инженер, работающий в бюро, Герман Холлерит производит то, что станет известным как табуляционная машина Холлерита. Используя перфокарты, он сокращает 10-летнюю работу до трех месяцев и достигает своего места в истории как отец современных автоматизированных вычислений. Компания, которую он основал, станет известной как IBM.
1926. В интервью журналу Colliers изобретатель Никола Тесла утверждает, что, когда беспроводные технологии «идеально применяются», вся Земля превращается в огромный мозг, который на самом деле представляет собой частицы реального и ритмичного целого… и инструменты, с помощью которых мы сможем сделать это будет удивительно просто по сравнению с нашим нынешним телефоном. Мужчина сможет носить его в кармане жилета.
1928. Фриц Пфлюмер, немецко-австрийский инженер, изобретает метод магнитного хранения информации на ленте. Принципы, которые он разрабатывает, все еще используются сегодня, так как подавляющее большинство цифровых данных хранятся на магнитных дисках компьютера.
Глава 2. Большие данные в эру развития интернета2.1 Современное понятие о больших данныхПеред тем как вплотную подойти к вопросу о Больших Данных, технологиях и областях применения, необходимо сделать ремарку и подготовить почву для обсуждения самого вопроса.
6 февраля 2001 года Дуг Лейни (Doug Laney) из Meta Group (входит в состав Gartner) издал документ, описывающий основные проблемные зоны, связанные с повышенными требованиями к центральным хранилищам данных на фоне бурного роста e-commerce, а также делающий прогноз на изменение стратегии IT-компаний в отношении подходов к построению архитектуры решений, связанных с хранением и обработкой информации.
Было выделено три важнейших направления, на которых стоит сосредоточиться для решения вопросов управления данными: Volume (объём данных), Velocity (скорость обработки) и Variety (структурированность данных). Позже эти понятия стали основой для описательной модели Больших Данных под названием 3V (VVV).
Нужно учесть, что эти аспекты обсуждались без отсылки к понятию Больших Данных, концепцию которых начали применять чуть позже, но эти параметры как никакие другие описали основные принципы того, что мы с вами называем Big Data.
Количество данных (Volume) имеет значение. С большими данными придется обрабатывать большие объемы неструктурированных данных с низкой плотностью. Это могут быть данные неизвестного значения, такие как каналы данных Twitter, потоки кликов на веб-странице или в мобильном приложении, или оборудование с поддержкой датчиков. Для некоторых организаций это могут быть десятки терабайт данных. Для других это могут быть сотни петабайт. [8]
Скорость (Velocity) – это требование, согласно которому, обработка данных должна происходить с высокой скоростью. Обычно самая высокая скорость потоков данных достигается благодаря помещению данных в оперативную память по сравнению с записью на диск. Некоторые интеллектуальные продукты с поддержкой Интернета работают в режиме реального времени или почти в реальном времени и требуют обработки и анализа в реальном времени. В качестве примера, можно привести данные включающие в себя уровень содержания вредных веществ, сейсмические показания и прочую информацию, способную указать на вероятность обрушения, утечку газа или иные катастрофические последствия, возможные в конкретно взятой шахте. А теперь представьте себе, что поступившие данные в силу тех или иных причин были обработаны за 2 часа вместо, скажем, 10 минут и результатом обработки была информация о высоком риске обрушения, которое случилось во время анализа этой информации и поэтому превентивные меры не были приняты.
Структурированность (Variety) относится ко многим типам данных, которые обрабатываются. Традиционные типы данных были структурированы и аккуратно помещались в реляционную базу данных. С ростом больших данных данные приходят в новые неструктурированные типы данных. Неструктурированные и полуструктурированные типы данных, такие как текст, аудио и видео, требуют дополнительной предварительной обработки для получения значения и поддержки метаданных.
На основании изложенного в данном параграфе материала сделаемв выводы:
1. Наличие большого объёма данных совершенно не значит, что система решает задачу больших данных.
2. Большое внимание следует уделять скорости обработки данных, в противном случае можно обесценить их и передать на анализ уже неправильные данные или в качестве результата предоставить неактуальную информацию.
3. Важно уметь обрабатывать и находить взаимосвязи в нестурктурированных данных, так как они представляют большую часть всех полезных обрабатываемых данных.
4. Система должна быть хорошо масштабируемой на уровне логики, иначе мы не сможем обрабатывать большие объёмы поступающей информации.
Получается, что Big Data – это горизонтально масштабируемая система, использующая набор методик и технологий, позволяющих обрабатывать структурированную и неструктурированную информацию и строить связи, необходимые для получения однозначно интерпретируемых человеком данных, не успевших потерять актуальность, и несущая ценность преследуемых им целей.
2.2 Большие данные во второй половине 20-ом векеНачиная с 1950-х годов, наряду с все увеличивающейся потребностью в хранении и обработке информации, начался бурный рост технологий ее хранения, начали появляться центры обработки данных. Люди из разных отраслей деятельности стали приходить к пониманию, что их преимущества так или иначе будут зависеть от умения хранить и анализировать информацию, а также от скорости этого анализа и полученной от него ценностью.
Самая первая машина для обработки данных была названа «Колосс» и была разработана британцами для расшифровки нацистских кодов во Второй мировой войне 1943 года. Эта машина работала путем поиска любых шаблонов, которые будут регулярно появляться в перехваченных сообщениях. Машина работала с рекордной скоростью в пять тысяч символов в секунду, что сократило объем работы, которая может занять несколько недель до нескольких часов.
Исходя из этого, в 1952 году в Соединенных Штатах было создано Агентство национальной безопасности (АНБ). Перед сотрудниками АНБ была поставлена ​​задача расшифровки полученных сообщений в ходе холодной войны. На этом этапе разработка машин достигла уровня, на котором машины могут самостоятельно и автоматически собирать, и обрабатывать информацию.
Первый дата-центр был построен правительством США в 1965 году с целью хранения миллионов налоговых деклараций и отпечатков пальцев. Это было достигнуто путем переноса каждой записи на магнитные ленты, которые должны были систематически храниться в центральном месте. Этот проект, однако, не сохранился из-за боязни саботажа или приобретения. Тем не менее, общепризнанно, что эта инициатива была отправной точкой большого электронного хранилища.
Тим Бернерс-Ли, британский компьютерный ученый, изобрел Всемирную паутину в 1989 году. Намерение Бернерс-Ли состояло в том, чтобы обеспечить обмен информацией через гипертекстовую систему. Он понятия не имел, какое влияние его изобретение окажет на мир. Когда мы вступили в 1990-е годы, создание данных росло очень быстрыми темпами, поскольку все больше устройств получали доступ к Интернету. [5]
В 1990-е годы наблюдался невероятный рост интернета, и персональные компьютеры становились все более мощными и гибкими. Рост интернета основывался как на усилиях Тима Бернерса-Ли, так и на бесплатном доступе Cern, а также на доступе к отдельным персональным компьютерам. [11]
Первый суперкомпьютер был построен в 1995 году. Этот компьютер был способен справляться с работой, на которую одному человеку понадобилось бы тысячи лет за считанные секунды.
Наступил 21-ый век. Именно тогда Роджер Мугалас впервые представил миру термин «большие данные».
В течение этого периода социальные сети быстро росли, и ежедневно создавалось большое количество данных. Компании и правительства начали создавать проекты больших данных. Например, в 2009 году в крупнейшей биометрической базе данных, когда-либо созданной, правительство Индии хранило отпечатки пальцев и радужную оболочку всех своих граждан.
Эрик Шмидт выступил с речью на конференции Techonomy в Лейк-Тахо, штат Калифорния, в 2010 году. В своем выступлении он представил, что с начала времен до 2003 года хранилось 5 эксабайт данных. Эрик Шмидт, возможно, не мог себе представить, что В 2016 году один и тот же объем данных обычно создается каждые два дня. Скорость роста больших данных, похоже, тоже не замедляется. [5]
За последние несколько лет были различные организации, которые пытались работать с большими данными, например, HCL. Бизнес этих организаций помогает другим предприятиям понимать большие данные. Каждый день все больше и больше предприятий стремятся к принятию и использованию больших данных.
Хотя кажется, что большие данные существуют уже давно и что мы приближаемся к вершине, большие данные могут быть просто на огромной стадии. Большие данные в ближайшем будущем могут привести к тому, что большие данные теперь будут выглядеть как количество птицы.
2.2.1 MapReduceВ 2004 году корпорация Google в лице Джеффри Дина и Санжая Гемавата представила миру на удивление простой, но невероятно действенный подход к обработке огромного количества информации. По сути, данный алгоритм позволял работать с неограниченным объемом данных при условии возможности наращивания новых кластерных нод пропорционально увеличению количества обрабатываемой информации. [2]
Как можно понять из названия, алгоритм сводился к разбиению процесса обработки на две простые функции – Map и Reduce, причем единую задачу мы можем разбить на бесконечно большое количество малых подзадач, которые будут выполняться параллельно друг с другом, а потом просто сложить полученный результат. Каждую часть одной большой задачи можно отдать на обработку одному из узлов единого кластера и все, что нам останется при увеличении объемов информации, – это расширить кластер до необходимых нашей задаче размеров.
Эта технология стала отправной точкой для создания систем, работающих с Большими Данными и стала чем-то вроде стандарта de facto при разработке решений в области Big Data. Такой подход помог компании Google повысить эффективность своего поискового ресурса и распараллеливать линейные задачи при работе с петабайтами данных. На своей заре MapReduce использовался Google как средство оптимизации индексирования данных для поисковых запросов. [2]
Но как хранить эти данные, а главное – как их быстро находить и обращаться к ним, если они размещены на тысячи серверов?
Для этих целей Google использовал свою же разработку – распределенную файловую систему GFS (Google File System), которая в качестве единицы хранения использовала так называемые чанки, имеющие определенный размер и несущие в себе информацию. Все серверы, входящие в кластер GFS, можно представить как один большой жесткий диск, в отличие от которого, информация о расположении того или иного блока данных (чанка) хранится на отдельных мастер-серверах, постоянно держащих в оперативной памяти метаданные, что позволяет оперативно обращаться именно к нужной части кластера. Для достижения избыточности копия одного чанка хранится на нескольких серверах, а мастер-сервер рассылает снимки своей оперативной памяти на подчиненные серверы, в любой момент готовые развернуть снимок в своем пространстве и перехватить роль мастера.
Такой подход дал быстрый старт развитию технологий, связанных с большими данными. После поисковых систем эстафету стали перенимать социальные сети, интернет вещей, банковский и научно-исследовательский сектор, а также все сферы бизнеса, в которых внедрение технологий Big Data давало ощутимые преимущества над конкурентами.
2.2.2 HadoopКак мы упомянули выше, разработанная Google концепция быстро подстегнула интерес сообщества к распределенному хранению и анализу информации.
Несмотря на то что Google не раскрыла никакой точной информации о работе своих технологий, вскоре стали появляться аналогичные реализации данного подхода, и главной из них, без сомнения, является Hadoop, разработка которого началась практически сразу после доклада Google о вычислительной модели MapReduce. Работа над проектом изначально велась силами всего двух разработчиков: Дугом Каттингом и Майком Кафареллом. Предтечей Hadoop был проект Nutch, в котором Дуг Каттинг пытался решить проблему больших данных в сфере поисковых систем, но его архитектура не позволила этого сделать.
Глотком свежего воздуха для Каттинга и послужил доклад об алгоритме MapReduce. В 2006 году его пригласили возглавить команду разработчиков в Yahoo для реализации системы распределенных вычислений, в результате чего и появился проект Hadoop, названный так в честь игрушечного слоненка сынишки Дуга Каттинга. Через два года Hadoop управлял распределенной поисковой системой, развернувшийся на 10 000 процессорных ядрах. Тогда же Hadoop вошел в состав Apache Software Foundation. Основой Hadoop, как и в случае с Google, является распределенная файловая система HDFS и алгоритм распределенных вычислений Hadoop MapReduce.
После явного успеха поисковой системы Yahoo, основанной на Hadoop, технологию стали применять такие компании, как Amazon, Facebook, NewYork Time, Ebay и многие другие. Успех Hadoop был настолько ошеломляющим, что его бросились коммерциализировать как основные, так и новые игроки рынка. Первой золотую жилу начала осваивать компания Cloudera (куда позже перешел Каттинг), за ней подтянулись MapR, IBM, Oracle, EMC, Intel и другие. Yahoo вывела отдел разработки в отдельную компанию Hortonworks, позже писавшую реализацию Hadoop для Microsoft. Решение проблем литеры V сдвинулось с мертвой точки.
В качестве вывода, можно сказать, что в эпоху развития интернета, количество обрабатываемых данных заметно возросло. Человек уже не мог самостоятельно (без использования машин) анализировать такой большой объём данных.
В данную эпоху появились подходы к обработке больших данных такие как MapReduce и Hadoop дали быстрый старт развитию технологий, связанных с большими данными. После поисковых систем инициативу стали подхватывать социальные сети, интернет магазины, банковский и научно-исследовательский сектор, а также все сферы бизнеса, в которых внедрение технологий Big Data давало ощутимые преимущества над конкурентами.
2.2.3 Краткая хронология развития и использования больших данных в эпоху развития интернета1958. Исследователь IBM Ханс Питер Лун определяет бизнес-аналитику как «способность воспринимать взаимосвязь представленных фактов таким образом, чтобы направлять действия к желаемой цели».
1962. Первые шаги предпринимаются в направлении распознавания речи, когда инженер IBM Уильям С. Дерш представляет Shoebox Machine на Всемирной выставке 1962 года. Он может интерпретировать числа и шестнадцать слов, произносимых на английском языке, в цифровую информацию.
1964. В статье в New Statesman говорится о трудностях управления растущим объемом информации, которая становится доступной.
1965. Правительство США планирует первый в мире центр обработки данных, который будет хранить 742 миллиона налоговых деклараций и 175 миллионов наборов отпечатков пальцев на магнитной ленте. [6]
1970. Математик IBM Эдгар Ф. Кодд представляет свою основу для «реляционной базы данных». Модель обеспечивает структуру, которую сегодня используют многие современные службы данных, для хранения информации в иерархическом формате, к которому может обратиться любой, кто знает, что они ищут. До этого для доступа к данным из банков памяти компьютера обычно требовался специалист.
1976. Системы планирования потребностей в материалах (MRP) все чаще используются в деловом мире, представляя собой одно из первых основных коммерческих применений компьютеров для ускорения повседневных процессов и повышения эффективности. До сих пор большинство людей, вероятно, видели их только в исследованиях и разработках или в академической среде.
1989. Возможно, первое использование термина Большие данные (без заглавных букв) в том виде, в каком они используются сегодня. Международный автор бестселлеров Эрик Ларсон пишет статью для журнала Harpers, рассуждая о происхождении нежелательной почты, которую он получает. Он пишет: «Хранители больших данных говорят, что делают это для пользы потребителя. Но данные могут быть использованы для целей, изначально предназначенных».
1991. Информатик Тим Бернерс-Ли объявил о рождении того, что станет Интернетом, каким мы его знаем сегодня. В сообщении в группе Usenet alt.hypertext он излагает спецификации для всемирной, взаимосвязанной сети данных, доступной любому человеку из любой точки мира.
1996. Согласно RJT Morris и BJ Truskowski в их книге 2003 года «Эволюция систем хранения», именно в этот момент цифровое хранилище стало более рентабельным, чем бумага.
1997. Майкл Леск публикует свою статью «Сколько информации в мире?» Теоретически, существование 12 000 петабайт является «возможно, не безосновательной догадкой». Он также отмечает, что даже на этом раннем этапе своего развития сеть ежегодно увеличивается в 10 раз. Он подчеркивает, что большая часть этих данных никогда не будет никем видна и поэтому не даст никакого понимания.
1999. Спустя пару лет термин «Большие данные» появляется в «Визуальном изучении наборов гигабайтных данных в реальном времени», опубликованном Ассоциацией вычислительной техники. Опять же, склонность к хранению больших объемов данных без возможности адекватного их анализа оплакивается. Далее в статье цитируется пионер вычислительной техники Ричард В. Хэмминг: «Цель вычислений - понимание, а не цифры».
2000. В Сколько информации? Питер Лайман и Хэл Вариан (ныне главный экономист Google) впервые попытались количественно оценить объем цифровой информации в мире и темпы ее роста. Они пришли к выводу: «Общее мировое производство печатного, пленочного, оптического и магнитного контента в мире потребует примерно 1,5 миллиарда гигабайт памяти. Это эквивалентно 250 мегабайтам на человека на каждого мужчину, женщину и ребенка на Земле».
2001. своей статье «Управление трехмерными данными: управление объемом, скоростью и разнообразием данных» Дуг Лейни, аналитик Gartner, определяет три из того, что станет характеристиками больших данных. [6]
2005. Комментаторы сообщают, что мы являемся свидетелями рождения «Web 2.0» – сети, созданной пользователями, где большая часть контента будет предоставляться пользователями услуг, а не самими поставщиками услуг. Это достигается за счет интеграции традиционных веб-страниц в стиле HTML с обширными внутренними базами данных, основанными на SQL. 5,5 миллиона человек уже используют Facebook, запущенный годом ранее, чтобы загружать и делиться своими данными с друзьями.
Глава 3. Большие данные в современном мире3.1 Краткая хронология развития и использования больших данных в период с 2005 года до наших дней2007. Wired представляет концепцию Больших Данных в массы своей статьей Конец Теории: Поток данных делает научную модель устаревшей. [6]
2008. Согласно данным «Сколько информации», мировые серверы обрабатывают 9,57 зетабайта (9,57 триллионов гигабайт) информации, что эквивалентно 12 гигабайтам информации на человека в день). Отчет за 2010 год. По оценкам, в международном производстве и распространении информации в этом году было произведено 14,7 эксабайт новой информации.
2009. Средняя американская компания со штатом более 1000 человек хранит более 200 терабайт данных в соответствии с отчетом «Большие данные: следующий рубеж для инноваций, конкуренции и производительности», подготовленный McKinsey Global Institute.
2010. Эрик Шмидт, исполнительный председатель Google, говорит на конференции, что каждые два дня создается столько данных, сколько было создано с начала человеческой цивилизации до 2003 года. [6]
2011. В отчете McKinsey говорится, что к 2018 году США столкнутся с нехваткой от 140 000 до 190 000 профессиональных ученых-данных, и говорится, что проблемы, включая конфиденциальность, безопасность и интеллектуальную собственность, должны быть решены до того, как будет реализована полная ценность больших данных.
2014. Рост мобильных машин, как и в первый раз, все больше людей используют мобильные устройства для доступа к цифровым данным, чем офисных или домашних компьютеров. 88% руководителей предприятий, опрошенных GE, работающих с Accenture, сообщают, что анализ больших данных является главным приоритетом для их бизнеса.
В качестве вывода, можно сказать, что этап с 2005 г


Нет нужной работы в каталоге?

Сделайте индивидуальный заказ на нашем сервисе. Там эксперты помогают с учебой без посредников Разместите задание – сайт бесплатно отправит его исполнителя, и они предложат цены.

Цены ниже, чем в агентствах и у конкурентов

Вы работаете с экспертами напрямую. Поэтому стоимость работ приятно вас удивит

Бесплатные доработки и консультации

Исполнитель внесет нужные правки в работу по вашему требованию без доплат. Корректировки в максимально короткие сроки

Гарантируем возврат

Если работа вас не устроит – мы вернем 100% суммы заказа

Техподдержка 7 дней в неделю

Наши менеджеры всегда на связи и оперативно решат любую проблему

Строгий отбор экспертов

К работе допускаются только проверенные специалисты с высшим образованием. Проверяем диплом на оценки «хорошо» и «отлично»

1 000 +
Новых работ ежедневно
computer

Требуются доработки?
Они включены в стоимость работы

Работы выполняют эксперты в своём деле. Они ценят свою репутацию, поэтому результат выполненной работы гарантирован

avatar
Математика
История
Экономика
icon
159599
рейтинг
icon
3275
работ сдано
icon
1404
отзывов
avatar
Математика
Физика
История
icon
156450
рейтинг
icon
6068
работ сдано
icon
2737
отзывов
avatar
Химия
Экономика
Биология
icon
105734
рейтинг
icon
2110
работ сдано
icon
1318
отзывов
avatar
Высшая математика
Информатика
Геодезия
icon
62710
рейтинг
icon
1046
работ сдано
icon
598
отзывов
Отзывы студентов о нашей работе
63 457 оценок star star star star star
среднее 4.9 из 5
Филиал государственного бюджетного образовательного учреждения высшего образования Московской област
Спасибо Елизавете за оперативность. Так как это было важно для нас! Замечаний особых не бы...
star star star star star
РУТ
Огромное спасибо за уважительное отношение к заказчикам, быстроту и качество работы
star star star star star
ТГПУ
спасибо за помощь, работа сделана в срок и без замечаний, в полном объеме!
star star star star star

Последние размещённые задания

Ежедневно эксперты готовы работать над 1000 заданиями. Контролируйте процесс написания работы в режиме онлайн

Решить задачи по математике

Решение задач, Математика

Срок сдачи к 14 дек.

только что

Чертеж в компасе

Чертеж, Инженерная графика

Срок сдачи к 5 дек.

только что

Выполнить курсовой по Транспортной логистике. С-07082

Курсовая, Транспортная логистика

Срок сдачи к 14 дек.

1 минуту назад

Сократить документ в 3 раза

Другое, Информатика и программирование

Срок сдачи к 7 дек.

2 минуты назад

Сделать задание

Доклад, Стратегическое планирование

Срок сдачи к 11 дек.

2 минуты назад

Понятия и виды пенсии в РФ

Диплом, -

Срок сдачи к 20 янв.

3 минуты назад

Сделать презентацию

Презентация, ОМЗ

Срок сдачи к 12 дек.

3 минуты назад

Некоторые вопросы к экзамену

Ответы на билеты, Школа Здоровья

Срок сдачи к 8 дек.

5 минут назад

Приложения AVA для людей с наступающим слуха

Доклад, ИКТ

Срок сдачи к 7 дек.

5 минут назад

Роль волонтеров в мероприятиях туристской направленности

Курсовая, Координация работы служб туризма и гостеприимства

Срок сдачи к 13 дек.

5 минут назад

Контрольная работа

Контрольная, Технологическое оборудование автоматизированного производства, теория автоматического управления

Срок сдачи к 30 дек.

5 минут назад
6 минут назад

Линейная алгебра

Контрольная, Математика

Срок сдачи к 15 дек.

6 минут назад

Решить 5 кейсов бизнес-задач

Отчет по практике, Предпринимательство

Срок сдачи к 11 дек.

7 минут назад

Решить одну задачу

Решение задач, Начертательная геометрия

Срок сдачи к 7 дек.

9 минут назад

Решить 1 задачу

Решение задач, Начертательная геометрия

Срок сдачи к 7 дек.

10 минут назад

Выполнить научную статью. Юриспруденция. С-07083

Статья, Юриспруденция

Срок сдачи к 11 дек.

11 минут назад

написать доклад на тему: Процесс планирования персонала проекта.

Доклад, Управение проектами

Срок сдачи к 13 дек.

11 минут назад
planes planes
Закажи индивидуальную работу за 1 минуту!

Размещенные на сайт контрольные, курсовые и иные категории работ (далее — Работы) и их содержимое предназначены исключительно для ознакомления, без целей коммерческого использования. Все права в отношении Работ и их содержимого принадлежат их законным правообладателям. Любое их использование возможно лишь с согласия законных правообладателей. Администрация сайта не несет ответственности за возможный вред и/или убытки, возникшие в связи с использованием Работ и их содержимого.

«Всё сдал!» — безопасный онлайн-сервис с проверенными экспертами

Используя «Свежую базу РГСР», вы принимаете пользовательское соглашение
и политику обработки персональных данных
Сайт работает по московскому времени:

Вход
Регистрация или
Не нашли, что искали?

Заполните форму и узнайте цену на индивидуальную работу!

Файлы (при наличии)

    это быстро и бесплатно
    Введите ваш e-mail
    Файл с работой придёт вам на почту после оплаты заказа
    Успешно!
    Работа доступна для скачивания 🤗.