obartunov: (Default)
В журнале "Суперкомпьютеры" опубликовали две статьи:

Олег Бартунов (ГАИШ МГУ), Павел Велихов (НИИСИ РАН),
"Научные вызовы технологиям СУБД", Суперкомпьютеры, 1(5), стр.28, 2011
Online version


Олег Бартунов (ГАИШ МГУ), Павел Велихов (НИИСИ РАН), Роман Симаков (НИИСИ), Константин Книжник (НИИСИ РАН), Артем Смирнов (Муромский Институт)
"SciDB – новая СУБД для больших объемов научных данных",
Online version

Работаю еще над двумя статьями - про SciDb для Открытых Систем и про "Big Data" для Суперкомпьютеров. Интересно, что из Суперкомпьютеров прислали запрос на счет, куда пересылать гонорар. На это я не рассчитывал, писал исключительно для образования суперкомпьютерщиков, так что это приятный факт.
obartunov: (Default)
В журнале "Суперкомпьютеры" опубликовали две статьи:

Олег Бартунов (ГАИШ МГУ), Павел Велихов (НИИСИ РАН),
"Научные вызовы технологиям СУБД", Суперкомпьютеры, 1(5), стр.28, 2011
Online version


Олег Бартунов (ГАИШ МГУ), Павел Велихов (НИИСИ РАН), Роман Симаков (НИИСИ), Константин Книжник (НИИСИ РАН), Артем Смирнов (Муромский Институт)
"SciDB – новая СУБД для больших объемов научных данных",
Online version

Работаю еще над двумя статьями - про SciDb для Открытых Систем и про "Big Data" для Суперкомпьютеров. Интересно, что из Суперкомпьютеров прислали запрос на счет, куда пересылать гонорар. На это я не рассчитывал, писал исключительно для образования суперкомпьютерщиков, так что это приятный факт.
obartunov: (Default)
Появилась идея для генерации исторических данных использовать генератор, чтобы не ждать историков. Скажем, взять игру Жизнь, вставить туда код для выдачи дат, ввести имена, виды взаимодействий, неточности и получить базу для работы. Гугление ничего хорошего не дало, может кто знает опен-сорсную цивилизацию ?
obartunov: (Default)
Появилась идея для генерации исторических данных использовать генератор, чтобы не ждать историков. Скажем, взять игру Жизнь, вставить туда код для выдачи дат, ввести имена, виды взаимодействий, неточности и получить базу для работы. Гугление ничего хорошего не дало, может кто знает опен-сорсную цивилизацию ?
obartunov: (Default)
Может кто сталкивался с проблемой работы хранения и работой исторических дат в базах данных ? В связи с историческим проектом встала необходимость работы с
* точными датами
* неполными датами
* неопределенными датами

Вот пример из одной презентации некоторых ситуаций.



Понятно, что надо будет еще работать с интервалами. Чистая Алгебра Аллена сюда не подходит.
Начал гуглить, пока ничего утешительного (готового) не нашел, разве что потихоньку стал скатываться к мысли, что базовыми типом является именно интервал. Вообщем, историческая дата должна иметь грануляцию и ошибку.
obartunov: (Default)
Может кто сталкивался с проблемой работы хранения и работой исторических дат в базах данных ? В связи с историческим проектом встала необходимость работы с
* точными датами
* неполными датами
* неопределенными датами

Вот пример из одной презентации некоторых ситуаций.



Понятно, что надо будет еще работать с интервалами. Чистая Алгебра Аллена сюда не подходит.
Начал гуглить, пока ничего утешительного (готового) не нашел, разве что потихоньку стал скатываться к мысли, что базовыми типом является именно интервал. Вообщем, историческая дата должна иметь грануляцию и ошибку.
obartunov: (Default)
Сенсоры LHC регистрируют столкновения, которые записываются на хранители. Поток такой, что требуется записывать 1 петабайт каждую секунду, что пока практически невозможно. Решение достигнуто ценою выбрасывания неинтересных столкновений, скажем, столкновения уже известных частиц "никому не интересны". Это позволило снизить поток информации до 1 гигабайта в секунду (ссылка 1, ссылка 2, ссылка 3). Фильтрацию в онлайне осуществляют 2000 процессоров.

Таким образом, вполне может оказаться, что фильтрация реализована с ошибкой и наука пропустила много невоспроизводимых данных. В астрономии, такое невозможно по определению - каждое наблюдение имеют ценность для человечества и не может быть выкинуто даже ради сжатия данных. С другой стороны, планирующийся проект нашего института "Лира" предполагает аналогичную компрессию, а именно, в онлайне определяются границы областей вокруг точечных и протяженных объектов, которые собственно и спасаются, а все остальное уничтожается (считаются различные агрегаты перед уничтожением). Миша Прохоров сказал мне, что таким образом достигается компрессия чуть ли не в 100 раз, т.е. на передать на Землю потребуется в 100 раз меньще DVD.
obartunov: (Default)
Сенсоры LHC регистрируют столкновения, которые записываются на хранители. Поток такой, что требуется записывать 1 петабайт каждую секунду, что пока практически невозможно. Решение достигнуто ценою выбрасывания неинтересных столкновений, скажем, столкновения уже известных частиц "никому не интересны". Это позволило снизить поток информации до 1 гигабайта в секунду (ссылка 1, ссылка 2, ссылка 3). Фильтрацию в онлайне осуществляют 2000 процессоров.

Таким образом, вполне может оказаться, что фильтрация реализована с ошибкой и наука пропустила много невоспроизводимых данных. В астрономии, такое невозможно по определению - каждое наблюдение имеют ценность для человечества и не может быть выкинуто даже ради сжатия данных. С другой стороны, планирующийся проект нашего института "Лира" предполагает аналогичную компрессию, а именно, в онлайне определяются границы областей вокруг точечных и протяженных объектов, которые собственно и спасаются, а все остальное уничтожается (считаются различные агрегаты перед уничтожением). Миша Прохоров сказал мне, что таким образом достигается компрессия чуть ли не в 100 раз, т.е. на передать на Землю потребуется в 100 раз меньще DVD.
obartunov: (Default)
В связи с климатгейтом нашел интересную ссылку про бардак в обработке данных, программисты поймут. Показательный пример необходимости базы данных для хранения сырых данных, для непосредственной работы с сырыми данными, для воспроизведения научных результатов.

А вот здесь рассказывается, что сами сырые данные были несколько изменены !




"One thing is clear from this. People who say that “Climategate was only about scientists behaving badly, but the data is OK” are wrong. At least one part of the data is bad, too. The Smoking Gun for that statement is at Darwin Zero."
obartunov: (Default)
В связи с климатгейтом нашел интересную ссылку про бардак в обработке данных, программисты поймут. Показательный пример необходимости базы данных для хранения сырых данных, для непосредственной работы с сырыми данными, для воспроизведения научных результатов.

А вот здесь рассказывается, что сами сырые данные были несколько изменены !




"One thing is clear from this. People who say that “Climategate was only about scientists behaving badly, but the data is OK” are wrong. At least one part of the data is bad, too. The Smoking Gun for that statement is at Darwin Zero."
obartunov: (Default)
интервью Майка Стоунбрейкера про SciDB, MapReduce и за жизнь.

Полезно почитать также про Caffeine, как Googlе ушел от MapReduce, что не может не радовать Майка.

Порадовал абзац:

"If you are over 35 you are over the hill apparently in maths," he claimed. "In computer science the grey beards like me are still viable, and it's this for reason that what goes around comes around. The young guys haven't seen it before and the problem with our computer science education system is the lessons from the past seem to get lost."
obartunov: (Default)
интервью Майка Стоунбрейкера про SciDB, MapReduce и за жизнь.

Полезно почитать также про Caffeine, как Googlе ушел от MapReduce, что не может не радовать Майка.

Порадовал абзац:

"If you are over 35 you are over the hill apparently in maths," he claimed. "In computer science the grey beards like me are still viable, and it's this for reason that what goes around comes around. The young guys haven't seen it before and the problem with our computer science education system is the lessons from the past seem to get lost."
obartunov: (Default)
Основная ссылка на пост Даниэля Абади The problems with ACID, and how to fix them without going NoSQL и на обсуждение статьи Абади и сотоварищей "The Case for Determinism in Database Systems".

Грубо говоря, авторы пишут, что NoSQL решение заменить "кислоту" на "щелочь" - это от ленности, а на самом деле вполне можно сохранить ACID и масштабироваться в shared-nothing архитектуре. Детали описаны в их статье, надеюсь, что найду время почитать ее.
obartunov: (Default)
Основная ссылка на пост Даниэля Абади The problems with ACID, and how to fix them without going NoSQL и на обсуждение статьи Абади и сотоварищей "The Case for Determinism in Database Systems".

Грубо говоря, авторы пишут, что NoSQL решение заменить "кислоту" на "щелочь" - это от ленности, а на самом деле вполне можно сохранить ACID и масштабироваться в shared-nothing архитектуре. Детали описаны в их статье, надеюсь, что найду время почитать ее.
obartunov: (Default)
В дополнение к экспериментальному,теоретическому и вычислительному методам познания мира буквально в последнее десятилетие в науку пришел новый метод - поиск закономерностей в огромных массивах данных. Jim Gray считается отцом-основателем этого направления. Поиском закономерностей астрономы занимались и раньше, новое здесь "огромные массивы данных" ! Речь идет о многих петабайтах данных, которые уже доступны сегодня, и сотнях петабайтах ожидающих нас завтра.

Каким образом увеличение количества информации привело к появлению новой парадигмы ? Открытия на кончике пера (на экране компьютера) случались в астрономии неоднократно и раньше, а количество данных влияет только на время получения результатов. Я понимаю,что изменяется информационная архитектура науки, компьютерный мир становится все более распределенным, параллельным и многоядерным, чтобы уметь работать с такими объемами данных, но так ли многое изменилось, чтобы говорить о новой парадигме ? На мой взгляд, основное что изменилось - это требование машинного доступа к данным !
Read more... )
obartunov: (Default)
В дополнение к экспериментальному,теоретическому и вычислительному методам познания мира буквально в последнее десятилетие в науку пришел новый метод - поиск закономерностей в огромных массивах данных. Jim Gray считается отцом-основателем этого направления. Поиском закономерностей астрономы занимались и раньше, новое здесь "огромные массивы данных" ! Речь идет о многих петабайтах данных, которые уже доступны сегодня, и сотнях петабайтах ожидающих нас завтра.

Каким образом увеличение количества информации привело к появлению новой парадигмы ? Открытия на кончике пера (на экране компьютера) случались в астрономии неоднократно и раньше, а количество данных влияет только на время получения результатов. Я понимаю,что изменяется информационная архитектура науки, компьютерный мир становится все более распределенным, параллельным и многоядерным, чтобы уметь работать с такими объемами данных, но так ли многое изменилось, чтобы говорить о новой парадигме ? На мой взгляд, основное что изменилось - это требование машинного доступа к данным !
Read more... )
obartunov: (Default)
Очередной скандал в науке после климатгейта, на этот раз в биологии. Подробности опубликованы в NYTimes. Проблема в соблюдении принципа воспроизводимости научных результатов.

Современные хранилища научных данных призваны для хранения научных данных, те, уже обработанных сырых данных. Сами сырые данные часто затеряны в дисковых просторах без "прибитой" процедуры обработки, что делает их бесполезными. В Ликской обсерватории мне показали комнату с кучей магнитных лент, про которые никто ничего не знает. На всякий случай их хранят, не выкидывают, но без журнала наблюдений из научная ценность близка к нулю.

Близкая проблема о доверии к науке, которое и так в обществе пошатнулось после упомянутого климатгейта, Петрика и дружественных ему академиков (читайте Троицкий Вариант и встретите массу чернухи на эту тему). В настоящее время доверие к научным результатам в самой научной среде основывается, в основном, на доверии к личности исследователя, но меняется время, личности потихоньку пропадают, они замещаются многостраничным списком авторов исследований и возникает вопрос - а как бы нам проверить правильность научных выводов ? Практически, на данный момент, это сделать нельзя ! Пропасть между сырыми данными и научными данными, которыми оперируют исследователи, сейчас настолько широка (и только увеличивается с развитием технологии производства сенсоров), что нужен доступ именно к сырым данным и процедуре их обработки, чтобы уметь воспроизвести представленные результаты. А кто это даст !
obartunov: (Default)
Очередной скандал в науке после климатгейта, на этот раз в биологии. Подробности опубликованы в NYTimes. Проблема в соблюдении принципа воспроизводимости научных результатов.

Современные хранилища научных данных призваны для хранения научных данных, те, уже обработанных сырых данных. Сами сырые данные часто затеряны в дисковых просторах без "прибитой" процедуры обработки, что делает их бесполезными. В Ликской обсерватории мне показали комнату с кучей магнитных лент, про которые никто ничего не знает. На всякий случай их хранят, не выкидывают, но без журнала наблюдений из научная ценность близка к нулю.

Близкая проблема о доверии к науке, которое и так в обществе пошатнулось после упомянутого климатгейта, Петрика и дружественных ему академиков (читайте Троицкий Вариант и встретите массу чернухи на эту тему). В настоящее время доверие к научным результатам в самой научной среде основывается, в основном, на доверии к личности исследователя, но меняется время, личности потихоньку пропадают, они замещаются многостраничным списком авторов исследований и возникает вопрос - а как бы нам проверить правильность научных выводов ? Практически, на данный момент, это сделать нельзя ! Пропасть между сырыми данными и научными данными, которыми оперируют исследователи, сейчас настолько широка (и только увеличивается с развитием технологии производства сенсоров), что нужен доступ именно к сырым данным и процедуре их обработки, чтобы уметь воспроизвести представленные результаты. А кто это даст !

YeSQL

Jul. 9th, 2010 11:03 am
obartunov: (Default)
Во времена тотального засилья NoSQL - buzz-word, на которое ведется неискушенный инвестор, Gavin M. Roy (CTO of myYearbook.com, вот его фото на PGCon-2010) представил сравнительный анализ производительности нескольких очень популярных NoSQL баз данных (CouchDB, Tokyo Tyrant, Redis, MongoDB, Cassandra and Project Voldemort) и PostgreSQL данных типа ключ/значение.

Желающие могут взять его код и потестировать самим (ссылка в презентации).

Известная CAP теорема Брюэра для распределенных систем гласит, что для распределенной системы нельзя одновременно достигнуть Consistency, Availability, Partition Tolerance. Выбор NoSQL - это AP с eventual C, выбор PostgreSQL - это AC.

Краткий вывод, что если отключить fsync, те, как бы смягчить C (целостность) и использовать горизонтальное масштабирование (он приводит много способов), т.е. добавляем P, то производительность такого PostqreSQL вполне себе сравнима с раскрученными NoSQL базами данных. А если учесть зрелость проекта PostgreSQL, супер-пупер профессиональную команду (это про нас :), хороший и документированный код, прекрасную поддержку SQL, то остается мало аргументов для использования NoSQL. Я надеюсь, что Gavin и его команда продолжат работу в этом направлении и смогут "продавить" в PostgreSQL те необходимые фичи, которые позволят PostgreSQL лучше конкурировать с NoSQL. Я могу привести несколько ожидаемых новых фич, которые сделают эту задачу проще уже в 9.X: SR/HS (9.0), сильно улучшенный hstore (9.0) automatic partitioning (9.1).

Josh Berkus даже поднял обсуждение в -hackers, что надо сделать, чтобы убрать "all durability" из постгреса и использовать его как локальный кэш.

YeSQL

Jul. 9th, 2010 11:03 am
obartunov: (Default)
Во времена тотального засилья NoSQL - buzz-word, на которое ведется неискушенный инвестор, Gavin M. Roy (CTO of myYearbook.com, вот его фото на PGCon-2010) представил сравнительный анализ производительности нескольких очень популярных NoSQL баз данных (CouchDB, Tokyo Tyrant, Redis, MongoDB, Cassandra and Project Voldemort) и PostgreSQL данных типа ключ/значение.

Желающие могут взять его код и потестировать самим (ссылка в презентации).

Известная CAP теорема Брюэра для распределенных систем гласит, что для распределенной системы нельзя одновременно достигнуть Consistency, Availability, Partition Tolerance. Выбор NoSQL - это AP с eventual C, выбор PostgreSQL - это AC.

Краткий вывод, что если отключить fsync, те, как бы смягчить C (целостность) и использовать горизонтальное масштабирование (он приводит много способов), т.е. добавляем P, то производительность такого PostqreSQL вполне себе сравнима с раскрученными NoSQL базами данных. А если учесть зрелость проекта PostgreSQL, супер-пупер профессиональную команду (это про нас :), хороший и документированный код, прекрасную поддержку SQL, то остается мало аргументов для использования NoSQL. Я надеюсь, что Gavin и его команда продолжат работу в этом направлении и смогут "продавить" в PostgreSQL те необходимые фичи, которые позволят PostgreSQL лучше конкурировать с NoSQL. Я могу привести несколько ожидаемых новых фич, которые сделают эту задачу проще уже в 9.X: SR/HS (9.0), сильно улучшенный hstore (9.0) automatic partitioning (9.1).

Josh Berkus даже поднял обсуждение в -hackers, что надо сделать, чтобы убрать "all durability" из постгреса и использовать его как локальный кэш.

Profile

obartunov: (Default)
obartunov

November 2012

S M T W T F S
    1 23
456789 10
11121314151617
18192021222324
252627282930 

Syndicate

RSS Atom

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags