Dmitry Belyavsky (beldmit) wrote,
Dmitry Belyavsky
beldmit

Category:

Schemaless-базы данных

Я давно хотел написать этот пост, но до разговора с Фёдором Сигаевым на PGConf.eu стеснялся.

Одно из позиционирований NoSQL-ных баз данных — отсутствие схемы. Я всегда этот момент не понимал. Собственно, у меня на рабочем столе (физическом) полное отсутствие схемы, и помойкой это не является только потому, что я её так не называю. В смысле, мало запихнуть данные в куда-нибудь, с ними надо ещё работать: искать по атрибутам или по их значениям, а значит где-то эти значения должны регламентироваться. Не будут регламентироваться — рано или поздно получите атрибуты topic, Topic и TOPICS с одной семантикой.

В SQL-базе эту регламентацию достигают проверкой на уровне имён колонок. В NoSQL это придётся делать в приложении, потому что альтернатива — в мозгах программистов — слишком ненадёжна. И то и другое приводит к багам разной степени уловимости, даже при использовании hstore мы вдвоём с коллегой по этому грабельному полю потоптались.

То есть по большому счёту летать вся эта структурированность будет в паре случаев.

1. Когда база используется как хранилище без обработки. Максимум - проверить, что то, что передали в качестве XML, таковым является.
2. Когда “структурированные” данные обрабатываются и пишутся локально (например, параметры для разных типов заданий в очереди). И то в этом случае приходится работать с такой структурой как минимум в 2 местах — при чтении и при записи.

Во всех остальных случаях получаются размазанные по приложению метаданные, которые удобней держать в одной точке — в базе. Удобнее, например, потому как grep-ать не надо, а можно описание таблицы посмотреть. Нельзя построить внешние ключи (ну, ORM это частично компенсирует) и навести типизацию тоже можно довольно ограниченно.

Лично я до сих пор использую из таких "бессхемных" типов в PostgreSQL ровно 2 — hstore и XML. XML при этом в моей задаче можно было бы заменить массивом hstore или отдельной таблицей, но из соображений отслеживания изменений оказалось проще внедрить XML. Можно было бы с таким же успехов json воткнуть, впрочем.

Конечно, недооценивать экономию усилий при добавлении новой колонки не надо. Это часто бывает самостоятельным геморроем, особенно если требуется zero downtime. Но пока что, по ощущениям, schemaless того не стоит.

This entry was originally posted at http://beldmit.dreamwidth.org/453120.html. Your comment? (comment count unavailable comments)
Tags: postgresql, программирование
Subscribe

  • Роудс «Создание атомной бомбы»

    Так получилось, что на книгах о ядерной физике я практически вырос. Перерисовывал бессчётное количество раз таблицу Менделеева, читал биографию Марии…

  • «Цирцея» Мадлен Миллер

    Прочитал «Песнь Ахилла» и «Цирцею» Мадлен Миллер. Сюжет и тематика понятны более-менее всем, кто знаком с греческими мифами. «Песнь» мне не зашла.…

  • Книжный флешмоб

    Я тут в рамках книжного флешмоба выкладывал в фейсбуке 12 обложек книг, которые на меня повлияли. Сюда я их выложу списком. Порядок произвольный.…

  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 31 comments

  • Роудс «Создание атомной бомбы»

    Так получилось, что на книгах о ядерной физике я практически вырос. Перерисовывал бессчётное количество раз таблицу Менделеева, читал биографию Марии…

  • «Цирцея» Мадлен Миллер

    Прочитал «Песнь Ахилла» и «Цирцею» Мадлен Миллер. Сюжет и тематика понятны более-менее всем, кто знаком с греческими мифами. «Песнь» мне не зашла.…

  • Книжный флешмоб

    Я тут в рамках книжного флешмоба выкладывал в фейсбуке 12 обложек книг, которые на меня повлияли. Сюда я их выложу списком. Порядок произвольный.…