Машиночитаемые библиотеки
Избирательные комиссии, публикующие данные выборов уделяют мало внимания удобству аналитической работы с большими массивами данных. Наиболее частое решение: иерархические HTML-страницы. В таких случаях страницы необходимо предварительно обрабатывать («парсить»).
Случай ЦИК Молдовы, который публиковал данные в виде изображения таблиц, довольно уникален. В этом случае необходима использовать отпическое распознавание символом или OCR (от optical character recognition).
Страны с повышенным уровнем фальсификаций выделяются и в области предоставления доступа к данным. Так ЦИК России пытается закрыть массивы данных от машинной обработки с помощью капчи, а ЦИК Республики Беларусь вовсе их не публикует, ограничиваясь лишь суммарными результатами по регионам.
Но в основном организующие комиссии стремятся к открытости данных. Данные открыты, но не готовы для анализа. В таких случаях исследователи могут либо приводить данные комиссий к машиночитаемому виду самостоятельно, либо пользоваться данными, выложенными в открытый доступ другими исследователями и специалистами. В таких случаях необходима проверка на корректность и полноту данных (сверка с официальными данными).
Некоторые комиссии публикую данные в удобных для исследования форматах. Так, ЦИК Армении публикует данные в виде Excel таблиц.
Ниже приводится несколько источников машиночитаемых данных выборов.