[33].
Из чего состоит индекс цитирования
Для начала напомним, какова структура Индекса научного цитирования, публикуемого Институтом научной информации (ISI) с 1963 года. В 1973 году к Science Citation Index (SCI) добавляется Social Science Citation Index (SSCI), а с 1978 года — Arts and Humanities Citation Index (AHCI). До распространения интернета они были доступны лишь в университетских библиотеках, получавших их по подписке в виде толстых томов, похожих на телефонные справочники, а затем, с 1980-х годов, в виде компакт-дисков. Разумеется, бумажный носитель нисколько не приспособлен для крупномасштабного анализа, и тома Индекса использовались в основном просто для библиографических поисков. И наконец, напрямую у ISI можно было получить всю совокупность данных в электронной форме.
На ил. 2 показано типичное содержание страницы из индекса цитирования в бумажном формате. На ней видны отсылки к статьям Эйнштейна за 1959, 1960 и 1961 годы. В настоящее время бумажная версия не выпускается, и все три базы данных объединены на платформе Web of Science, содержащей около 12 000 журналов по всей совокупности дисциплин. Они доступны в интернете по абонементу университетских библиотек, подписанных на услуги Thomson Reuters, фирмы, которая приобрела Институт научной информации в 1993 году.
В базе данных содержится не полный текст статей, а совокупность связанных с ними метаданных. В ней можно найти название статьи, журнала, где она опубликована, фамилии всех авторов, их институциональный адрес, тип документа (статья, письмо, обзор, книжная рецензия и пр.) и полный библиографический список (ил. 3). Именно эта информация о ссылках и придает ИНЦ его специфический и (долгое время) уникальный характер. Поскольку в пристатейные списки литературы иногда попадают патенты, это дает возможность анализировать и ссылки на патенты[34]. В свою очередь, базы данных по патентам, также содержащие ссылки на статьи, с 1980-х годов стали использоваться для анализа связей между научными исследованиями и техническими инновациями[35].
Ил. 2. Выдержка из первого ИНЦ (источник: Eugene Garfield, American Documentation. July 1963, p. 196)
После перевода в электронную форму эта информация организуется в виде базы данных, позволяющей производить поиск по разным параметрам (автор, страна, институция, журнал и т. п.).
В бумажную эпоху поиск в ИНЦ был возможен лишь по фамилии первого автора, несмотря на то что у большинства публикаций уже тогда было более одного автора. Первые пользователи, социологи науки, подмечали это ограничение и предлагали включать также другие фамилии или по крайней мере фамилию последнего автора, который в больших исследовательских коллективах, типичных для «Большой науки», часто является руководителем. Однако Гарфилд, осознавая затратность подобного изменения в базе данных, в ответ напомнил, что ИНЦ — это прежде всего инструмент библиографического поиска, а не измерения эффективности исследователей[36]. В связи с усовершенствованием компьютерной техники современные библиометрические базы данных позволяют найти упоминания всех соавторов той или иной публикации.
Ил. 3. Типичный вид метаданных статьи в индексе цитирования
Инструмент для историков и социологов науки
С самого начала ИНЦ воспринимался как важный ресурс для историков и социологов науки. Еще до публикации первой версии в 1963 году Гарфилд заручился поддержкой отца социологии науки, Роберта К. Мертона, а также историка науки, ратовавшего за продвижение библиометрии, Дерека де Солла Прайса. Сам Гарфилд серьезно интересовался историей науки и в течение всей своей карьеры работал над совершенствованием программ, предназначенных для автоматической визуализации сетей цитирования между статьями[37]. Благодаря интересу к истории науки со стороны Гарфилда директор исследовательской службы в ISI Генри Смолл, сам по образованию историк науки, в 1981 году взял на себя руководство созданием индекса цитирования по физике за период с 1920 по 1929 год при финансовой поддержке Национального научного фонда. Это был период развития квантовой физики, что позволило детально изучить научную революцию с точки зрения библиометрии[38]. Этот интерес к историческому использованию ИНЦ в результате привел к созданию ретроспективной базы данных, включившей ведущие научные журналы с 1900 года в сфере социальных и естественных наук[39].
Ил. 4a. Динамика среднего числа ссылок, содержащихся в статьях, по крупным дисциплинарным направлениям, 1900 — начало 2010-х годов (источник: WoS)
Ил. 4б. Динамика среднего числа ссылок (цитат), полученных статьей через два года после ее публикации, по крупным дисциплинарным направлениям, 1900 — начало 2010-х годов (источник: WoS)
По мере накопления исследований по библиометрии были обнаружены характеристики публикаций и ссылок, которые необходимо учитывать при конструировании показателей, позволяющих адекватно описывать динамику науки на разных уровнях. Так, среднее количество ссылок на одного автора в значительной мере зависит от размера дисциплин и специальностей. Например, в математике исследователей гораздо меньше, чем в медицине. В целом, при прочих равных условиях среднее количество ссылок на ту или иную статью зависит от размеров содержащихся в статьях библиографий, то есть от числа статей в этих библиографиях. Чем выше это число, тем больше у автора шансов, что его процитируют. Среднее число ссылок в статьях по всем дисциплинарным направлениям со временем существенно возросло, что отражает резкий рост числа исследователей и публикуемых статей (ил. 4a). Иначе говоря, рост среднего числа ссылок на одну статью, как показано на ил. 4б, является простым следствием демографических изменений в науке. Из этого следует, что абсолютное число ссылок мало что означает само по себе и что сравнения между разными научными областями по этому показателю некорректны. Его всегда нужно рассматривать в контексте дисциплины, к которой принадлежит исследователь, и за определенный период.
Помимо этого, уже первые исследования показали, что процент самоцитирования в целом невелик (8 %), что ссылки на собственные публикации в журналах составляют примерно 20 % от их общего числа и что распределение цитирования отличается высокой концентрацией[40]. И наконец, как показывает ил. 5, неравномерно распределены не только ссылки, но также сами публикации и гранты, получаемые исследователями[41]. Речь идет о распределениях типа Парето, подчиняющихся так называемому правилу 20/80: на 20 % исследователей приходится, в общем и целом, 80 % цитат и грантов. У публикаций концентрация несколько ниже: на 20 % исследователей приходится не более 60 % статей.
Ил. 5. Распределение грантов, публикаций и ссылок среди квебекских исследователей (источник: OST)
С середины 1960-х годов ведется поиск корреляций между числом ссылок и различными переменными, характеризующими исследователей, с тем чтобы выявить детерминанты производительности ученых и влияния научных исследований. Так, в исследовании, опубликованном в 1966 году, установлено, что нет корреляции между коэффициентом интеллекта исследователей (IQ) и числом ссылок на их работы! Зато это число коррелирует с местом университета, в котором они защитили диссертацию, на шкале престижа, установленной экспертами[42]. Используя свой первый индекс (за 1961 год), Гарфилд выявил, что лауреаты Нобелевской премии за 1962 и 1963 годы цитируются в тридцать раз чаще, чем в среднем работы их коллег[43]. Другие исследования впоследствии подтвердили, что существует связь между уровнем цитируемости, производительностью, заслугами и степенью признания исследователей[44].
Ил. 6. Сферы применения библиометрии
Базы данных Web of Science уникальны тем, что охватывают длительный временной промежуток и включают, хотя и в неравной мере, все области знаний. Они позволяют всесторонне изучать социальные и когнитивные трансформации различных научных дисциплин на всем протяжении XX века. Некоторые исследователи прибегают к ним для анализа развития наук под определенным — историческим, социологическим, экономическими или политическим — углом (ил. 6). Рассмотрим несколько примеров.
Уровни измерения
В своем простейшем виде библиометрия занимается подсчетом документов. Документы могут анализироваться на разных уровнях агрегирования по таким параметрам, как фамилия автора, его институциональная принадлежность, включая название организации (кафедра, университет, лаборатория), регион и страну, в которой она располагается. В плане содержания можно также ассоциировать документ с той или иной дисциплиной или специальностью. Простые вычислительные операции позволяют составить первое представление о сравнительном развитии различных областей науки в разных организациях и странах, а также помогают понять различные аспекты структуры и динамики наук.
Еще задолго до создания в начале 1960-х годов Индекса научного цитирования некоторые ученые стали анализировать количественную динамику публикаций в своих дисциплинах. В 1935 году, изучая кривую роста числа публикаций, посвященных фиксации азота растениями, ученые-агрономы вывели простую, но впоследствии востребованную математическую модель: логистическая кривая, характеризующаяся резким ростом с последующим насыщением