Ѕаза знаний студента. –еферат, курсова€, контрольна€, диплом на заказ

курсовые,контрольные,дипломы,рефераты

»нтерактивное исследование неколичественных данных: методика и инструментарий — »нформатика, программирование

ѕосмотреть видео по теме –еферата

≈.Ѕ. Ѕелова

¬ этой статье рассматриваетс€ методика интерактивного исследовани€ неколичественных данных, извлекаемых из исторических источников. ѕредлагаемый подход предполагает активное участие исследовател€ на каждом шаге компьютерного анализа. Ќеобходимость такого подхода может быть обоснована следующими двум€ утверждени€ми, касающимис€ характера исторических данных и процесса их анализа.

¬о-первых, неколичественные данные по своему происхождению - это, вообще говор€, данные, извлекаемые из текстовых документов, а следовательно, семантически плохо определенные; их структура не об€зательно €вл€етс€ регул€рной. Ќа формальном уровне единицей анализа €вл€етс€ поименованна€ сущность (объект данных), описываема€ произвольным набором элементарных свойств (качеств). ƒругими словами, сущность определ€етс€ как подмножество во множестве свойств/качеств. —войство, в свою очередь, определ€ет, посредством своей встречаемости, группу сущностей, и следовательно, может рассматриватьс€ как подмножество во множестве сущностей. “аким образом, мы имеем симметрию, позвол€ющую обрабатывать сущность и ее свойства схожим образом: рассматрива€ набор данных как два множества, описываемых зависимостью "многие-ко-многим". ќднако, надо отметить, что хот€ така€ симметри€ не всегда осмыслена на уровне интерпретации, она всегда присутствует с формальной точки зрени€. ѕоэтому предлагаемый способ анализа существенным образом опираетс€ на этот факт. Ќа практике набор данных существует как последовательность записей, кажда€ из которых описывает один объект (определ€ет его им€ и набор качеств).  ачества могут принадлежать к различным группам. Ёти группы могут служить аналогами переменных ("полей" - в терминах баз данных), а качества, им принадлежащие - значени€м переменных. Ќо группы, с одной стороны, могут иметь более одного значени€ дл€ каждой записи, а с другой стороны, их существование в общем случае необ€з€тельно. Ѕолее того, группы качеств могут существовать динамически и приобретать различный смысл в процессе анализа.

¬о-вторых, на практике очень сложно, а иногда даже невозможно выбрать a priori верный алгоритм анализа сложных данных. ѕоэтому предлагаемый в данной статье программный инструмент QualiDatE [1] поддерживает гибкий механизм дл€ создани€ пользовательских стратегий анализа.

ќсновной операцией QualiDatE €вл€етс€ кластеризаци€ (классификаци€). ќднако, здесь смысл этой процедуры €вл€етс€ более широким, чем в традиционном анализе данных: контролируемый пользователем процесс кластеризации позвол€ет изучать характеристики набора данных с различных точек зрени€ и в различных измерени€х поскольку и объекты данных, и их свойства могут быть классифицированы.  аждый отдельный акт классификации определ€етс€ следующим образом:

указываютс€ эталонные объекты, задающие центры искомых классов;

путем введени€ порога близости (сходства) определ€етс€ насколько другие объекты из исследуемого набора должны быть близки к эталонам;

указываетс€ тип классификации. QualiDatE поддерживает два основных типа близости: симметричную и асимметричную:

Ќа первый взгл€д, асимметрична€ близость может выгл€деть странно, поскольку мы привыкли рассматривать сходство как симметричное отношение. —мысл ее использовани€ состоит в том, что у нас должна быть возможность поставить такие задачи как, например, "найти кластер, в котором бы свойства данного объекта доминировали" или "определить, до какой степени данный объект похож на другие объекты из набора данных" - другими словами, оценить эффект "личности" и "толпы" соответственно. ¬ указанных случа€х использование асимметричной меры близости более адекватно.

—имметрична€ близость (1) в случае объектов данных есть ни что иное, как дол€ общих свойств среди общего набора свойств двух обектов. јсимметрична€ близость (2) есть число общих свойств относительно числа всех свойств какого-либо объекта. ќба выражени€ верны, когда веса веса всех свойств равны. ќднако, в QualiDatE заложены механизмы манипулировани€ весами. ≈сли какое-либо свойство с точки зрени€ исследовател€ €вл€етс€ более важным в сравнении с другими, то ему может быть присвоен более высокий вес. ¬следствие этого близость становитс€ условной мерой, отражающей неодинаковую значимость свойств объектов. Ќесмотр€ на отсутствие ограничений на значение веса, оба типа мер близости всегда принимают значени€ в диапазоне от нул€ до единицы.

¬ то всем€ как близость между объектами довольно естественно интерпретируетс€ как количественна€ похожесть (например, похожесть социальных характеристик двух персон), близость свойств может интерпретироватьс€ как коррел€ционна€ мера. Ќапример, асимметрична€ мера близости свойства "грамотный" и "кресть€нин" в некотором воображаемом наборе данных, содержащем персональную информацию (в случае равных весов) определ€ет долю грамотных людей среди кресть€н. »ли, в веро€тностных терминах - это эмпирическа€ условна€ веро€тность свойства "грамотый" при условии наличи€ свойства "кресть€нин", котора€ равна отношению частоты встречаемости свойств "грамотный" и "кресть€нин" к частоте встречаемости свойства "кресть€нин". ќднако, в случае неравных весов, когда, например, некоторые лица не могут быть определенно названы грамотными, близость тер€ет свой очевидный смысл. ќднако, она сохран€ет функцию коррел€ционной меры, т.е. отражает степень согласованности про€влени€ свойств.

—тоит отметить, что в нашем методе не имеет значени€, обладают ли сравниваемые объекты данных одинаковым числом свойств, или нет[2].

–ассмотрим теперь уже упоминавшиес€ выше типы классификации, поддерживаемые программой QualiDatE.

–ис. 1а –азбиение типа покрытие.

ѕокрытие. ¬ результате этого типа классификации все объекты, расположенные внутри указанных границ, включаютс€ в один кластер. ѕри этом кластеры могут пересекатьс€, а объекты, не попавшие ни в один из кластеров, образуют так называемый класс остатков (рис. 1а).

–ис. 1б –азбиение с ограничением.

–азбиение с ограничением отличаетс€ от покрыти€ тем, что области пересечени€ разбиваютс€ в соответствии с максимальной мерой близости (рис. 1б).

–ис 1в ѕолное разбиение.

ѕолное разбиение ведет к тому, что каждый элемент данных об€зательно попадает в какой-либо класс[3] (рис. 1в), т.е. от предыдущего оно отличаетс€ невозможностью по€влени€ класса остатков.

¬ случае покрыти€ и разбиени€ с ограничением используетс€ пара чисел (верхний и нижний пороги), измен€ющихс€ в диапазоне от 0 до 1, и определ€ющих область кластера. ќбъект будет включен в класс, если его близость до эталона попадает в заданную порогами область. ≈сли верхний порог равен единице, то будет генерироватьс€ класс похожих объектов. ¬ этом случае нижний порог играет роль критического уровн€ этой похожести. ќднако, в общем случае, исследователь может управл€ть парой пороговых значений и получать кластеры, имеющие самый разный смысл, вплоть до кластера максимально непохожих на эталон объектов. » конечно, всегда остаетс€ возможность установить пару порогов на граничные значени€ (нижний - на ноль, верхний - на единицу), в результате чего все объекты набора данных будут включены в один класс. ¬ыбор порогов до некоторой степени эквивалентен выбору уровн€ значимости в статистике, поскольку он так же базируетс€ на соображени€х здравого смысла и интуиции эксперта.

ѕолученные в результате классификации группы объектов могут быть "вырезаны" в отдельные наборы данных и обработаны независимо.

–ис. 2  онцептуальный дизайн программного интерфейса

»нтерфейс программы QualiDatE нацелен прежде всего на поддержку интерактивного анализа данных.  онцептуальный дизайн программного интерфейса показан на рисунке 2.

Ќабор данных, который может быть обработан параллельно в двух измерени€х (как набор сущностей, и как набор качеств/свойств), предстает перед пользователем в различных видах. Ёто могут быть исходные данные, близости, веса, статистика, меры принадлежности. —мысл первых трех видов (представлений) достаточно очевиден: статистика представл€ет числовую информацию о наборе данных (как то: метрики объектов, частоты их встречаемости и т.д.); представление мер принадлежностей играет роль своего рода теста, который может производитьс€ до начала собственно классификации, обнаружива€ "ближайшего соседа" дл€ каждой сущности.

 онкретный вид каждого представлени€ зависит от текущего состо€ни€, т.е. от того, какой именно фильтр был выбран: набор указанных эталонов, выборка групп, которые должны быть отображены и активна€ схема классификации. ѕоследнее подразумевает, что в любой момент могут сосуществовать четыре классификационных схемы - по две на каждый тип сущностей; при этом одна дл€ каждой пары становитс€ неактивной (скрытой).

“аким образом, исследуемом наборе данных присутствует некоторое число виртуальных уровней информации. ”поминавшиес€ ранее стратегии анализа реализуютс€ пользователем (исследователем) как последовательные шаги с одного уровн€ на другой или их комбинации. ѕри этом возможны различные сценарии. Ќекоторые из них, которые кажутс€ наиболее типичными будут разобраны ниже с формальной точки зрени€.

“ри сценари€ анализа.

ѕервый сценарий (см. рис. 3) предполагает, что исследователь имеет представление о том, какие объекты в наборе данных €вл€ютс€ типичными - эталонными в терминах решаемой задачи. ƒругими словами, исследователь знает какого рода классификацию надо применить к данным. “огда формально задача формулируетс€ следующим образом: найти группы объектов, представл€ющие искомые классы. ѕервым шагом в решении такой задачи будет указание известных специфичных объектов - назначение их эталонами. ¬ простейшем случае может быть использовано полное, жесткое разбиение. ¬торым и поледним шагом будет сохранение статистической информации дл€ найденных классов. ≈сли же задача выгл€дит более сложной, например, предполагаетс€ существование объектов, выпадающих из общей схемы, или накладываютс€ жесткие требовани€ на однородность искомых классов, то на втором шаге предлагаетс€ использовать просмотр значений принадлежности к классам или близостей. Ёти возможности нацелены на то, чтобы выбрать разумный дл€ исследуемого набора данных порог похожести, затем применить разбиение с ограничением или покрытие. —татистическое представление результатов в этом случае может быть финалом, а может и служить базой дл€ последующего пересмотра параметров классификации.

–ис. 3. —хема исследовани€ в соответствии с первым сценарием анализа.

¬торой сценарий описывает случай, когда существует нека€ внешн€€ (априорна€) классификаци€, определ€ема€ относительно узким набором свойств (см. рис 4).

“огда задачу можно сформулировать следующим образом: классифицировать объекты по всем другим свойствам в целом и сравнить априорную и апостериорную схемы. —ледовательно, мы должны начать с указани€ свойств, определ€ющих внешнюю классификацию в качестве эталонных и классифицировать весь набор свойств. ¬ результате этого шага вы€вл€ютс€ группы свойств, коррелирующих с эталонными. “еперь в нашем распор€жении имеютс€ группы основных свойств, которые могут подсказать нам, каким образом следует выбрать эталоны среди объектов. Ќа этом шаге разумно установить нулевые веса эталонным свойствам с тем, чтобы они игнорировались при классификации объектов, и повысить веса основных свойств, отличных от эталонных. “еперь классификаци€ даст нам набор эталонных объектов и работа может быть продолжена в соответствии с первым сценарием.

»сследование свойств полученных групп и сравнительна€ группова€ статистика помогает оценить качество классификации. ¬ результате может быть прин€то решение изменить параметры классификации. »ли, если классификаци€ представл€етс€ неудовлетворительной, найденные классы и/или объекты, которые не попали ни в один класс, могут быть выделены в новые наборы данных, и дл€ каждого из них всю процедуру можно повторить с самого начала.

–ис. 4. —хема исследовани€ в соответствии со вторым сценарием анализа.

“ретий сценарий анализа применим в ситуации, когда ничего определенного об исследуемом наборе данных не известно. ¬ таком случае задача не может быть сформулирована более конкретно, чем "изучить набор данных" (см. рис 5а).

–ис. 5а. —хема исследовани€ в соответствии с третьим сценарием анализа.

—еанс работы можно начать с просмотра частот свойств. ќсновыва€сь на них, пользователь может выбрать несколько наиболее часто встречающихс€ свойств и прин€ть их за эталонные. ƒальнейша€ последовательность работы примерно совпадает со вторым сценарием. јльтернативное решение состоит в выборе объектов, содержащих наиболее часто встречаемые свойства, определение их в качестве эталонных и переходе к работе по первому сценарию.

–ис. 5б. —хема исследовани€ в соответствии с третьим сценарием анализа.

¬ качестве еще одного подхода (см. рис 5б) можно предложить начать сеанс работы с выбора одного объекта в качестве эталона случайным образом. «атем просмотреть близости до него с тем чтобы найти самые непохожие на него объекты, которые потенциально могут служить дополнительными (альтернативными) эталонами. “акого рода предварительный анализ можно продолжать до тех пор, пока не сформируетс€ разумный набор эталонов. ѕосле этого снова вступает в действие первый сценарий.

Ќабор возможных стратегий исследовани€ не ограничиваетс€ трем€ вышеописанными сценари€ми. —ледует указать по крайней мере еще на три важных применени€ QualiDatE.

Ѕлизость к эталону можно рассматривать как меру принадлежности в смысле теории нечетких множеств. ≈сли исследователь достаточно хорошо знаком с пон€ти€ми этой теории, то он может оперировать непосредственно со значени€ми близости и создавать нечеткие классификации, не использу€ классификационных функций программы.  стати говор€, классификаци€ типа покрытие, как она реализована в программе, имеет своим результатом то, что в теории нечетких множеств называетс€ альфа-сечением нечеткого множества.

QualiDatE может использоватьс€ в качестве инструмента дл€ построени€ кросс-табул€ций. ≈е отличие от традиционных процедур кросс-табул€ции заключаетс€ в том, что благодар€ определенной взаимозамен€емости пон€тий группы и сущности, QualiDatE позвол€ет производить кросс-табул€цию дл€ составных свойств - иначе говор€, дл€ любых комбинаций признаков.

QualiDatE может использоватьс€ как своего рода нечетка€ база данных. ¬ыбор объектов на основе близости до эталона может рассматриватьс€ как нечеткий запрос - что-то вроде "найти все, что похоже на это до такой-то степени". —ама эта степень задаетс€ установлением весов и порогов. ¬ частном случае нечеткость запроса может быть сведена к нулю, так что его результатом будет €вл€тьс€ выборка, основанна€ на точном совпадении некоторых определенных значений.

* * *

ѕерейдем к примеру исследовани€, реализующего то, что выше было описано как второй сценарий.

ѕредлагаемый к рассмотрению набор данных содержит сведени€ о членах 1-ой √осударственной ƒумы 1906-ого года. ¬се данные в нем €вл€ютс€ качественными и были извлечены из текстовых источников, таких как биографии, справочники и т.п. Ќабор данных содержит сведени€ о фракционной принадлежности каждого депутата и некоторые его социальные характеристики[4].

–ассматриваемые данные используютс€ дл€ вы€снени€ того, существовало ли какое-либо соответсвие между принадлежностъю к фракции и социальным профилем депутата. ¬ центре исследовани€ сто€т две наиболее крупные фракции 1-ой √осударственной ƒумы - трудовики и кадеты.

—оответствующа€ формальна€ гипотеза, котора€ должна быть верифицирована, формулируетс€ следующим образом:

cуществуют относительно однородные (в терминах социальных характеристик) группы лиц;

cуществует соответствие между этими группами и принадлежностью к фракции. “.е. существуют "типичный трудовик" и "типичный кадет", которые представл€ют €дра своих фракций.

‘ормальна€ задача разбиваетс€ на следующие четыре шага:

найти типичные характеристики дл€ каждой фракции;

найти эталонных депутатов;

построить кластеры депутатов, игнориру€ их фракционную принадлежность;

исследовать пересечение полученных кластеров и подмножеств, задаваемых значени€ми "трудовик" и "кадет".

ѕри решении этой задачи мы должны очевидно следовать второму сценарию, поскольку здесь мы имеем дело с априорной классификацией, задаваемой фракционной принадлежностью, которую мы должны сопоставить с классами, получаемыми по совокупности других свойств объектов.

¬ыполнить первый шаг - означает найти два кластера свойств, близких (сильно коррелирующих) к свойствам "трудовик" и "кадет" (€вл€ющихс€ в этом случае эталонными). ѕоскольку нашей целью €вл€етс€ нахождение свойств, характерных дл€ каждой из фракций и только дл€ нее, то разумно использовать симметричную близость. ¬ принципе, можно использовать и пару асимметричных близостей. ѕри выборе типа классификации мы остановимс€ на покрытии, поскольку нам необходимо видеть, пересекаютс€ ли два искомых класера (дел€т ли они некоторые свойства). “аблица 1 представл€ет результаты классификации при нижнем пороге равном 0.2 и верхнем - 1. ¬се показанные свойства, кроме "русский", характерны только дл€ одной фракции.

“аблица 1. Ѕлизости основных свойств до эталонных.

Ёталоны —войства “рудовик  адет
трудовик трудовик 1.000 0.000
русский 0.199 0.242
общее образ. 0.242 0.072
начальое образ. 0.247 0.053
кресть€н.происх. 0.305 0.096
кресть€нин 0.296 0.071
"земледелец" 0.223 0.070
кадет зарплата 0.172 0.351
русский 0.199 0.242
юридич. образ. 0.037 0.219
высшее образ. 0.068 0.438
двор€нин 0.005 0.307
двор€нское происх. 0.015 0.226
кадет 0.000 1.000

ƒве колонки цифр дают нам предварительную информацию о том, что такое "типичный трудовик" и "типичный кадет". —ледует отметить, что две группы свойств не так тривиальны, как это кажетс€ на первый взгл€д. ƒело в том, что рассматриваема€ база данных воспроизводит неоднозначную терминологию своих источников. Ќапример, слово "кресть€нин" в действительности может обозначать различные свойства в зависимости от того, используетс€ ли оно дл€ указани€ сослови€, происхождени€ или зан€ти€.  оррел€ци€ между последними трем€ свойствами может быть невысокой. –еальный кресть€нин определ€етс€ лишь целым набором свойств, и это как раз тот набор, который мы встречаем в кластере свойства "трудовик".

Ќа втором шаге мы переключаемс€ на представление объектов данных и находим двух лиц: одного, обладающего свойствами класса "типичный трудовик" (общий профиль и начальный уровень образовани€, кресть€нин из кресть€н, земледелец), другого - со свойствами "типичного кадета" (высшее юридическое образование, двор€нин из двор€н, жалование как источник дохода). «атем (третий шаг) мы находим лиц, группирующихс€ вокруг двух выбранных эталонов. ¬ этом случае должна использоватьс€ асимметрична€ близость к эталону, поскольку большинство лиц описано более детально, чем эталонные, а следовательно, должно быть устранено вли€ние "излишних" характеристик.  лассификаци€ должна быть типа разбиение с ограничени€ми, поскольку наша задача - извлечь из набора данных две четко разграниченные группы депутатов.

“аблица 2а. –аспределение фракционной принадлежности среди кластеров "“ипичный кадет" и "“ипичный трудовик".

‘ракции “ипичные кадеты “ипичные трудовики ќстальыне
трудовики 0.023 0.323 0.172
беспартийные 0.045 0.423 0.144
правые 0.114 0.054 0.072
ƒем. реформ 0.045 0.000 0.017
националисты 0.000 0.000 0.052
кадеты 0.705 0.100 0.412
соц.-дем. 0.203 0.062 0.027
польск. фракц. 0.045 0.015 0.093

“аблица 2б. –аспределение кластеров "“ипичный кадет" и "“ипичный трудовик" среди различных фракций.

‘ракции “ипичный кадеты “ипичные трудовики ќстальные
трудовики 0.011 0.452 0.538
беспартийные 0.020 0.556 0.424
правые 0.152 0.212 0.636
ƒем. реформ 0.286 0.000 0.714
националисты 0.000 0.000 1.000
кадеты 0.189 0.079 0.732
соц.-дем. 0.059 0.471 0.471
польск. фракц. 0.065 0.065 0.871

ƒл€ того, чтобы оценить результаты классификации (четвертый шаг), мы должны изучить распределение фракционной принадлежности внутри каждого кластера (таблица 2а) и комплементарные (дополнительные к ним) данные - доли "типичных трудовиков" и "типичных кадетов" среди членов различных фракций (таблица 2б). ƒве таблицы показывают, что около трех четвертей "типичных кадетов" €вл€ютс€ в действительности кадетами, но дол€ первых среди вторых невысока. “аким образом, "типичные кадеты" €вл€ютс€ небольшой, но очень однородной группой в своей фракции. ƒол€ "типичных кадетов" достаточно высока и в двух других фракци€х - правых и партии демократических реформ - политических соседей кадетов. —лучай "типичных трудовиков" несколько более сложен. ќни составл€ют около 1/2 трудовиков, социал-демократов и беспартийных членов ƒумы; с другой стороны, лишь треть из них €вл€ютс€ членами фракции трудовиков, в то врем€, как их относительное большинство €вл€ютс€ беспартийными. ѕоследнее означает, что "типичный трудовик" (или по сути типичный кресть€нин) обладал низкой политической самоидентификацией. “ем не менее, дол€ трудовиков среди тех, кто уже примкнул к какой либо фракции, достаточно высока - более 2/3.

÷ифры в колонке "ќстальные" в таблице 2б подсказывают нам, что необходимо проделать еще значительную работу - большинство членов обеих из рассматриваемых фракций не принадлежат ни к одному классу. »так, мы выдел€ем "остальных" в отдельный набор данных и начинаем на нем второй цикл исследовани€.  лассификаци€ свойств в новом наборе данных позвол€ет увидеть (таблица 3), что в группе лиц, принадлежавших к фракции кадетов, имеютс€ две пары взаимоисключающих свойств.

“аблица 3.  ластеры "Ќетипичные кадеты" и "Ќетипичные трудовики".

Ёталоны —войства “рудовик  адет ∆алование «емлевладелец
трудовик жалование 0.238 0.339 1.000 0.000
трудовик 1.000 0.000 0.238 0.023
крест.происх. 0.302 0.101 0.230 0.043
кресть€нин 0.271 0.061 0.161 0.055
кадет жалование 0.238 0.339 1.000 0.000
русский 0.176 0.226 0.258 0.209
происх. не указ. 0.060 0.252 0.271 0.114
высшее образ. 0.092 0.420 0.420 0.334
двор€нин 0.000 0.248 0.124 0.455
землевладелец 0.023 0.217 0.000 1.000
TD>происх. не указ. 0.133 0.361 0.432 0.099
кадет 0.000 1.000 0.339 0.217

Ёто - значени€ источника дохода "жалование" и "землевладение" и такие значени€ сословной принадлежности, как "не указано" и "двор€нин". Ётот факт позвол€ет полагать, что в рассматриваемом подмножестве кадетов существовали две различные группы лиц. ƒл€ того, чтобы проверить наше предположение добавим жалование и землевладение к набору эталонных свойств. » действительно, мы видим, что землевладение тесно коррелирует с "двор€нством" (0.455) и жалование - с неуказанной сословной принадлежностью (0.432). ¬торой слой трудовиков €вл€етс€ одномодальным, совпада€ с первым по сословному происхождению и принадлежности и отлича€сь по источнику дохода (который здесь преимущественно жалование). ¬еро€тно, эту группу можно назвать сельским средним классом. ¬ терминах того времени эту группу можно назвать демократической интеллегенцией, что отчасти совпадает с пон€тием сельского среднего класса.

“аким образом, мы должны выбрать одно эталонное лицо дл€ трудовиков и два дл€ кадетов и следовать дальше по описанному сценарию. ѕо оканчанию второго цикла анализа данных мы располагаем п€тью относительно однородными классами лиц, которые могут быть поименованы в соответствии с содержательной интерпретацией их свойств: «емлевладельцы ("кадеты- землевладельцы"), »нтеллегенци€(I) ("типичные кадеты" первого цикла), »нтеллегенци€(II) ("кадеты на жаловании"), »нтеллегенци€(III) ("демократическа€ интеллегенци€") и  ресть€не ("типичные тредовики" первого цикла).

–азмытый социальный профиль »нтеллегенции(II) может представл€тьс€ неудовлетворительным. ќднако, неуказанное сословное происхождение и/или сословна€ принадлежность не есть лишь отсутствие данных. ћы можем обратитьс€ к представлению близостей и вы€вить от факт, что "высшее образование" близко двор€нскому происхождению и принадлежности, с одной стороны, и к неуказанным значени€м этих свойств, с другой. Ёто позвол€ет нам предположить, что тенденци€ не указывать сословные характеристики была свойственна образованному двор€нству, т.е. высшему слою интеллегенции. Ёто станет более €сным, если мы примем во внимание, что либералы того времени рассматривали само пон€тие сослови€ как анахронизм. Ѕолее детальное исследование показывает также, что среди "кадетов на жаловании" в свою очередь могут быть выделены две однородные подгруппы. ѕерва€ из них в целом близка по профилю к »нтеллегенции1, выделенной на первом цикле исследовани€. ¬тора€ - меньша€ и более специфична€ - группа образованных евреев.

–езультаты этого исследовани€ могут быть сведены в двух диаграммах (см. рис. 6-а и 6-б), отображающих распределение лиц из п€ти найденных кластеров среди различных фракций и обратное распределение - партийные принадлежности в каждом из кластеров. ¬тора€ диаграмма построена в предположении, что п€ть кластеров могут быть ранжированы в традиционном пор€дке слева-направо в соответствии с их социальным статусом. ќбласти на заднем плане показывают доли беспартийных и членов польской фракции в каждом кластере. “акое отображение позвол€ет нам соотнести социальные профили этих двух групп членов ƒумы, оставшихс€ за пределами нашего исследовани€, с построенной классификационной схемой.

¬озвраща€сь к той постановке задачи, котора€ была дана в начале рассмотренного примера исследовани€, мы можем сказать, что существовало соответствие между принадлежностью к фракции и социальным профилем депутата, хот€ оно не €вл€етс€ однозначным и четким. ¬ формальных терминах нами были вы€влены п€ть достаточно однородных групп объектов, принадлежность к которым хорошо согласуетс€ с их принадлежностью к априорным классам.

ѕолученные результаты следут рассматривать как предварительные. ÷елью второй части статьи было не столько представить исчерпывающее решение конкретной исторической проблемы, сколько показать в действии подход, реализованный в программе QualiDatE. «десь была сделана попытка продемонстрировать, что несмотр€ на простоту формального аппарата, лежащего в основе описываемого подхода, использование гибко управл€емых процедур классификации, плюс возможность рассматривать набор данных с различных точек зрени€, позвол€ет исследователю построить свою собственную стратегию анализа, ведущую к получению легко интепретируемых результатов различного уровн€ детализации.

–исунок 6 а –аспределение фракционной принадлежности внутри кластеров.

Ќа графике: A - кресть€не, B - »нтеллегенци€ III, C - »нтеллегенци€ II, D - »нтеллегенци€ I, E - землевладельцы

–исунок 6 б. –аспределение фракционной принадлежности внутри кластеров.

—писок литературы

1.≈.Ѕелова, "јнализ качественных данных исторических источников: альтернативный подход"// омпьютер и историческое знание, Ѕарнаул, 1994

2.—имметрична€ и асимметрична€ меры близости совпадают, когда обекты имеют равное число свойств (например, в случае файла простой табличной структуры).

3.јналогом такой классификации может служить хорошо известный метод разбиени€ по критерию "ближайшего соседа".

4.¬ действительности, это лишь фрагмент большой базы данных, составленной и исследованной Ќ.Ѕ.—елунской, Ћ.».Ѕородкиным и ё.√ригорьевой. Ѕолее подробно о материалах, на основе которых была создана рассматриваема€ база данных, можно узнать в диссертационной работе ё.√.√ригорьевой "»сточниковедческие проблемы изучени€ материалов истории создани€ I √осударственной ƒумы и первых выборов".

≈.Ѕ. Ѕелова ¬ этой статье рассматриваетс€ методика интерактивного исследовани€ неколичественных данных, извлекаемых из исторических источников. ѕредлагаемый подход предполагает активное участие исследовател€ на каждом шаге компьютерного анализ

 

 

 

¬нимание! ѕредставленный –еферат находитс€ в открытом доступе в сети »нтернет, и уже неоднократно сдавалс€, возможно, даже в твоем учебном заведении.
—оветуем не рисковать. ”знай, сколько стоит абсолютно уникальный –еферат по твоей теме:

Ќовости образовани€ и науки

«аказать уникальную работу

ѕохожие работы:

—труктурные методы распознавани€ сложноорганизованных исторических табличных форм
“ехнологи€ выбора эффективных тактик преподавател€ при моделировании процесса обучени€
√ибридные интеллектуальные человеко-машинные вычислительные системы и когнитивные процессы
Ќекоторые проблемы подготовки специалистов на основе перспективных инфор-мационных технологий
ќ синергетической концепции высшего образовани€
ѕроблемы информатизации наукоемких технологий обучени€
»нформационные технологии как инструмент повышени€ конкурентоспособности торгового предпри€ти€
ѕрограммы архиваторы
ѕрограммные средства и приЄмы работы на компьютере
ќ спецкурсе Ђ омпьютер дл€ историков философииї

—вои сданные студенческие работы

присылайте нам на e-mail

Client@Stud-Baza.ru