Алгоритм оценки содержательного разнообразия

1. Определение предметной области, с позиций кото­рой будет рассматриваться содержание. Что в общем и целом нас интересует в данном тексте или в данных тек­стах ?

2. Определение основных категорий анализа:

2.1. Дедуктивно: на основе представлений аналитика об основных компонентах — сторонах — данной предметной области. Априорное — до опыта — вы-

48

деление тем, подтем, микротем, которые могут (или должны) быть раскрыты в тексте;

2.2. Индуктивно: на основе впечатления от подлежа­щего анализу текста (текстов). О чем именно в нем говориться? Выделение тем, подтем, микротем, фактически раскрытых в тексте (текстах).

3. Выделение в тексте единиц счета — слов и/или выра­жений — и распределение их по категориям.

4. Подсчет количества различных единиц L и частоты каждой из них f , где i == 1, 2, .... L.

5. Расчет относительной частоты — частотности р^ — для каждой из выделенных единиц содержания как отно­шения ее частоты f к общей сумме всех единиц Xi, с точ­ностью до одной сотой (0,01):

f 15'tf

(как показывает практика, большая точность здесь не требуется).

6. Оценка разнообразия, или неопределенности, для каждой единицы (по К. Шеннону, в битах):

h, = - Р, log; p„ бит.

На практике используется таблица перехода от отно­сительных частот р к оценкам неопределенности li (таб­лица 4).

Таблица 4

Значения h= — plog^ p, в битах. Выдержки из таблицы 20А (по: 9. С. 244 - 245)

    0,00 0 01 0 02 0,03 0,04 0,05 0,06 0,07 0 08 0 09
0,0 0 0 066 0 113 0,152 0,186 0,216 0,244 0,269 0 292 0 313
0,1 0,332 0 350 0 367 0,383 0,397 0,410 0,423 0,435 0 445 0 455
0,2 0,464 0 473 0 481 0,488 0,494 0,500 0,505 0,510 0 514 0 518
0,3 0,521 0 524 0 526 0,528 0,529 0,530 0,531 0,531 0 530 0 530
0,4 0,529 0 527 0 526 0,524 0,521 0,518 0,515 0,512 0 508 0 504
0,5 0,500 0 495 0 491 0.485 0,480 0,474 0,468 0.462 0 456 0 449
0,6 0,442 0 435 0 428 0,420 0,412 0,404 0,396 0,387 0 378 0 369
0,7 0,360 0 351 0 341 0,331 0,322 0,311 0,301 0,290 0 280 0 269
0,8 0,258 0 246 0 235 0,223 0,211 0,199 0,187 0,175 0 162 0 150
0,9 0,137 0 124 0 111 0,097 0,084 0,070 0.056 0,043 0 029 0 014

 

49

7. Подсчет суммарной оценки разнообразия для каж­дой категории анализа и для текста в целом:

L

Н = I h, бит.

1

8. Оценка доли общего разнообразия (в %), приходя­щейся на отдельные категории — темы, подтемы, микро­темы... — в рамках текста.

Пример реализации алгоритма

Возьмем самый простой случай из четырех рассмот­ренных: сочинение четвероклассницы Б. М.

«У меня есть подружка Света. Мы очень давно познако­мились. Ходили в один садик, учимся в одном классе. На улице мы играем в мячик, в прятки, в догонялки. Мы друг друга не оставляем в беде. Света очень хороший друг! У ме­ня есть сестренка. Света помогает мне с ней нянчиться».