Архив Новостей Все о Щекотке Реальность, как она есть Форум Щекотка.Арт Подробности
АвторСообщение
постоянный участник




Сообщение: 201
Зарегистрирован: 27.10.11
Откуда: Земля
Рейтинг: 2
ссылка на сообщение  Отправлено: 22.09.12 03:50. Заголовок: Энтропия


Провела небольшое самостоятельное исследование. Написала программу, которая определяет энтропию русскоязычного текста, и прогнала через неё многие выложенные на форуме рассказы. В итоге получила значения энтропии для сочинений 13-и авторов. К сожалению, пока что моя программка вычисляет лишь энтропию первого порядка, но думаю в ближайшем времени доработать и до нахождения второго и третьего порядков. Пока же предлагаю всем ознакомиться с результатами:
@НЕЖНЫЙ ЛЕОПАРД@	4,4429 
KRR 4,4147
SpiralExistence 4,4036
bomb.3006@bk.ru 4,3959
Homyak 4,3958
Wilka 4,3930
ti-j 4,3777
I-Bell 4,3726
adm-shekotun 4,3638
Viola 4,3611
Ickis 4,3610
mark 4,3580
азазелла 4,3088

Выводы делайте сами.
P.S.: И всё-таки я рада, что оказалась среди первых, хотя и обидно, что не самой первой.

Положительный / отрицательный статус Спасибо: 0 
ПрофильЦитата Ответить
Ответов - 14 [только новые]


Сирин




Сообщение: 3546
Зарегистрирован: 21.03.06
Откуда: РФ, Москва
Рейтинг: 23
ссылка на сообщение  Отправлено: 22.09.12 10:47. Заголовок: Два вопроса. 1. Что ..


Два вопроса.
1. Что ты в данном случае имеешь ввиду? Степень вариативности?
2. Какой тип мат.модели использовала в программе?

Ну, и ремарка. Собственно, кроме тебя и, в несколько меньшей степени, Леопарда все остальные авторы писали именно тематические вещи. У вас же - про вообще.
То есть, скорее всего именно вас двоих и следует исключить из рейтинга ;) А вот KRR - эт да. Чисто тематический.
Еще, очень странно отсутствие Jul. Думается, на первый взгляд, она могла бы быть лидером

Спасибо: 0 
ПрофильЦитата Ответить
постоянный участник




Сообщение: 202
Зарегистрирован: 27.10.11
Откуда: Земля
Рейтинг: 2
ссылка на сообщение  Отправлено: 22.09.12 13:05. Заголовок: 1. Энтропия текста -..


1. Энтропия текста - это мера его хаотичности. Вообще энтропия описывает избыточность любой информации. Чем больше энтропия - тем более избыточны рассматриваемые данные.
А вот однозначно говорить о зависимости "художественности" некоего литературного произведения от энтропии его текста я бы не стала. Тем более, что пока что я нашла только энтропию по буквам, а не по словам; тем более энтропию первого порядка (т.е. минимальный элемент при расчёте - один символ, одна буква).
Просто для справки: Энтропия сочинений даже писателей-классиков может сильно различаться. И хотя большинство из них находятся приблизительно на одном уровне по хаотичности художественного языка, есть отдельные имена, что вырываются резко вперёд или даже назад. Например, очень низка энтропия произведений К.Г. Паустовского - самое низкое значение среди классиков русской / советской литературы; а самое высокое значение наблюдается у М.А. Шолохова. Говорит ли это, что Паустовский плохой писатель? Я б не сказала. С другой стороны, как ни странно может показаться на первый взгляд - энтропия стихотворного текста и прозы приблизительно равны, энтропия А.С. Пушкина и В.В. Маяковского также отличаются мало. Так что слишком поспешных выводов из моего исследования делать не стоит.
2. Вначале подсчитываю кол-во использования каждой буквы в тексте, затем делю получившийся результат для каждой буквы на общее кол-во знаков в тексте, в итоге получаю вероятность каждой буквы в тексте. А дальше эти самые вероятности подставляю в формулу энтропии системы с конечным числом возможных состояний.
Замечу, что заглавные и строчные формы одной и той же буквы я считаю одной буквой (думаю, это естественно). Также "е" и "ё" в моей модели - один и тот же знак, чтобы уравнять тех, кто "ё" использует, с теми, кто предпочитает ставить всегда "е". Знаки препинания не учитываются, однако пробелы - да.
По ремарке. Кто такая Jel? Я пролистала всю тему "Творчество форумчан", но не нашла ни одного сочинения её. Если укажешь мне на её сочинения, я с удовольствием проанализирую и её тексты.
И ещё замечу: Я включила в список исследуемых авторов тех, кто написал в "Творчестве форумчан" не слишком мало, притом хотя бы что-то писал не так давно.
А вообще это исследование - что-то вроде пробы. В идеале хочется найти энтропию не по буквам, а по словам, притом как минимум первого, второго и, желательно, третьего порядков. Вскоре постараюсь сделать. Вот та уже и какие-никакие выводы делать можно будет.

Положительный / отрицательный статус Спасибо: 0 
ПрофильЦитата Ответить
Сирин




Сообщение: 3552
Зарегистрирован: 21.03.06
Откуда: РФ, Москва
Рейтинг: 23
ссылка на сообщение  Отправлено: 22.09.12 16:42. Заголовок: Про энтропию в твоем..


Про энтропию в твоем исследовании - ясно.
Про источник - текстов. Используя раздел "творчество форумчан" делаешь выборку даже в рамках форума не репрезентативной. Изначально, самые интересные рассказы вообще не выкладывались на форуме, а сразу же шли в раздел сайта с рассказами. Погляди там. И мои найдешь, тех что на форуме нет, и Jul и некоторых других.
А как специалист по исследованиям поинтересуюсь задачами, которые ставились перед этой работой. Может есть более адекватные методы посчитать что-то, тебе интересное?

Спасибо: 0 
ПрофильЦитата Ответить
постоянный участник




Сообщение: 203
Зарегистрирован: 27.10.11
Откуда: Земля
Рейтинг: 2
ссылка на сообщение  Отправлено: 22.09.12 17:29. Заголовок: Теперь ясно. Посмотр..


Теперь ясно. Посмотрю и материалы на сайте. Но, наверное, уже когда будет готова программка для расчёта по словам, а не буквам.
Задачи? Как таковой задачи, пожалуй, нет. Тут скорее простое любопытство, а точнее - хочется увидеть какую-нибудь закономерность. Будет закономерность - тогда и задачи точные можно будет выдвигать для дальнейшего изучения.

Положительный / отрицательный статус Спасибо: 0 
ПрофильЦитата Ответить
постоянный участник




Сообщение: 895
Зарегистрирован: 13.04.07
Откуда: РФ
Рейтинг: 12
ссылка на сообщение  Отправлено: 22.09.12 19:36. Заголовок: SpiralExistence, со ..


SpiralExistence, со школы стремился минимумом слов передать максимум информации

"Военное дело просто и вполне доступно здравому уму человека. Но воевать сложно."
Проверено на личном опыте.
Спасибо: 1 
ПрофильЦитата Ответить
постоянный участник




Сообщение: 204
Зарегистрирован: 27.10.11
Откуда: Земля
Рейтинг: 2
ссылка на сообщение  Отправлено: 22.09.12 20:14. Заголовок: Просчитала ещё для ш..


Просчитала ещё для шестерых:
wndr			4,4107 
Drozd 4,3944
lerika 4,3736
Lonely_man 4,3656
Jul 4,3554
МЕДВЕДЬ-ЩЕКОТУН 4,3455


Положительный / отрицательный статус Спасибо: 0 
ПрофильЦитата Ответить
постоянный участник




Сообщение: 205
Зарегистрирован: 27.10.11
Откуда: Земля
Рейтинг: 2
ссылка на сообщение  Отправлено: 23.09.12 00:52. Заголовок: To mark: Я ни в коем..


To mark:
Я ни в коем случае не критикую и не пытаюсь сказать, что кто-то тут пишет плохо (специально, чтобы такого неверного понимания моих данных не было, упомянула про разброс энтропии среди классиков). Так что зря оправдываетесь. В данном случае энтропия - всего лишь математическая характеристика стиля письма.

Положительный / отрицательный статус Спасибо: 0 
ПрофильЦитата Ответить
Сирин




Сообщение: 3557
Зарегистрирован: 21.03.06
Откуда: РФ, Москва
Рейтинг: 24
ссылка на сообщение  Отправлено: 27.09.12 08:39. Заголовок: Меня еще пересчитай,..


Меня еще пересчитай, с учетом рассказов сайта ;)

Спасибо: 0 
ПрофильЦитата Ответить
постоянный участник




Сообщение: 207
Зарегистрирован: 27.10.11
Откуда: Земля
Рейтинг: 3
ссылка на сообщение  Отправлено: 27.09.12 16:03. Заголовок: To adm-shekotun: Теб..


To adm-shekotun:
Тебя я изначально с учётом рассказов сайта считала. Ты там как Sirin обозначен, верно?

Положительный / отрицательный статус Спасибо: 0 
ПрофильЦитата Ответить
Сирин




Сообщение: 3558
Зарегистрирован: 21.03.06
Откуда: РФ, Москва
Рейтинг: 24
ссылка на сообщение  Отправлено: 27.09.12 16:24. Заголовок: SpiralExistence пише..


SpiralExistence пишет:

 цитата:
Ты там как Sirin обозначен, верно?


Точно, только там рассказика 4-ре есть

Спасибо: 0 
ПрофильЦитата Ответить



Сообщение: 397
Зарегистрирован: 14.07.12
Откуда: Украина, Николаев
Рейтинг: 1
ссылка на сообщение  Отправлено: 26.11.12 19:23. Заголовок: SpiralExistence пише..


SpiralExistence пишет:

 цитата:
не самой первой.


Так интересно узнать, кто первый?

SpiralExistence
А что это за цифры ты считаешь, ответь, будь добра?

О радио "Воруй-Убивай". При поддержке компании "Колись-веселись". первый Николаевский быдло-фест с помойно-развлекательной программой "Шмары Семки и Шансон" Спасибо: 0 
ПрофильЦитата Ответить
постоянный участник




Сообщение: 324
Зарегистрирован: 27.10.11
Откуда: Земля
Рейтинг: 3
ссылка на сообщение  Отправлено: 26.11.12 19:40. Заголовок: To SpiralExistence: ..


To SpiralExistence:
Скорее не так - хотелось бы быть первой. Ну, по словам, т.к., всё-таки, энтропией по буквам оценивать общий лексикон человека - явно не дело, хотя какая-никакая корреляция и тут будет.
Уже написала - энтропию текста по символам.
To all:
Постараюсь вскоре к этой теме вернуться. Пока что слишком занята, чтоб программу писать новую (которая по словам считать уже будет).

Положительный / отрицательный статус Спасибо: 0 
ПрофильЦитата Ответить
постоянный участник




Сообщение: 773
Зарегистрирован: 08.02.07
Откуда: Минск
Рейтинг: 10
ссылка на сообщение  Отправлено: 27.11.12 14:55. Заголовок: SpiralExistence пише..


SpiralExistence пишет:

 цитата:
Постараюсь вскоре к этой теме вернуться. Пока что слишком занята, чтоб программу писать новую (которая по словам считать уже будет).



Можно банально посжимать, скажем, 5кб текста каждого автора зипом. Чем больше получившийся архив - тем больше количество инфы в тексте :-)

Спасибо: 0 
ПрофильЦитата Ответить
постоянный участник




Сообщение: 327
Зарегистрирован: 27.10.11
Откуда: Земля
Рейтинг: 3
ссылка на сообщение  Отправлено: 27.11.12 19:38. Заголовок: Дык алгоритм zip'..


Дык алгоритм zip'а, во-первых, работает побитно (точнее, со словами бит различной длины) - следовательно, к оценке по словам языка отношения не имеет; а во-вторых, архивирование не позволяет точно оценить энтропию, т.к. почти всегда (да что уж там - вообще всегда, если только мы не будем специально подстраивать под алгоритм то, что хотим заархивировать) степень сжатия будет всё-таки меньше энтропии; в-третьих, часть (пусть и не столь большая) всё равно займёт словарь, что ещё сильнее исказит оценку.

Положительный / отрицательный статус Спасибо: 0 
ПрофильЦитата Ответить
Ответ:
1 2 3 4 5 6 7 8 9
видео с youtube.com картинка из интернета картинка с компьютера ссылка файл с компьютера русская клавиатура транслитератор  цитата  кавычки оффтопик свернутый текст

показывать это сообщение только модераторам
не делать ссылки активными
Имя, пароль:      зарегистрироваться    
Тему читают:
- участник сейчас на форуме
- участник вне форума
Все даты в формате GMT  3 час. Хитов сегодня: 111
Права: смайлы да, картинки да, шрифты нет, голосования нет
аватары да, автозамена ссылок вкл, премодерация вкл, правка нет



Designed by Dragon.911 © 2007