А ведь забавная идея - ЕСМ-система с OLAP-like интерфейсом и произвольным атрибутированием объектов. И с возможностью построения иерархических множеств объектов по разрезам кубов.
Не тренд, а детская болезнь левизны:) Тут половина веб-программерского ЖЖ только и делает, что изобретает всё новые и новые классификации, таксономии, фасеты, многомерные ключевые слова и пр. Годам к 25, правда, у них это проходит:)
У меня необходимость совершенно другая - привести огромный постоянно растущий документарный архив к виду, пригодному для аналитической обработки некоторого рода.
Я, конечно, твоей задачи не знаю, но большинство классификаторов, с которыми я за последнее время имел дело, прекрасно заменялись поиском, причём с диким повышением юзабельности. Умница Гугл это давно понял и реализовал в гугломыле.
1. Индексы человечество для чего придумало?:)
2. Вроде как есть более-менее стандартная модель: документ (объект) имеет поля, при поиске можно указывать, в каких полях оный вести…
Т.е. я ни на чём не настаиваю, но у меня есть ощущение, что прежде чем разрабатывать классификатор, стоит попробовать поиск. В частности потому, что на поддержание классификатора тоже будет уходить куча сил.
Задача не только в поиске, но и в увязывании архива с docflow со всеми неизбежными проблемами жизненного цикла документа (с одной стороны) и с системой data mining & analysis (с другой стороны). Поиск, в т.ч. и индексированный тут не канает совершенно.
Простой - не даёт. Даёт анализ статистики и поиск трендов. Тут основная идея - организовать данные, которые будут добываться (data mining) из документов образом, максимально пригодным для анализа, при этом получив возможность выборки источников данных, вписывающихся в тренд. Что наводит на мысль хранить данные ЧДА и их источники единообразно.
> Что наводит на мысль хранить данные ЧДА и их источники единообразно. а "золотое правило механики" уже отменили? парсим исходники - храним экстракт структурированно.
"документ - это не только битстрим, но и 3..4 килобуквы осмысленных данных" ;-)
no subject
Date: 2004-12-20 10:43 am (UTC)no subject
Date: 2004-12-20 10:45 am (UTC)no subject
Date: 2004-12-20 10:50 am (UTC)no subject
Date: 2004-12-20 10:55 am (UTC)У меня необходимость совершенно другая - привести огромный постоянно растущий документарный архив к виду, пригодному для аналитической обработки некоторого рода.
no subject
Date: 2004-12-20 10:59 am (UTC)Банальный поиск не спасёт отца русской демократии?
no subject
Date: 2004-12-20 11:05 am (UTC)1. Объёмы не те - перелопатить несколько гиг на каждый запрос не получится.
2. Искать в пространстве атрибутов куда проще, чем в пространстве докментов.
no subject
Date: 2004-12-20 11:09 am (UTC)1. Индексы человечество для чего придумало?:)
2. Вроде как есть более-менее стандартная модель: документ (объект) имеет поля, при поиске можно указывать, в каких полях оный вести…
Т.е. я ни на чём не настаиваю, но у меня есть ощущение, что прежде чем разрабатывать классификатор, стоит попробовать поиск. В частности потому, что на поддержание классификатора тоже будет уходить куча сил.
no subject
Date: 2004-12-20 11:17 am (UTC)Задача не только в поиске, но и в увязывании архива с docflow со всеми неизбежными проблемами жизненного цикла документа (с одной стороны) и с системой data mining & analysis (с другой стороны). Поиск, в т.ч. и индексированный тут не канает совершенно.
no subject
Date: 2004-12-20 12:42 pm (UTC)Кстати, а что такое «система data mining & analysis».
no subject
Date: 2004-12-20 12:47 pm (UTC)это такая разновидность конечного автомата :)))
> Кстати, а что такое «система data mining & analysis»
Это система, отвечающая на вопросы вида "как зависит частота применения кластерных решений в IT-системах нефтехимических производств от фазы луны?" :)
no subject
Date: 2004-12-20 01:19 pm (UTC)no subject
Date: 2004-12-20 01:23 pm (UTC)no subject
Date: 2004-12-23 10:32 am (UTC)а "золотое правило механики" уже отменили?
парсим исходники - храним экстракт структурированно.
"документ - это не только битстрим, но и 3..4 килобуквы осмысленных данных" ;-)
no subject
Date: 2004-12-20 11:07 am (UTC)