А ведь забавная идея - ЕСМ-система с OLAP-like интерфейсом и произвольным атрибутированием объектов. И с возможностью построения иерархических множеств объектов по разрезам кубов.
Задача не только в поиске, но и в увязывании архива с docflow со всеми неизбежными проблемами жизненного цикла документа (с одной стороны) и с системой data mining & analysis (с другой стороны). Поиск, в т.ч. и индексированный тут не канает совершенно.
Простой - не даёт. Даёт анализ статистики и поиск трендов. Тут основная идея - организовать данные, которые будут добываться (data mining) из документов образом, максимально пригодным для анализа, при этом получив возможность выборки источников данных, вписывающихся в тренд. Что наводит на мысль хранить данные ЧДА и их источники единообразно.
> Что наводит на мысль хранить данные ЧДА и их источники единообразно. а "золотое правило механики" уже отменили? парсим исходники - храним экстракт структурированно.
"документ - это не только битстрим, но и 3..4 килобуквы осмысленных данных" ;-)
no subject
Date: 2004-12-20 11:17 am (UTC)Задача не только в поиске, но и в увязывании архива с docflow со всеми неизбежными проблемами жизненного цикла документа (с одной стороны) и с системой data mining & analysis (с другой стороны). Поиск, в т.ч. и индексированный тут не канает совершенно.
no subject
Date: 2004-12-20 12:42 pm (UTC)Кстати, а что такое «система data mining & analysis».
no subject
Date: 2004-12-20 12:47 pm (UTC)это такая разновидность конечного автомата :)))
> Кстати, а что такое «система data mining & analysis»
Это система, отвечающая на вопросы вида "как зависит частота применения кластерных решений в IT-системах нефтехимических производств от фазы луны?" :)
no subject
Date: 2004-12-20 01:19 pm (UTC)no subject
Date: 2004-12-20 01:23 pm (UTC)no subject
Date: 2004-12-23 10:32 am (UTC)а "золотое правило механики" уже отменили?
парсим исходники - храним экстракт структурированно.
"документ - это не только битстрим, но и 3..4 килобуквы осмысленных данных" ;-)