dzz: Dizzy の冬 (Default)
[personal profile] dzz
А ведь забавная идея - ЕСМ-система с OLAP-like интерфейсом и произвольным атрибутированием объектов. И с возможностью построения иерархических множеств объектов по разрезам кубов.

Date: 2004-12-20 10:43 am (UTC)
From: [identity profile] david-m.livejournal.com
Блин, и ты туда же…

Date: 2004-12-20 10:45 am (UTC)
From: [identity profile] dzz.livejournal.com
А кто ещё? Тренд, не иначе...

Date: 2004-12-20 10:50 am (UTC)
From: [identity profile] david-m.livejournal.com
Не тренд, а детская болезнь левизны:) Тут половина веб-программерского ЖЖ только и делает, что изобретает всё новые и новые классификации, таксономии, фасеты, многомерные ключевые слова и пр. Годам к 25, правда, у них это проходит:)

Date: 2004-12-20 10:55 am (UTC)
From: [identity profile] dzz.livejournal.com
Веб-программеры могут сколько угодно болеть :)

У меня необходимость совершенно другая - привести огромный постоянно растущий документарный архив к виду, пригодному для аналитической обработки некоторого рода.

Date: 2004-12-20 10:59 am (UTC)
From: [identity profile] david-m.livejournal.com
Какая разница? Добавить к этому веб-интерфейс, и задача будет сведена к предыдущей.

Банальный поиск не спасёт отца русской демократии?

Date: 2004-12-20 11:05 am (UTC)
From: [identity profile] dzz.livejournal.com
Нет, конечно.

1. Объёмы не те - перелопатить несколько гиг на каждый запрос не получится.

2. Искать в пространстве атрибутов куда проще, чем в пространстве докментов.

Date: 2004-12-20 11:09 am (UTC)
From: [identity profile] david-m.livejournal.com
Я, конечно, твоей задачи не знаю, но большинство классификаторов, с которыми я за последнее время имел дело, прекрасно заменялись поиском, причём с диким повышением юзабельности. Умница Гугл это давно понял и реализовал в гугломыле.

1. Индексы человечество для чего придумало?:)

2. Вроде как есть более-менее стандартная модель: документ (объект) имеет поля, при поиске можно указывать, в каких полях оный вести…

Т.е. я ни на чём не настаиваю, но у меня есть ощущение, что прежде чем разрабатывать классификатор, стоит попробовать поиск. В частности потому, что на поддержание классификатора тоже будет уходить куча сил.

Date: 2004-12-20 11:17 am (UTC)
From: [identity profile] dzz.livejournal.com
Дав, ну ты как маленький :)

Задача не только в поиске, но и в увязывании архива с docflow со всеми неизбежными проблемами жизненного цикла документа (с одной стороны) и с системой data mining & analysis (с другой стороны). Поиск, в т.ч. и индексированный тут не канает совершенно.

Date: 2004-12-20 12:42 pm (UTC)
From: [identity profile] david-m.livejournal.com
Ну, я не настаиваю, я со всякими docflow дела не имел.

Кстати, а что такое «система data mining & analysis».

Date: 2004-12-20 12:47 pm (UTC)
From: [identity profile] dzz.livejournal.com
> Ну, я не настаиваю, я со всякими docflow дела не имел.

это такая разновидность конечного автомата :)))

> Кстати, а что такое «система data mining & analysis»

Это система, отвечающая на вопросы вида "как зависит частота применения кластерных решений в IT-системах нефтехимических производств от фазы луны?" :)

Date: 2004-12-20 01:19 pm (UTC)
From: [identity profile] david-m.livejournal.com
А разве простой срез куба даёт ответ на этот вопрос?

Date: 2004-12-20 01:23 pm (UTC)
From: [identity profile] dzz.livejournal.com
Простой - не даёт. Даёт анализ статистики и поиск трендов. Тут основная идея - организовать данные, которые будут добываться (data mining) из документов образом, максимально пригодным для анализа, при этом получив возможность выборки источников данных, вписывающихся в тренд. Что наводит на мысль хранить данные ЧДА и их источники единообразно.

Date: 2004-12-23 10:32 am (UTC)
From: [identity profile] jno2004.livejournal.com
> Что наводит на мысль хранить данные ЧДА и их источники единообразно.
а "золотое правило механики" уже отменили?
парсим исходники - храним экстракт структурированно.

"документ - это не только битстрим, но и 3..4 килобуквы осмысленных данных" ;-)

Date: 2004-12-20 11:07 am (UTC)
From: [identity profile] dzz.livejournal.com
А что, у веб-пипл стоит задача анализа?

Profile

dzz: Dizzy の冬 (Default)
dzz

August 2018

S M T W T F S
   1234
567891011
1213 1415161718
1920 2122232425
262728293031 

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Dec. 24th, 2025 09:06 pm
Powered by Dreamwidth Studios