tolstopuz
v.i.p.
Народ! Есть вопрос:
Где есть и как называется библиотека для получения/отправки текстов с произвольного форума? Чужого. Хотя бы что искать...
Хочу попробовать написать бота, ведущего хоть какой-то внятный диалог...
Инструментарий в принципе подойдет любой, но предпочтительнее С++, PHP, Java...
т.е. Библиотека должна уметь получив Урл страницы - "всосать" содержимое сообщений форума (в принципе формат любой, можно даже без "разбора" на составные части типа "кто, тема, сообщение") и предоставить инструмент выдачи на форум сообщений, разумеется после логина...
Представляю себе пока это где-то так. Подскажите, хотя бы что искать в инете!!!
А может есть что готовенькое...
Заранее спасибо.
Где есть и как называется библиотека для получения/отправки текстов с произвольного форума? Чужого. Хотя бы что искать...
Хочу попробовать написать бота, ведущего хоть какой-то внятный диалог...
Инструментарий в принципе подойдет любой, но предпочтительнее С++, PHP, Java...
т.е. Библиотека должна уметь получив Урл страницы - "всосать" содержимое сообщений форума (в принципе формат любой, можно даже без "разбора" на составные части типа "кто, тема, сообщение") и предоставить инструмент выдачи на форум сообщений, разумеется после логина...
Представляю себе пока это где-то так. Подскажите, хотя бы что искать в инете!!!
А может есть что готовенькое...
Заранее спасибо.
А самому разработать такую библиотеку слабо? В принципе не вижу сложностей))
Mad_Dollar
guru
не понял конечную суть. нужно "всосать" какой-то форум, а потом на какую-либо фразу, поданную на ввод приблизительной тематики используя ранее "заряженные" данные об ответах подбирался вывод?
tolstopuz
v.i.p.
Craxx'у: сложно. В Инет-технологиях пока не силён. Да и зачем изобретать "велосипед"? Наверняка такая уже есть. Может не в таком виде...
Mad Dollar'у: Примерно. Нужна фигня, которая может в мою прогу всосать тот или иной форум (по указке)... и еще фигня, которая может выдать на такой форум выбранный кусок текста... хорошо, если еще и сама может залогиниться по имени/паролю... А вот как обрабатывать полученный текст и подбирать ответы - это как писать уже понял. Вот и хочу протестить на "смыслосодержательность"...
П.С. по-другому: нужен интерфейс ввода-вывода, а содержательную часть - уже пишу...
Mad Dollar'у: Примерно. Нужна фигня, которая может в мою прогу всосать тот или иной форум (по указке)... и еще фигня, которая может выдать на такой форум выбранный кусок текста... хорошо, если еще и сама может залогиниться по имени/паролю... А вот как обрабатывать полученный текст и подбирать ответы - это как писать уже понял. Вот и хочу протестить на "смыслосодержательность"...
П.С. по-другому: нужен интерфейс ввода-вывода, а содержательную часть - уже пишу...
ОФФ:
Владимир, Вам надоело сомому общаться на форуме ?
Владимир, Вам надоело сомому общаться на форуме ?
Пока еще нет. Просто в рамках своего проекта появляется такая возможность потестить алгоритмы хранения и распознавания содержательной части текстов... хочется посмотреть хто из нас будет грамотнее болтать на форумах...
П.С. А по теме? Как организовать такой ввод/вывод из собственной проги. И на чем такие библиотеки уже есть? Пока еще только выбираю язык на котором писать - надо бы определяться ужо...
П.С. А по теме? Как организовать такой ввод/вывод из собственной проги. И на чем такие библиотеки уже есть? Пока еще только выбираю язык на котором писать - надо бы определяться ужо...
Mad_Dollar
guru
Как организовать такой ввод/вывод из собственной проги.напишите демона, через локальный/сетевой сокет пишите туда "вопрос", и через него же читайте "ответ". а сам демон нехай уже реализовывает поиск ответа на вопрос по вашим алгоритмам, насколько я понял дать ответ на вопрос проблемы нет?
И на чем такие библиотеки уже есть?из самого тупого что в голову приходит - индексы текстового поиска в postgreSQL можно "поколупать" - из множества слов вопроса формируется множество "ответов" с разными весами. А прям влоб таких бот-библиотек как-то не видел если честно =)
Сейчас читают
Марафон стройности - 61
167900
1000
Платяной шкаф. Прочтение правил - ОБЯЗАТЕЛЬНО (часть 25)
284762
1000
Ситуация на Юго-Востоке Украины (часть 3)
275770
994
и еще фигня, которая может выдать на такой форум выбранный кусок текста... хорошо, если еще и сама может залогиниться по имени/паролю...Это называется спам-бот
Да всеравно как называется... библиотеку-то какую поискать... хоть бы название какое для ориентировки... чем заменить stdin и stdout в проге?
Извиняюсь. Посмотрел поиском про спам-боты. Не совсем то, что нужно, но, в принципе, какой-нибудь исходник переделать наверно можно под нужные цели.
Зато нашел библиотеки по ТСР. Задача на нижнем уровне стала понятнее: формируем нужные пакеты и отправляем на сервер, а потом разбираем чего пришло и отправляем ответ... а библиотек "верхнего" уровня - никак?
Зато нашел библиотеки по ТСР. Задача на нижнем уровне стала понятнее: формируем нужные пакеты и отправляем на сервер, а потом разбираем чего пришло и отправляем ответ... а библиотек "верхнего" уровня - никак?
Дык, это, зачем TCP, можно же (и нужно) юзать HTTP, про WinHttp почитай, например.
Ну оно, вроде как в самом низу сидит...
А ишо похоже нашел таки подходящую библиотеку - Curl. Теперь ищу где её взять можно...
Да. Еще "по ходу пьессы" возник вопросик: Это надо будет весь образ странички разобрать по формам - тегам - именам и понять "где-кто" - в смысле какой элемент чем наполнен и куды чего отвечать надобно-ть?
А ишо похоже нашел таки подходящую библиотеку - Curl. Теперь ищу где её взять можно...
Да. Еще "по ходу пьессы" возник вопросик: Это надо будет весь образ странички разобрать по формам - тегам - именам и понять "где-кто" - в смысле какой элемент чем наполнен и куды чего отвечать надобно-ть?
Mad_Dollar
guru
чем заменить stdin и stdout в проге?unix socket например.
Mad_Dollar
guru
А ишо похоже нашел таки подходящую библиотеку - Curl. Теперь ищу где её взять можно...в репозитории =) там же можно взять дев-пакет с заголовками для це/це++
tolstopuz
v.i.p.
Спасибки. Вчера - не осилил. Ушел спать. А так, в общих чертах, вопрос стал понятен.
ты для начала основы вэб-программирования изучи
Ой пасибки за совет... и как это я раньшее не догадалси?
вот как.. ну.. ты поставил непосильную задачу для себя
Спасибо. Ставить непосильные задачи - не такое уж и плохое качество. Хуже если никаких задач не ставить.
Извиняюсь. Посмотрел поиском про спам-боты. Не совсем то, что нужно, но, в принципе, какой-нибудь исходникГугльни
web crawler scraping code (+нужный язык)
Если нужна аналитика, то добавь в поиск
mining semantic
Весь инет завален примерами и исходниками.
Самая востребованная сейчас тема во фрилансе
Ставить непосильные задачи - не такое уж и плохое качество.гы.. сам себя не похвалишь.. ага?
Это всё, или будет еще что по теме?
alexnetalias
veteran
Ну обычно ради того, чтобы посмотреть кто умнее общается на форуме бот или человек такие проги не создают - тут вы лукавите...
Цель создания таких программ одна - это спам форумов, просто так как спамные сообщения сделанные от балды не в тему, а также вновь созданные топики на форумах, которые созданы исключительно для рекламы - их сносят модераторы... Вручную же перерывать форумы и искать тематические топики, а потом регистрироваться, логинится и самому печатать естественно такие варианты спамеров не устраивают - вот они и пытаются изобрести такую прогу, потому как она бы дала им возможность рекламиться на форумах бесплатно - а ради интереса спортивного такие вещи не создаются....
Также чтобы это все работало это нужно, чтобы система была интеллектуальной, что-то типа искуственного интеллекта и т.д., а также чтобы было защито куча вразеологических оборотов и еще больше возможных ответов и то шансы невелики, потому как в некоторых сферах и при текушем уровне развития технологий машина пока не в состоянии еще заменить человека... В итоге вы получите что, то типа бредогенератора, который лишь на один из вопросов топика возможно еще и ответит что-то в попад, но дальше на автопилоте он врятли что-то сможет ответить в попад по слыслу и грамматически, следовательно своей цели вы врятли достигните, потому как такие посты будут всегда сноситься модераторами крупных форумов и скорее всего такие посты сделанные вашей прогой остануться лишь на немодерируемых форумах, или на сгенеренных форумах такими же бредогенераторами (такое тоже уже делают)...
Также на многих форумах частенько еще и частенько сносят такие посты даже если он в тему но содержит рекламу чего-либо если у юзера всего 1 сообщение... Поэтому цели тут вы врятли достигните - просто получите очередную спам машину...
Цель создания таких программ одна - это спам форумов, просто так как спамные сообщения сделанные от балды не в тему, а также вновь созданные топики на форумах, которые созданы исключительно для рекламы - их сносят модераторы... Вручную же перерывать форумы и искать тематические топики, а потом регистрироваться, логинится и самому печатать естественно такие варианты спамеров не устраивают - вот они и пытаются изобрести такую прогу, потому как она бы дала им возможность рекламиться на форумах бесплатно - а ради интереса спортивного такие вещи не создаются....
Также чтобы это все работало это нужно, чтобы система была интеллектуальной, что-то типа искуственного интеллекта и т.д., а также чтобы было защито куча вразеологических оборотов и еще больше возможных ответов и то шансы невелики, потому как в некоторых сферах и при текушем уровне развития технологий машина пока не в состоянии еще заменить человека... В итоге вы получите что, то типа бредогенератора, который лишь на один из вопросов топика возможно еще и ответит что-то в попад, но дальше на автопилоте он врятли что-то сможет ответить в попад по слыслу и грамматически, следовательно своей цели вы врятли достигните, потому как такие посты будут всегда сноситься модераторами крупных форумов и скорее всего такие посты сделанные вашей прогой остануться лишь на немодерируемых форумах, или на сгенеренных форумах такими же бредогенераторами (такое тоже уже делают)...
Также на многих форумах частенько еще и частенько сносят такие посты даже если он в тему но содержит рекламу чего-либо если у юзера всего 1 сообщение... Поэтому цели тут вы врятли достигните - просто получите очередную спам машину...
tolstopuz
v.i.p.
Интересная мысль. А зачем спамиться на форумах??? Как-то не понимаю цели этого занятия... ежели всовывать рекламу внутрь сообщения... но это действительно вырежется модератором. Причем можно вырезать "автоматом" - всякие "урлы", джипеги и прочие "сцылки" на рекламу - легко. Они же ведь от текста отличаются на программном уровне.
На счет того, что "комп еще не может"... гм-м. Вы с "Элизой" - общались? Если нет - пообщайтесь. Весьма занятное дело. И это - не реклама. Попробуйте еще найти эту прогу на сегодняшний парк машин... (писана в году так 68-74 еще прошлого века)
Вот как раз и интересно насколько "впопад" получится... где же еще проверять как не на "форумах", разве на них 90% не тот же "бред"?
На самом деле, уже посмотрел, что есть, и что такое "спам-боты"... это не совсем та база, которую искал... по-хорошему, надо делать что-то типа "плагина" к браузеру... он всё равно страничку принимает, вот пусть и разбирает "как надо"... Если уж к вопросу рекламы, то это скорее всего плагин для интеллектуального вырезания всякой ерунды, не относящейся к запросу пользователя... т.е. "антиспам-плагин".
Щас, все равно, основную часть надо будет переделывать в "Васика" на нормальный язык... особливо с новым пониманием принципов хранения БД... с полгода уйдет "тока так". Вот и искал, начем такое пишут, дабы рефакторится сразу "по делу"... да и проверять кусками...
На счет того, что "комп еще не может"... гм-м. Вы с "Элизой" - общались? Если нет - пообщайтесь. Весьма занятное дело. И это - не реклама. Попробуйте еще найти эту прогу на сегодняшний парк машин... (писана в году так 68-74 еще прошлого века)
Вот как раз и интересно насколько "впопад" получится... где же еще проверять как не на "форумах", разве на них 90% не тот же "бред"?
На самом деле, уже посмотрел, что есть, и что такое "спам-боты"... это не совсем та база, которую искал... по-хорошему, надо делать что-то типа "плагина" к браузеру... он всё равно страничку принимает, вот пусть и разбирает "как надо"... Если уж к вопросу рекламы, то это скорее всего плагин для интеллектуального вырезания всякой ерунды, не относящейся к запросу пользователя... т.е. "антиспам-плагин".
Щас, все равно, основную часть надо будет переделывать в "Васика" на нормальный язык... особливо с новым пониманием принципов хранения БД... с полгода уйдет "тока так". Вот и искал, начем такое пишут, дабы рефакторится сразу "по делу"... да и проверять кусками...
Вау! Нашел подходячий инструментарий! MUMPS.
alexnetalias
veteran
Да просто чтобы эта штука в попад отвечала - это наверное нужно совершенно какой-то новый подход, просто допустим даже среди синонимайзеров контента еще на настоящий момент не создано такого, который бы из исходного текста получил бы полностью читабельный текст, где не терялась бы смысловая нагрузка и в тоже время он бы был написан другими словами, а здесь задачка думаю даже посложней будет...
tolstopuz
v.i.p.
Посмотрел на "творчество" онлайн генераторов и синонимизаторов контента... н-да. В своё время ещё на Агате, мы развлекались веселее: был генератор сказок, который заменял отдельные слова и предложения, в том числе включая заданные имена и проч. слова... было складнее... в том числе получались фразы типа "Разбил Василий, кличка - Репка, яичко и посадил дед Василия ...на три года."
На счет того, что "комп еще не может"... гм-м. Вы с "Элизой" - общались? Если нет - пообщайтесь. Весьма занятное дело. И это - не реклама. Попробуйте еще найти эту прогу на сегодняшний парк машин... (писана в году так 68-74 еще прошлого века)Существующие ИИ-собеседники умеют строить гладкие фразы и даже говорить в тему, однако поддержание содержательной беседы все еще остается за пределами их возможностей.
Существующие ИИ-собеседники умеют строить гладкие фразы и даже говорить в тему, однако поддержание содержательной беседы все еще остается за пределами их возможностей.
Интересно, а чем различаются эти 2 утверждения: "говорить в тему" и "поддержание содержательной беседы"?
И ещё: а так ли нужна "содержательная беседа"?
Насколько понимаю, проблема не в самой беседе, а в техниках построения "выводов", "обощений" и "заключений" - т.е. в производстве новых знаний на базе уже имеющихся.
Интересно, а чем различаются эти 2 утверждения: "говорить в тему" и "поддержание содержательной беседы"?
И ещё: а так ли нужна "содержательная беседа"?
Насколько понимаю, проблема не в самой беседе, а в техниках построения "выводов", "обощений" и "заключений" - т.е. в производстве новых знаний на базе уже имеющихся.
alexnetalias
veteran
Посмотрел на "творчество" онлайн генераторов и синонимизаторов контента... н-да.Ну, касательно онлайн генераторов - бесплатные генераторы и синонимайзеры можно сказать "отстой полнейший" ... Есть сейчас, которые более менее уже справляются с задачей, т.е. там идет в основном замена глаголов и прилагательных, а также идет добавление новых слов, такие уже более осмысленно генерят, но тем не менее все равно правки текста они требуют если делать читабельный и грамотный текст...
Интересно, а чем различаются эти 2 утверждения: "говорить в тему" и "поддержание содержательной беседы"?Если я сейчас объясню разницу, то вы поймете. И может быть даже начнете спорить с определениями, приводя примеры. А бот в ответ будет просто лить словесную воду.
Не-а. Не буду. Потому как в "базе данных" таковых не имеется. Впрочем и у Вас тоже.
Сегодня не смог установить бесплатную версию Cache... говорит, что нету какого-то файла... типа связи с апачем...
1. нафига он мне в режиме single-user, local-host?
2. У нас в Новосибе есть кто знает Mumps в варианте Cach?
Короче, помочь кто-нибудь может? Или ставить версию от Кейна?
Сегодня не смог установить бесплатную версию Cache... говорит, что нету какого-то файла... типа связи с апачем...
1. нафига он мне в режиме single-user, local-host?
2. У нас в Новосибе есть кто знает Mumps в варианте Cach?
Короче, помочь кто-нибудь может? Или ставить версию от Кейна?
Сегодня не смог установить бесплатную версию Cache... говорит, что нету какого-то файла... типа связи с апачем...Ну, если есть юзер, то тогда должно быть то, что он юзает.
1. нафига он мне в режиме single-user, local-host?
2. У нас в Новосибе есть кто знает Mumps в варианте Cach?
Короче, помочь кто-нибудь может? Или ставить версию от Кейна?
Надо же как-то это обозвать. То, что юзает.
Договорились, что все везде по любому случаю самую наипростейшую конфигурацию того, что юзают обзывать локалхостом
(а в MSSQLServer ваще есть чудесный alias, т.е. синоним - точка . - для этого дела. У него есть, правда, неприяная для новичков особенность, что его не видно ).
Ну, я лет 7 назад работал с Cache.
Если не устанавливается, то ничего с этим поделать неззя,
ищите сет-ап, который устанавливается,
это Вам подсказка провидения сверху -
не занимайтесь ерундой...
Я бы с этой Cache даже за хорошие деньги не стал бы связываться
MUMPS- это просто уничижительная характеристика вида языка, используемого в Сache, в котором язык, если я не подзабыл, также и называется - Cache.
Зачем надо было тут всех путать MUMPS-ом?
И, как Cache связано с созданием бота?
Эк Вас ломает и шатает, больно смотреть на это
PS
Обратите внимание, что применение Cache не вышло за пределы психиатрических лечебниц
Посмотрел язык и по-поводу "психиатрических лечебниц" мысль тоже появлялась... Нечто.
Запустится-то оно запустилось. Но вот чего делать дальше - пока еще не понял... Пишет, что не может соединиться с localHost 127.0.0.1[1972]. Поставил на XP Pro, которая у меня поднята на отдельной тачке ваще без сети и протоколов... вот и не могу понять толи ей типа сетку поднять, толи порт разрешить... где искать - непонятно.
А по поводу "зачем" - подскажите каким еще инструментарием можно также легко и дешево обслуживать иерархические БД объектов с такой же скоростью, паралельностью и компкатностью хранения... я вот ничего лучше - не нашел. Нужен софт или библиотека к языку, которая позволяет эффективно хранить и обрабатывать сильно ветвящиеся и разреженные неориентированные графы объектов, да еще и произвольной глубины... с объемом хранения от 1Г записей... в разумное время...
Думаю что для MUMPS это вполне "по силам". По крайней мере, то что уже видел - позволяет делать такие выводы.
Одно не могу понять: как софт, на котором работает более 200 ведущих банков, правительственные органы нескольких стран, ведущие корпорации (Кока-кола например), работает без особых модификаций уже лет так 30, да еще и на любых платформах (переносим легче чем С), не требует специальных знаний в программировании - и мало известен в "широких кругах"??? Как он ваще прошел "мимо меня" в своё время...
П.С. Только рекламировать РСУБД - не надо. Не вытянут.
То, что нашел на просторах инет:
Сравнительные характеристики по скорострельности:
1. MUMPS vs Oracle - на больших объемах (>1M записей) и нескольких пользователях - выигрыш около 6раз.
2. MUMPS vs 1C - выигрыш более 10раз. Косвенная оценка - 2 порядка.
3. Если учесть, что MySQL проигрывает Oracle на типовых запросах в несколько раз. То вопрос тоже отпадает.
КПД хранения сильно ветвящихся деревьев - более 50%.
То, что нашел на просторах инет:
Сравнительные характеристики по скорострельности:
1. MUMPS vs Oracle - на больших объемах (>1M записей) и нескольких пользователях - выигрыш около 6раз.
2. MUMPS vs 1C - выигрыш более 10раз. Косвенная оценка - 2 порядка.
3. Если учесть, что MySQL проигрывает Oracle на типовых запросах в несколько раз. То вопрос тоже отпадает.
КПД хранения сильно ветвящихся деревьев - более 50%.
Запустится-то оно запустилось. Но вот чего делать дальше - пока еще не понял... Пишет, что не может соединиться с localHost 127.0.0.1[1972]. Поставил на XP Pro, которая у меня поднята на отдельной тачке ваще без сети и протоколов... вот и не могу понять толи ей типа сетку поднять, толи порт разрешить... где искать - непонятно.Гы!
Гугльните
Как установить Microsoft Loopback Adapter
Это такое изобретение
(я бы даже сказал программный интерфейс, если бы знал, что это такое),
которая нужна если у Вас нет сетевой платы
или же она подключена к интернету с автоопределением,
а интернета нема и тд, и тп
- подскажите каким еще инструментарием можно также легко и дешево обслуживать иерархические БД объектов с такой же скоростью, паралельностью и компкатностью хранения...Легко.
MS SQL Server 2008 - hierarchyid data type
Одно не могу понять: как софт, на котором работает более 200 ведущих банков, правительственные органы нескольких стран, ведущие корпорации (Кока-кола например), работает без особых модификаций уже лет так 30, да еще и на любых платформах (переносим легче чем С), не требует специальных знаний в программировании - и мало известен в "широких кругах"??? Как он ваще прошел "мимо меня" в своё время...Ну? Работает и работает
На Шаттлах тоже суперкомпы для своего времени стоят - 4 процессора по то ли по 64К, то ли по 640
И надо возить с собой несколько десятков томов документации,
чтобы заглядывать в коды выдаваемых ошибок
То, что 30 лет работают, должно было Вам что-то подсказать об интеллекте работающих и используемого...
Ваще я тут выпендриваюсь только по одному поводу - жалко мне Ваших усилий и времени,
не лезьте Вы в инструментарий психлечебниц
То, что нашел на просторах инет:Посм. ещё применение Кобола к индексированным файлам (их, кстати, файловая версия 1С юзает).
Сравнительные характеристики по скорострельности:
Там выигрыш будет и поболе... для специально придуманных примеров
Это ж все примеры пишутся и делаются теми,
кто заранее нацелен на эти выводы и результаты
да еще и на любых платформах (переносим легче чем С), не требует специальных знаний в программировании - и мало известен в "широких кругах"??? Как он ваще прошел "мимо меня" в своё время...Можно ссылки на этот бред почитать?
1. MUMPS vs Oracle - на больших объемах (>1M записей) и нескольких пользователях - выигрыш около 6раз.Как можно сравнить категорию (группу) разновидности программных языков MUMPS с тулзами и платформами?
2. MUMPS vs 1C - выигрыш более 10раз. Косвенная оценка - 2 порядка
3. Если учесть, что MySQL проигрывает Oracle на типовых запросах в несколько раз. То вопрос тоже отпадаетMySQL - это, строго говоря, ваще не база данных,
а менеджер таблиц
Он не предназначен для конкурирования и сравнения с СУБД
До появления РСУБД использовались иерархические "базы данных", которые были полностью вытеснены РСУБД .
Вам нужно порыться среди софта 40-летней давности и будет Вам готовое "щастье"
А по поводу "зачем" - подскажите каким еще инструментарием можно также легко и дешево обслуживать иерархические БД объектов с такой же скоростью, паралельностью и компкатностью хранения...Я что-то серьёзно упустил в развитии темы.
Давайте сначала - что Вы имеете в виду под термином "бот"? и при чём тут ваще базы данных?
А в одном сообщении нельзя было написать? Неудобно читать как-то. Да и отвечать - тоже.
По сравнениям: меня ваще мало волнуют определения и специальные тесты. Как и зачем они пишутся - тоже знаю. В своё время даже делал свои для сравнения...
Сравнение с 1С было где-то на sql.ru на реально работающем предприятии и данных в Латвии.
Опять же "база или нет" mysql - спорить не собираюсь. Пользуется как РСУБД и ладно.
Все приведенные выводы сделаны на основе того, что опубликовано в инете, поэтому на "абсолютность" - не претендую, да и не ставил целью кого-то в чём-то "убедить". Просто сказал почему пришел сам к такому выводу "для себя". Думаю что если бы было абсолютно выигрышное ПО - им бы все пользовались давным давно. А так - каждой задаче - своё.
Вот для моей задачи - другого пока не вижу и Вы не подсказали. С какой скоростью будет работать и сколько потребует ресурсов MS SQL пусть и для конкретного типа данных в случае когда надо "перелопачивать" от 1000 млн. записей (пусть и очень маленьких - около 120байт), методами РСУБД и сколько уйдет дополнительного места на хранение того, что легко отпимизируется как по скорости, так и по хранению организацией в рамках иерархии объектного графа?
Как пример, нашел на Cache словарь Зализняка - ну вот не верю, что на MS SQL его содержимое упакуется в те же 5.5Мб... да еще и с хранимыми процедурами морфоразбора... а ведь это даже не малая часть такого "бота"...
Вот и к вопросу о "боте". Бот - может и не совсем правильное название. Как вариант проверки способности компа разбирать текст на форумах и правильно вести диалог...
По сравнениям: меня ваще мало волнуют определения и специальные тесты. Как и зачем они пишутся - тоже знаю. В своё время даже делал свои для сравнения...
Сравнение с 1С было где-то на sql.ru на реально работающем предприятии и данных в Латвии.
Опять же "база или нет" mysql - спорить не собираюсь. Пользуется как РСУБД и ладно.
Все приведенные выводы сделаны на основе того, что опубликовано в инете, поэтому на "абсолютность" - не претендую, да и не ставил целью кого-то в чём-то "убедить". Просто сказал почему пришел сам к такому выводу "для себя". Думаю что если бы было абсолютно выигрышное ПО - им бы все пользовались давным давно. А так - каждой задаче - своё.
Вот для моей задачи - другого пока не вижу и Вы не подсказали. С какой скоростью будет работать и сколько потребует ресурсов MS SQL пусть и для конкретного типа данных в случае когда надо "перелопачивать" от 1000 млн. записей (пусть и очень маленьких - около 120байт), методами РСУБД и сколько уйдет дополнительного места на хранение того, что легко отпимизируется как по скорости, так и по хранению организацией в рамках иерархии объектного графа?
Как пример, нашел на Cache словарь Зализняка - ну вот не верю, что на MS SQL его содержимое упакуется в те же 5.5Мб... да еще и с хранимыми процедурами морфоразбора... а ведь это даже не малая часть такого "бота"...
Вот и к вопросу о "боте". Бот - может и не совсем правильное название. Как вариант проверки способности компа разбирать текст на форумах и правильно вести диалог...
Сорри, не посмотрел сразу. Иерархический тип данных, как он описан в MSDN - хорош для не сильно ветвящихся деревьев. Я же сразу писал деревья(точнее граф) - сильно ветвящийся. Ну скажем количество потомков может равняться количеству всех записей - т.е. вполне нормальный диапазон вероятных значений: от 2000 до 2млн. шт... Скока там бит "на представление" каждой(!) записи уйдет?
Вот для моей задачи - другого пока не вижу и Вы не подсказали. С какой скоростью будет работать и сколько потребует ресурсов MS SQL пусть и для конкретного типа данных в случае когда надо "перелопачивать" от 1000 млн. записей (пусть и очень маленьких - около 120байт), методами РСУБД и сколько уйдет дополнительного места на хранение того, что легко отпимизируется как по скорости, так и по хранению организацией в рамках иерархии объектного графа?Вы, что - пишите на форуме, прочитав, записав и соптимизировав в голове миллионы сообщений?
а, потом, написав, упаковываете мозги и складываете их в тот же склад?
Зачем это нужно? В крайнем случае просто проиндексируете контент in-situ с url-cсылками,
он же уже хранится на вебсайте. Более того, можно избежать и этого, просто задействовав имеюшиеся на инете поисковики
Откуда здесь дерево-то берётся???
Это, скорее, многоразмерная задача.
Для них применяются olap кубы.
Вам сколько раз нужно перелопачивать миллионы записей, неужели более одного раза? и зачем? может сотен последних хватит?
Мне неохота рыться, но насколько я припоминаю рыночные "преимущества" Cache отнюдь не в деревьях и не в храненни данных, а втом что там смазаны границы между форматом хранения данных и форматом их использования в run-time
(не надо конвертировать их между хранилищем и оперативной памятью)
Кстати, Пушкин во всех своих произведениях использовал максимум 21 тыс. слов.
Откуда Ваши террабайты-то берутся?
Это Ваше видение решения задачи ИИ в части обработки текстов. У меня несколько другое решение видится. Бот, как и писал - нужен "для проверки". Но ведь это не отменяет "общего" применения, не правда ли?
Насколько сейчас уже понимаю (почитав и слегка попробовав) рыночные преимущества "Каши" - в единстве подхода к решению задачи (как по хранению, так и "бизнес-логики") и устранению процесса "переколбашивания" объектно-ориентированной исходной природы данных в реляционную модель алгебры множеств с устранением всякой семантики, которую потом приходится "довешивать" отдельными методами. Отсюда и "живучесть" решений.
Жаль, что "существенный" недостаток системы - язык программирования. Но, опять же, язык - это всего лишь язык и не больше. В этом смысле PHP - гораздо более коряв, да и не язык ваще, если уж вспоминать "определения". Так, набор залипух.
В общении стараемся не нарушать п. 6 и п. 7
"Многие вещи нам не понятны не в силу их сложности, но токмо потому, что не входят в круг наших понятий". Где-то так.
Кроме оскорбительной тематики, другие - просто еще не попали в СУБД?
Какие еще перлы будут?
Кроме оскорбительной тематики, другие - просто еще не попали в СУБД?
Какие еще перлы будут?
Двигается?
Я тут веду переговоры по разработке scraper/webcrawler.
Так в нём ваще не будет базы данных, дерево файлов только.
Да и то не для работы, а для передачи результатов.
Хотел бы понять, что я недорабатываю, не использую базы данных
Я тут веду переговоры по разработке scraper/webcrawler.
Так в нём ваще не будет базы данных, дерево файлов только.
Да и то не для работы, а для передачи результатов.
Хотел бы понять, что я недорабатываю, не использую базы данных
Так в нём ваще не будет базы данных, дерево файлов только.Любая структурированная совокупность данных является базой данных. Файлы в том числе.
Любая структурированная совокупность данных является базой данных. Файлы в том числе.Это Вы, наверное, про MySQL?
Вы слышали про ACID, связи, транзакционность, data mining, olap кубы, репликации, распределенность и т.д.?
Нет, я только видел. Все эти слова относятся уже к анализу и управлению базами данных, либо являются одной из разновидностей БД. Но база данных, основанная на файлах, имеет полное право называться Базой Данных. Иерархической Базой Данных. И не спорьтеЛюбая структурированная совокупность данных является базой данных. Файлы в том числе.Вы слышали про ACID, связи, транзакционность, data mining, olap кубы, репликации, распределенность и т.д.?