Снова хочется странного

Вокруг 2025 год, парад нейросетей с LLM и распознаванием речи, но я до сих пор не вижу:

1. Опенсорсного голосового помощника для Linux, способного работать локально, т.е. без подключения к интернету, но с качественным распознаванием речи и приятным уху TTS, пусть и на хорошей видеокарте.

2. Персонализируемого голосового помощника под Android (чтобы можно было менять обращение и голос) c локальным распознаванием и генерацией речи. Или без локального, но, хотя бы, с минимальной кастомизацией из скобок.

3. Какого-либо вменяемого протокола для обмена голосовыми командами в виде RFC.

Всё, что нашёл - либо насмерть сетевые Окей-Гугл/Алиса/Маруся, либо "вот тебе, батенька, ведро с гайками и баллон кислорода, можешь собрать из них космический корабль". На сборку космического корабля с нуля нет ни времени, ни сил, но есть идеи, как это привязать к управлению разными штуками на верхнем уровне.

Соответственно, вопрос - что я проглядел в текущем технологическом стеке? Может, зря ною, и такое уже есть?

S	M	T	W	T	F	S
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Most Popular Tags

advertizing - 47 uses
anime - 36 uses
art - 71 uses
auto - 151 uses
cats - 40 uses
cinema - 52 uses
dreams - 28 uses
fun - 44 uses
hardware - 36 uses
hate - 56 uses
history - 51 uses
home network - 27 uses
idiots - 62 uses
internet - 82 uses
ipsc - 73 uses
it - 53 uses
language - 44 uses
life - 338 uses
linux - 36 uses
lj - 48 uses
lulz - 344 uses
moto - 32 uses
music - 101 uses
names - 34 uses
neural networks - 70 uses
new year - 35 uses
non-ipsc - 38 uses
photo - 121 uses
phrases - 201 uses
poetry - 79 uses
politics - 68 uses
press - 28 uses
programming - 85 uses
religion - 64 uses
shooting - 138 uses
snowboard - 37 uses
space - 29 uses
technology - 215 uses
thoughts - 85 uses
transport - 38 uses
travel - 50 uses
vacations - 52 uses
weapon - 56 uses
weather - 118 uses
words - 149 uses
work - 186 uses
бредятинки - 59 uses
мика-тян - 38 uses
просто tag - 42 uses
технофетишка - 119 uses

Flat | Top-Level Comments Only

From:

vitus_wagner

По-моему явление это не технологическое, а социальное. В OpenSource всегда почему-то получалось так, что чем на более конечного юзера ориентирован продукт, тем менее интересен он сообществу. Вот голосовые помощники это предельный случай — софт для неграмотных.

dzz.livejournal.com

> софт для неграмотных.

Или для тех, у кого руки заняты.

Софт для себя. любимого, когда у меня руки заняты, отлаживать тяжело. Это надо, если что пошло не так. руки освободить, что-то там поправить, а потом все сначала.

LOL

Вообще, интерес к этой теме появился у меня из общения с сетевой Алисой в яндексовом каршеринге и просмотра обзоров мотогарнитур. С мото понятно, в шлем не встроишь полноценный комп, и максимум, на что можно расчитывать — связь с голосовым ассистентом в смартфоне. Так вот, при постоянном росте производительности смартфонов, бума приложений с TTS/STT я не вижу, хотя лет пять назад всё, вроде бы, обещало. Потом подумалось, что уж для настольных-то систем должно быть. Типа, ollama и fooocus не дадут соврать. Но — нет. Все опенсорсные проекты, которые я нашёл, не коммитились года два-три минимум.

В шлеме по-моему гораздо больше места, чем в смартфоне. Уж Raspberry PI туда воткнуть можно и не одну. И есть (может быть) прозрачное забрало, на котором можно что-то изображать. Но wearable computing это еще одна тема на которую возлагали большие-большие надежды, которые не оправдались.

> гораздо больше места, чем в смартфоне

Место в шлеме в большей степени предназначено для демпфирования удара по голове, там не должно быть жёстких конструкций с углами. Ну, т.е. в природе существуют шлемы со встроенными с завода гарнитурами и AR-дисплеями, но стоят они как самолёт и продаются в количестве N штук в год.

> которые не оправдались

Это, кстати, тоже удивляет. После того, как гугл свернул Google Glass, всё, что осталось на рынке AR, ушло в область профессионального применения и профессиональных же цен. В т.ч. и по компонентам: микродисплей с призмой и SPI-контроллером стоит на алике порядка 30 т.р., готовое устройство на один глаз будет стоить на полке минимум вдвое дороже.

Думается, это основной сдерживающий фактор. Были бы массовые AR-очки за $100, надежды бы оправдались. Но имеем что имеем.

Edited Date: 2025-07-31 09:13 am (UTC)

> Там не должно быть жёстких конструкций с углами.
Надо собирать микрокомпьютер на овальной плате. Но многослойные печатные платы, которые сейчас для этого используются — не для домашнего хоббиистского изготовления.

Там, по-хорошему, должна быть гибкая плата максимум с 2 слоями и SOC, поддерживающий "это всё".

Хоббиты заказывают прототипные платы в каком-нибудь Резоните, сделать партию из 10 штук — исключительно вопрос цены, и это не запредельно. AR-дисплей всё равно дороже.

P.S. Грёбаный "новый редактор комментариев", сорри за многочисленные правки.

Edited Date: 2025-07-31 09:25 am (UTC)

Dizzy Journal (Live)

Mindflow as is...