pascendi

Поясню на примере.
Одна из задач автоматической классификации текстов заключается, например, в отнесении текста к той или иной категории на основании отношения автора текста к каким-либо объектам.

Например:
"Байден не любит Трампа, он сенильный дебил".

Примитивный алгоритм отнесет этот текст к антитрамповским, потому что (судя по расстоянию между словом "Трамп" и словом "дебил") слово "дебил" будет отнесено к Трампу.

Корректный алгоритм учтёт синтаксис и семантику и сообразит, что текст-то как раз протрамповский, а "сенильным дебилом" обозвали Байдена.

Человеку это ясно с первого прочтения -- но машина-то не человек, и для фильтрации и сортировки текстов она должна учитывать вот такие фигни.

А это на самом деле очень нехилая математика, точнее, математическая лингвистика. И, между прочим, во многих случаях -- самообучающиеся нейросети.

Flat | Top-Level Comments Only

From:

sobriquet9

На практике зачастую получается, что совершенно тупой подсчёт N-грамм, безо всяких нейросетей и матерной линвистики, работает лучше. Даже русская народная поговорка на эту тему есть, more data beats better algorithms.

pascendi

На коротких текстах? Ой, сомневаюсь.

На практических задачах. Определение тональности текста, распознавание спама и т.п.

Длинный текст лучше, но подход начинает работать начиная с твиттерных постов. Важно, чтобы было много данных для обучения.

У меня на эту тему было много стычек с теми самыми китайцами из академической сферы. Они действительно тратят огромное количество сил и ресурсов на то, чтобы подвинуть SOTA на десятую долю процента. А при применении их систем на практике потом выясняется, что они слишком долго работают, ломаются на новых данных или оптимизируют метрику, которая не очень-то важна для бизнеса.

S	M	T	W	T	F	S
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

Тут люди не понимают, что такое "автоматическая классификация текстов", хорошо это или плохо

Тут люди не понимают, что такое "автоматическая классификация текстов", хорошо это или плохо

no subject

no subject

no subject

Profile

January 2022

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags