pascendi: (Default)
[personal profile] pascendi
Поясню на примере.
Одна из задач автоматической классификации текстов заключается, например, в отнесении текста к той или иной категории на основании отношения автора текста к каким-либо объектам.

Например:
"Байден не любит Трампа, он сенильный дебил".

Примитивный алгоритм отнесет этот текст к антитрамповским, потому что (судя по расстоянию между словом "Трамп" и словом "дебил") слово "дебил" будет отнесено к Трампу.

Корректный алгоритм учтёт синтаксис и семантику и сообразит, что текст-то как раз протрамповский, а "сенильным дебилом" обозвали Байдена.

Человеку это ясно с первого прочтения -- но машина-то не человек, и для фильтрации и сортировки текстов она должна учитывать вот такие фигни.

А это на самом деле очень нехилая математика, точнее, математическая лингвистика. И, между прочим, во многих случаях -- самообучающиеся нейросети.

Date: 2021-02-09 11:27 pm (UTC)
sobriquet9: (Default)
From: [personal profile] sobriquet9
На практике зачастую получается, что совершенно тупой подсчёт N-грамм, безо всяких нейросетей и матерной линвистики, работает лучше. Даже русская народная поговорка на эту тему есть, more data beats better algorithms.

Date: 2021-02-10 01:08 pm (UTC)
sobriquet9: (Default)
From: [personal profile] sobriquet9
На практических задачах. Определение тональности текста, распознавание спама и т.п.

Длинный текст лучше, но подход начинает работать начиная с твиттерных постов. Важно, чтобы было много данных для обучения.

У меня на эту тему было много стычек с теми самыми китайцами из академической сферы. Они действительно тратят огромное количество сил и ресурсов на то, чтобы подвинуть SOTA на десятую долю процента. А при применении их систем на практике потом выясняется, что они слишком долго работают, ломаются на новых данных или оптимизируют метрику, которая не очень-то важна для бизнеса.

Profile

pascendi: (Default)
pascendi

January 2022

S M T W T F S
       1
23 456 78
91011121314 15
16 171819202122
23242526 2728 29
3031     

Page Summary

Style Credit

Expand Cut Tags

No cut tags
Page generated Jul. 17th, 2025 12:32 am
Powered by Dreamwidth Studios