![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Поясню на примере.
Одна из задач автоматической классификации текстов заключается, например, в отнесении текста к той или иной категории на основании отношения автора текста к каким-либо объектам.
Например:
"Байден не любит Трампа, он сенильный дебил".
Примитивный алгоритм отнесет этот текст к антитрамповским, потому что (судя по расстоянию между словом "Трамп" и словом "дебил") слово "дебил" будет отнесено к Трампу.
Корректный алгоритм учтёт синтаксис и семантику и сообразит, что текст-то как раз протрамповский, а "сенильным дебилом" обозвали Байдена.
Человеку это ясно с первого прочтения -- но машина-то не человек, и для фильтрации и сортировки текстов она должна учитывать вот такие фигни.
А это на самом деле очень нехилая математика, точнее, математическая лингвистика. И, между прочим, во многих случаях -- самообучающиеся нейросети.
Одна из задач автоматической классификации текстов заключается, например, в отнесении текста к той или иной категории на основании отношения автора текста к каким-либо объектам.
Например:
"Байден не любит Трампа, он сенильный дебил".
Примитивный алгоритм отнесет этот текст к антитрамповским, потому что (судя по расстоянию между словом "Трамп" и словом "дебил") слово "дебил" будет отнесено к Трампу.
Корректный алгоритм учтёт синтаксис и семантику и сообразит, что текст-то как раз протрамповский, а "сенильным дебилом" обозвали Байдена.
Человеку это ясно с первого прочтения -- но машина-то не человек, и для фильтрации и сортировки текстов она должна учитывать вот такие фигни.
А это на самом деле очень нехилая математика, точнее, математическая лингвистика. И, между прочим, во многих случаях -- самообучающиеся нейросети.
no subject
Date: 2021-02-09 11:27 pm (UTC)no subject
Date: 2021-02-10 07:49 am (UTC)no subject
Date: 2021-02-10 01:08 pm (UTC)Длинный текст лучше, но подход начинает работать начиная с твиттерных постов. Важно, чтобы было много данных для обучения.
У меня на эту тему было много стычек с теми самыми китайцами из академической сферы. Они действительно тратят огромное количество сил и ресурсов на то, чтобы подвинуть SOTA на десятую долю процента. А при применении их систем на практике потом выясняется, что они слишком долго работают, ломаются на новых данных или оптимизируют метрику, которая не очень-то важна для бизнеса.