Member 14540094 Ответов: 2

Создание самообучающегося словаря настроений


Привет любителям питона,

Я планирую создать самообучающийся словарь сентиментального слова с их меткой сентимента.

Я могу идентифицировать слова настроения с помощью тегов POS, но не могу обозначить эти слова как положительные, отрицательные или нейтральные.

Например: "еда не была хорошей" - это предложение, и я извлек "нехорошо" из предложения как слово настроения, используя тег POS. Теперь я хочу обозначить это как отрицательное и добавить его в свой новый словарь для дальнейшего использования.

я предпочитаю делать этот проект/задачу, не используя какой-либо заранее определенный словарь/банк слов/любой заранее определенный пакет анализа настроений.

Я ищу ваши взгляды, чтобы знать, как обозначить его без использования какого-либо предопределенного словаря или с предопределенным словарем

Что я уже пробовал:

В настоящее время я изучил встраивание слов, пропустив для этого n-граммовую модель. Я также использовал заранее определенный словарь для обучения модели с помощью некоторой контролируемой модели обучения, такой как Xgboost, KNN, наивный байесовский классификатор. Я использовал некоторую неконтролируемую модель, такую как k-mean, чтобы предсказать метку с помощью слов.
Все еще не в состоянии получить результаты.

Если вы знаете какой-либо другой способ или какой-то вход для применения с любой из вышеперечисленных моделей, чтобы обозначить слово как положительное, отрицательное или нейтральное, то, пожалуйста, предложите.

Заранее благодарю вас за ваше время и вклад...

2 Ответов

Рейтинг:
0

Gerry Schmitz

Компьютеры все еще не являются "людьми".

В случае "искусственного интеллекта" нет никакого "обучения" без (начального) "обучения"(данных). Обратите внимание на отсутствие "знания" в этой фразе.

Мы можем тренироваться и получать знания; компьютеры-не так много.

Не зная причины и следствия (то есть "статистики"), "мы" решаем, что является "хорошим или плохим" (независимо от того, действительно ли это так), и проецируем оттуда.


Рейтинг:
0

Afzaal Ahmad Zeeshan

Цитата:
кстати, чтобы маркировать его
Мы можем начать прямо здесь. Компьютерные алгоритмы нуждаются в достаточном количестве данных для выполнения своих задач. В машинном обучении задачи обучения классифицируются следующим образом под присмотром или без присмотра При контролируемом обучении вы предоставляете данные с независимыми и зависимыми переменными; ваши входные поля являются независимыми переменными, а метка-зависимой переменной. Вы предсказываете метку на основе входных данных.

Теперь, при неконтролируемом обучении, вы предоставляете только входные данные. Ваш алгоритм (мясо проекта здесь, вы должны выбрать алгоритм, который может выполнить эту задачу!) должен затем найти сходство во входных предложениях и сгруппировать их одинаково, так как Group_1-это текст, который не содержит слова "Не" или содержит такие слова, как "плохо", "плохо", "тревожно", тогда как другая группа Group_2 будет содержать предложения, содержащие такие слова, как "удивительно", "отлично", "отлично", "освежающе"... Вы поняли, в чем дело.

Управляемое и Бесконтрольное Машинное Обучение[^]

Итак, теперь это зависит от вас, как вы выбираете и какой алгоритм для работы над этой проблемой. Маркировка должна быть сделана вами, если вы хотите, чтобы данные были помечены. Алгоритм машинного обучения может маркировать данные, но только для себя—и только модель сможет понять метки.

Есть также несколько статей, доступных в интернете, которые обсуждают эту вещь довольно подробно, см. следующие ссылки:

https://towardsdatascience.com/sentiment-analysis-with-python-part-1-5ce197074184[^]
https://medium.com/district-data-labs/modern-methods-for-sentiment-analysis-694eaf725244[^]
GitHub - Aminoid/supervised-sentiment-analysis: контролируемые методы обучения для анализа настроений[^]
Цитата:
я предпочитаю делать этот проект/задачу, не используя какой-либо заранее определенный словарь/банк слов/любой заранее определенный пакет анализа настроений.
Если это ваше preference как вы говорите, тогда вы должны найти наборы данных и пометить их самостоятельно. В противном случае вы всегда можете найти огромную нагрузку наборов данных, доступных на таких сайтах, как Kaggle.