madifier Ответов: 0

Есть там лингвисты-программисты?


Есть ли программа или функция, которая... за неимением лучших терминов, ест книги?

function Consume( "Lord of the Rings" ) {
 for( until end of book ) {
  letter found, analyzed, and documented.
  word found, analyzed, and documented.
  operator found, analyzed, and documented.
  }

 print( "Basic Info" );
  Language(s) found: []
  List of characters by popularity: []
  List of words in alphabetical order: []
  List of words by popularity: []
  List of words by (whatever) : []

  Number of letters found: big int
  Number of words found: big int
  Number of sentences found: big int

 "Advanced Info"
 "List of Names found: []"
 "List of Speech found: []"
}


Есть сообщества, посвященные созданию лучшего алгоритма сортировки, и есть некоторые удивительные, но прежде чем я займусь ошеломляющим проектом, существует ли уже такая функция? Работа с [a-z] - это мой родной язык, но насколько сложно сломать другие языки? Как китайские символы, разбитые обратно на наборы хирагана ромадзи?

Я помню, что фильм "Звездные войны" был переиздан в алфавитном порядке, но после небольшого исследования он проделал большую часть этой работы вручную. Распознавание голоса гораздо сложнее, чем буквенно-символьная карта, но верно ли это для других языков?

Что я уже пробовал:

Я очень новичок в базах данных и веб - программировании. Я написал программу,использующую [php,js, html], чтобы взять список слов и добавить их в БД; пока никакого причудливого анализа. Я решил обратиться к обществу, прежде чем изобретать велосипед самым варварским образом. До сих пор моя программа была невероятно медленной с таким простым процессом.

Richard MacCutchan

Что вы имеете в виду под этим - ест книги"? Было бы лучше, если бы вы объяснили свою проблему в более ясных терминах.

madifier

Неужели вы не смогли прочитать остальную часть моего вопроса? Функция, которая читает книгу (ест ее), обрабатывает найденные символы и сохраняет их в базе данных (переваривает их).

Richard MacCutchan

Так откуда же вы возьмете текст этой книги?

madifier

I'm referring to digital copies. You're making this harder than it really needs to be. The hypothetical function "Consume()" would accept a file "Lord of the Rings" be it on the harddrive or url address, "read" through it and process the information accordingly. English characters are from chr(97-123) or ord('a'-'z'). I'm not familiar enough with other languages to identify the important characters of their own language. Other languages have different sentence structures to them too, so I can't simply look for the period character, I'd have to refer to whatever they use. Maybe they don't have one. Some symbols are a character combo. A single Chinese kajin symbol isn't anywhere close to the English version where letters are simple sitting side by side. So, the function 'Consume()' whose argument is 'Dream of the Red Chamber' would identify the language as Chinese and sort the characters words and other data accordingly. I just wanted to know if a function already existed that read through a book and sorted the words by popularity and perhaps a little more. The more languages, the better.

David_Wimbley

Вам нужно проверить свое отношение к людям, пытающимся понять вашу проблему. Сказать им, что они делают это сложнее, чем это должно быть, оскорбительно, если бы вы были более ясны (как комментарий выше) в первый раз, вы, возможно, не были бы так расстроены, потому что кто-то попросил разъяснить вопрос, который не является их проблемой для решения.

Вы используете терминологию, которая имеет смысл для вас, но звучит нелепо для других. Я никогда не слышал, чтобы разбор текста (будь то из книги или pdf-файла) был "съеден".

Глядя на ваше объяснение, кажется, что то, что вы хотите изучить, называется обработкой естественного языка (НЛП)

https://en.wikipedia.org/wiki/Natural_language_processing

Это не простая тема для освоения (учитывая, что вы новичок в разработке, это, вероятно, далеко за пределами того, к чему вы пока готовы), люди получают докторские степени в этой области науки о данных, поэтому будьте готовы сильно углубиться в эту тему.

0 Ответов