Войти  |  Регистрация
Авторизация

Генератор текста



Генератор текста — компьютерная программа, генерирующая тексты (сленг генерёнку), корректные с точки зрения большинства языковых норм, но, как правило, лишённые смысла (в связи с чем такие программы иногда называют «бредогенераторами», «генераторами шизофазии»).

Иногда у читающего сгенерированный такой программой текст (например, использующей цепь Маркова) может сложиться впечатление, что этот текст является осмысленным, особенно если текст имеет тематику, с которой читающий слабо знаком. Например, некоторые люди не понимают философию и считают любой философский текст, содержащий большое число специфических терминов, бредом, поэтому они не могут определить искусственный характер псевдофилософского текста, написанного программой.

Существуют разные виды генераторов текста, различающиеся своими возможностями (например, некоторые из них могут самостоятельно формировать новые слова).

Джонатан Свифт в «Путешествиях Гулливера», пародируя Ars magna Раймунда Луллия, сатирически описал машину из Лагадо, генерирующую тексты.

Типы генераторов

Генерация текста путём составления из полностью случайных слов даёт мусорный результат: бессмысленный для человека и легко распознаётся анализаторами текстов, и поэтому не применяется. Обычно применяется генерация по вручную написанным фразам-шаблонам.

В случаях когда не важен смысл генерируемого текста, он составляется из «мешанки» предложений из разных исходных текстов, или из частей предложений. Такой метод совместно с шаблонами и синонимизацией используется в чат-ботах и ботах-комментаторах в соцсетях и блогах. Такие боты копируют собеседнику фразы, записанные с других чатов или сайтов. Более продвинутые чат-боты сортируют фразы по ключевым словам, поэтому их ответ более приближен к теме диалога.

Синонимайзеры и генерация фраз по шаблонам

Часто генераторы текстов совмещены с программами-синонимайзерами, которые автоматически меняют слова на синонимы, в целях рерайта и придания уникальности фразам. Слова, которые надо заменять в шаблоне на синонимы, заменяются макросами.

Чем длиннее текст, тем заметнее неестественность в автоподставленных синонимах. Поэтому в текстах «сделанных для людей» (СДЛ) синонимайзеры могут применяться только для создания уникальных коротких текстов: заголовков и анкоров с ключевыми словами, комментариев и абзацев. Синонимайзеры более успешно применяются в английском языке, который, в отличие от русского языка, имеет простую морфологию.

Виды синонимизации:

  • Программа-переводчик. Иногда, для синонимизации советуют помещать тексты в программу-переводчик, переводить на иной язык, а затем обратно переводить на русский. Однако, результатом будет бредотекст, ибо переводчики тоже плохо поддерживают склонения слов и их правильный порядок в предложениях.
  • Генерация по заданному шаблону. Популярен SEO anchor generator, он имеет онлайн-версию с несколькими базами, которые, однако, нельзя редактировать.
  • Генерация по шаблону с возможностью подключения базы синонимов. Самые известные генераторы: Generating the web, Article clone easy, и генератор входящий в Allsubmitter (программа для раскрутки сайта ссылками).
  • Синонимизация по базе синонимов. Известен синонимайзер SmartRewriter, он позволяет редактировать базы, немного понимает морфологию. Есть синонимайзеры с функцией «разбавления» текста, например, путём добавления прилагательных. Один из таких — Ifritus, расширяющий текст «описательными связями».
  • С учётом морфологии. Такие программы редки ввиду своей сложности. Бывают в виде программ, библиотеки функций, онлайн-сервиса, или онлайн-API для программистов. Например, Морфер способен склонять словосочетания, и phpMorphy, pyMorphy склоняют только отдельные слова.

«Мешанка» текста из разных источников

Дорвеи быстро «вылетают» из поисковой выдачи из-за некачественности своих текстов. Поэтому дорвейщики стараются генерировать текст по минимуму. Случайно генерируются только небольшие фразы в разных элементах страницы, подходящие по смыслу. А абзацы текста парсятся целиком с других сайтов такой же тематики, и, возможно синонимизируются, или используется «мешанка».

  • Обычно в генерируемом тексте используется «мешанка» предложений, взятых из различных текстов. Источниками могут быть сборки рассказов в несколько мегабайтов текста, или страницы сайтов схожей тематики. Но если источниками являются только 1-3 сайтов, простая онлайн-проверка на плагиат это покажет. Вполне возможно, что такую проверку делают и поисковики, имея базу всех текстов когда-либо выложенных в интернет.
  • Также предложения генерёнки могут составляться из частей предложений нескольких источников, разделяясь запятой. Проверка по Advego показывает, что уникальность такой мешанки выше на 30 % и более.
  • Некоторые доргены (генераторы дорвеев) собирают текстовые фрагменты, парся сниппеты поисковой выдачи в интернет. Таковы доргены Seodor и SED.

«Умные» генераторы

Ряд компаний развивает более сложную технологию. Создаются синтаксические структуры по частям речи и членам в предложениях, слова в словарях категоризируются по семантике, с дальнейшей автоподстановкой их в предложения. Однако, ввиду крайней сложности и объёма работ, авторских прав на эти разработки, и коммерческой тайны (подобные системы в принципе позволяют создать очень прибыльные коммерческие проекты), вряд ли стоит ожидать появления общающихся роботов и роботов-переводчиков в ближайшие годы.

Применение

На данном уровне развития компьютерных технологий в свободном доступе отсутствуют генераторы текста со сравнительно осмысленным текстом. Генераторы с бессмысленным набором слов или с шаблонными фразами имеют узкую сферу применения.

Одним из генераторов текстов можно назвать последнюю новинку компании Яндекс — Балабобу, способную дописывать заданную фразу качественными и читабельными фразами, и даже целыми текстами.

Многие сайты подробно объясняют работу данного сервиса.

Разработка и оптимизация сайтов

Генераторы текстов широко используются при разработке и поисковой оптимизации сайтов: для генерации названий, описаний, и содержимого целых сайтов с помощью доргенов (генераторов дорвеев).

Существуют крупные англоязычные сайты, зарабатывающие на размещении рекламы, на которых весь контент пишут не журналисты, а боты — статьи автоматически рерайтятся из других источников. Примеры таких сайтов: Demand Media и Associated Content. Русский язык, в отличие от английского, имеет сложную морфологию, поэтому появление подобных ботов-рерайтеров в рунете сильно осложнено.

Материалы, созданные при помощи генератора текстов и использующиеся в целях поисковой оптимизации, требуют обязательного тщательного отбора по критерию уникальности.[прояснить] Производится данный отбор при помощи специализированного программного обеспечения, имеющего различный алгоритм проверки.

Виртуальные собеседники

Виртуальные собеседники (чат-боты) — программы, предназначенные имитировать общение в чатах. Они массово применяются для рассылки спама в соцсетях (спам-боты), а также как автоответчики, способные реагировать на множества ключевых слов по разным сценариям.

Поскольку при этом человек не видит своего собеседника, у него может сложиться впечатление, что он переписывается с живым человеком. Тем не менее, ещё ни одному чат-боту не удавалось с успехом пройти тест Тьюринга, а программам, использующим генераторы текста, это сделать ещё сложнее.

Массовая пропаганда и троллинг в соцсетях

В связи с развитием интернет-пропаганды и «кибер-войн» в соцсетях применяются боты для массовой имитации общественного мнения. При создании ботов у них автоматически генерируются имена и интернет-адреса, а при их ответах — текст комментариев, обычно провокационного, пропагандистского, или оскорбительного содержания.

Относительно широкую известность в русскоязычном Интернете получил генератор текста Rareguest, оформленный в виде php-скрипта. Некоторое время он использовался в рамках сатирического интернет-проекта «Гавгав-центр», а затем получил распространение в качестве робота для живых журналов, блогов и т. д. Вот примеры последовательной генерации однотипных сообщений данным роботом:

Все ваши посты — типичное клише лживой инсинуации, которая стремится дискредитировать и осмеять всякого, кто начинает прозревать и открыто говорить о преступлениях преступного режима. Колет глаза держимордам кровавого кремлёвского упыря правда об их бесчеловечии и о фашистской сути кровавого кремлёвского режима! Интересной особенностью данного форума является то, что путинисты в основном занимаются флудом или обсуждением личностей, а топиков по существу проблем России, вроде этого, боятся как черт ладана. Во врунете достаточно простора, где НКВД-фашисты, вроде вас, могут, не отягощаясь правдой и анализом сталино-путинизма, проводить своё время. Потому и считаю я вас, путинистов, моральными выродками. Ведь подобного рода «участники дискуссии» не появляются на подконтрольных кремлю и ястржембскому «чеченских» сайтах врунета. Пути-Пут и его кровожадные подёнщики ответят за всё.

На этих примерах видно, что даже знакомый с обсуждаемой проблематикой читатель может принять сообщения робота за сообщения реального живого человека, пусть и несколько экзальтированного. Выдает робота в этих сообщениях только типовая структура построения предложений и их комбинирования.

Проверка качества рецензирования издательств

Известны случаи, когда генераторы текстов успешно использовались для выявления низкого качества (а иногда и полного отсутствия) рецензирования в научных журналах. Особенно известна в этом плане программа SCIgen.


Добавить комментарий
Ваше Имя:
Ваш E-Mail:
  • bowtiesmilelaughingblushsmileyrelaxedsmirk
    heart_eyeskissing_heartkissing_closed_eyesflushedrelievedsatisfiedgrin
    winkstuck_out_tongue_winking_eyestuck_out_tongue_closed_eyesgrinningkissingstuck_out_tonguesleeping
    worriedfrowninganguishedopen_mouthgrimacingconfusedhushed
    expressionlessunamusedsweat_smilesweatdisappointed_relievedwearypensive
    disappointedconfoundedfearfulcold_sweatperseverecrysob
    joyastonishedscreamtired_faceangryragetriumph
    sleepyyummasksunglassesdizzy_faceimpsmiling_imp
    neutral_faceno_mouthinnocent