Сегодня мы со всех сторон окружены информацией, а если верить одному из исследований американских ученых, то некоторые люди проводят за проверкой электронной почты и чтением различных текстов до 6 часов в день. А это значительно снижает продуктивность в выполнении более существенных задач. Для того чтобы не потонуть в океане из ежедневных потоков текстовой информации, группа специалистов из исследовательского проекта Массачусетского технологического института Salesforce разработала алгоритм, который, по их заверениям, будет моментально обрабатывать текст, оставляя только главные положения. Авторы алгоритма отмечают принципиальное отличие этой разработки от предыдущих технологий по автоматическому сокращению текстов. А именно: использование метода машинного обучения и свойств нейросетей. Дело в том, что программы по созданию резюмированных блоков информации, которые просто используют язык исходного текста, весьма негибки. А методики генерирования условно «нового» языка зачастую порождают бессвязные предложения. Технологии же компьютерного обучения учатся выделять повторяющиеся формулировки и определять, являются ли они ключевыми или это ненужные, избыточные фразы, исключив которые, можно существенно разгрузить текст. Поэтому программа должна четко понимать контекст, в котором информация находится, и постепенно вырабатывать наиболее оптимальный способ вычленения сути из него. Эту систему разработчики сравнивают с воображаемой ситуацией, когда студент пытается сдать один и тот же экзамен: во время каждой новой попытки он меняет свою стратегию так, чтобы сдать лучше, чем в прошлый раз, и при этом он все лаконичнее и быстрее излагает материал. С помощью этого алгоритма, по словам разработчиков, мы сможем существенно экономить время, затрачиваемое на чтение любых текстов. В перспективе эта технология позволит осваивать больше информации за меньший промежуток времени, что будет востребовано студентами, организациями по предоставлению коммуникационных услуг и практически каждым офисным сотрудником. Экспертное мнение «Фактически эту же самую задачу мы решили еще 5 лет назад.
Источник: