Используя веб-сайты, такие как Twitter, Facebook, Вконтакте и т.д, пользователи сталкиваются со случаями, когда им предлагается ввести CAPTCHA текст (полностью автоматизированный публичный тест Тьюринга, чтобы отделить компьютерные программы и людей друг от друга), который трудно различить с первого взгляда. Эта CAPTCHA - это способ доказать, является ли пользователь человеком или ботом. CAPTCHA удерживает вредоносные программы от рассылки спама, полностью предотвращая его.

Что такое reCAPTCHA?

reCAPTCHA был разработан Луисом фон Аном, Мануэлем Блумом, Колином МакМилленом, Беном Маурером и Дэвидом Абрахамом в главном кампусе Университета Карнеги-Меллона в Питтсбурге США. Созданный, чтобы установить, является ли пользователь человеком или нет, он взял штурмом Интернет, помогая в оцифровке книг. Google приобрела reCAPTCHA в сентябре 2009 года и использует его как важную функцию своего проекта Google Книги, где редкие, древние и не напечатанные книги оцифровываются и предлагаются для публики.

С помощью reCAPTCHA люди оцифровали более 13 миллионов архивных статей The New York Times за последние 20 лет или около того, всего за несколько месяцев. Благодаря массовому сотрудничеству книги, которые невозможно отсканировать с помощью компьютеров, оцифровываются, а также переводятся на разные языки. Слова CAPTCHA в дальнейшем искажаются reCAPTCHA-ой, чтобы уменьшить шансы другой программы кибератак, решающей CAPTCHA.

«Этот проект на 99,1% сопоставим с лучшими транскрипционными услугами для человека», - утверждает институт Cylab Университета Карнеги-Меллона.

Как работает reCAPTCHA?

С бескорыстным применением технологий и данных reCAPTCHA у него очень интересная бизнес-модель. ReCAPTCHA взимает плату с компаний за использование их проверки. Каждое слово, отображаемое в reCAPTCHA, является отсканированным словом из одного из миллионов текстов из этого мира. После того как книги отсканированы, текст будет проанализирован с помощью двух разных программ оптического распознавания символов (OCR). Стандартный алгоритм сопоставления строк используется для сравнения результатов обеих программ, а также со словарем. Если есть какие-либо слова, которые не могут быть прочитаны программами OCR, или если они расшифрованы по-разному, эти слова преобразуются в CAPTCHA, чтобы любой человек мог их решить. Каждое подозрительное слово соединяется с уже расшифрованным словом, называемым контрольным словом, и они будут отображаться на экране. Если человек вводит контрольное слово правильно, ответ на подозрительное слово помечается как допустимый. Когда 3 разных человека набирают одно и то же контрольное слово правильно, оказывается, что подозрительное слово полностью расшифровано.

Эта проверка слов выполняется с использованием шкалы баллов, где 0,5 балла дается, когда слово идентифицируется каждой программой OCR, и 1,0 балла дается, когда оно идентифицируется человеком. Когда слово получает 2,5 балла, оно считается действительным словом. Слова, которые последовательно подтверждаются людьми, используются в качестве контрольных слов. Если в слове ошибаются 6 раз, оно считается нечитаемым. Эти два слова показаны отдельно в исходном reCAPTCHA как слова вне контекста, а не из одного исходного документа, чтобы избежать путаницы между словами. Бывают случаи, когда контрольное слово вводит в заблуждение второе слово, и происходит путаница.

reCAPTCHA предлагает плагин для таких приложений, как Ruby, PHP, ASP.NET и т. д., чтобы упростить реализацию их сервисов. API JavaScript, имеющий сервер обратного вызова для reCAPTCHA, используется для предоставления слов для CAPTCHA. reCAPTCHA предоставляет библиотеки для различных языков программирования и приложений, чтобы упростить этот процесс. Хотя изображения CAPTCHA получены различными веб-сайтами бесплатно в обмен на их помощь в расшифровке текстов, reCAPTCHA не является программным обеспечением с открытым исходным кодом.

Фотографии номеров домов, взятые из проекта Google Street View в 2012 году, были использованы reCAPTCHA для его оцифровки в дополнение к оцифрованным текстам. В 2013 году reCAPTCHA внедрила поведенческий анализ, представив более сложные CAPTCHA. Но к 2014 году это было удалено из сервисов Google, и была представлена другая система, в которой люди выбирают несколько изображений из набора из девяти изображений, например отметьте все изображения, где есть автомобиль. В 2017 году reCAPTCHA усовершенствовал свой механизм, чтобы не нуждаться во взаимодействии с пользователем под названием «невидимый reCAPTCHA».

«Невидимый reCAPTCHA создает новый тип задач, которые все еще могут обойти очень продвинутые боты, но создает гораздо меньше разногласия для обычного человека», - говорит бывший сотрудник по борьбе с мошенничеством в Google, Шуман Гоземаджумдер.

reCAPTCHA продемонстрировала важность и чудеса скрытого краудсорсинга(*привлечение к решению тех или иных проблем инновационной производственной деятельности широкого круга лиц для использования их творческих способностей), используя людей для выполнения работы, даже осознавая влияние, которое они создают в Интернете. Поскольку для этого не требуется никаких дополнительных усилий со стороны людей, эффективность этого проекта максимальна.

Одного есть достаточно много критиков такого подхода, по поводу того, что пользователи не получают никакого вознаграждения за распознавание и ввод текста, а все вознаграждение достается компании Google.

Ещё раз, чем отличается CAPTCHA от reCAPTCHA?

CAPTCHA - это тест на проверку личности (обычно это плохо различимые буквы, которые нужно расшифровать), используемые многими сайтами для предотвращения спама.

reCAPTCHA - это обратный CAPTCHA - тот же тест, который используется не только для предотвращения спама, а для помощи оцифровки текстов. Другими словами, тесты reCAPTCHA - это не бессмысленная комбинация слов, а выдержки из книг, которые проходят оцифровку, в то время как CAPTCHA использует методы подтверждения, что вы настоящий человек.