Татоэба

Проект Татоэба (Tatoeba project, от японского слова татоэба (яп. 例えば, «например») — сайт для свободного обмена примерами фраз на всех доступных языках мира. В отличие от онлайн-словарей, в которых хранятся переводы слов, проект ориентирован на цельные семантические конструкции — фразы, предложения, пословицы и т. д.; их накапливаемые аналоги на различных языках сопоставляются друг с другом вручную или автоматически. Особенностью проекта является его открытость и общедоступность: Татоэба заявлена как некоммерческий проект[3], а любой желающий вне зависимости от специализации и языковой принадлежности может вносить изменения в базы данных проекта (добавлять или редактировать существующие фразы). Благодаря этим особенностям проект Татоэба постепенно получает признание как уникальное средство для самостоятельного обучения[4]. На декабрь 2010 года проект поддерживал 81 язык и предоставлял 11 вариантов языкового интерфейса; в ноябре 2011 эти показатели составили 94 и 17 соответственно; в феврале 2013 — 119 и 18.

Tatoeba Project
Tatoeba.png
URL tatoeba.org
Коммерческий Нет
Тип сайта Открытый мультиязычный онлайн-словарь фраз
Регистрация Требуется только для редактирования
Язык (-и) 17 языков, включая русский; предложения на 119 языках
Владелец Trang Ho
Автор Trang Ho
Начало работы 2006
Текущий статус Актуальный[1]
Рейтинг Alexa 74 235[2]
Логотип Викисклада Медиафайлы на Викискладе

Создателем и лидером проекта является Чанг Хо (Trang Ho), француженка вьетнамского происхождения[5]. Первые примеры сайта датированы 30 сентября 2007 [1]. Предложение № 1 принадлежит пользователю sysko: это китайская фраза «Посмотрим-ка!» [2].

Содержание

Принцип работы

Принцип работы проекта заключается сборе и увязывании переводов той или иной фразы данного языка. Это могут быть, например, разговорные фразы, вопросы, пословицы и поговорки, любые другие связные предложения. Система анализирует все поступившие данные. Если конструкция А переводится на другой язык как конструкция В, а та, в свою очередь — как конструкция С, то все они будут считаться переводами друг друга, обозначающими одно и то же. После этого при запросе одной из них отображены будут все три.

Просматривать накопленный материал могут все желающие, добавлять и редактировать — только зарегистрированные участники. Участники со стажем могут получить статус «доверенного» («trusted user»). Он дает доступ к тегам, в также позволяет связывать адекватные переводы между собой или «отрезать» неадекватные. Ограниченный круг участников проекта имеет статус «блюстителей» (corpus maintainers), которые имеют администраторские полномочия.

В отличие от учебников, интернет-словарей и форумов, проект Татоэба не ориентирован на конкретную языковую аудиторию или профессиональный круг пользователей. Зарегистрироваться и дополнять примеры фраз на родном или изучаемом языке может любой желающий с базовыми навыками грамотности[6]. Для работы пользователям предлагается весь спектр имеющихся языков или возможность выборочного чтения с указанием языка оригинала и/или перевода. При этом для собственных переводов на Татоэба рекомендуется ориентироваться только на оригинал, так как сопутствующие переводы могут быть неточны[7]. Обсуждение нюансов перевода возможно тут же в комментариях к каждому из предложений.

Накапливаемый таким образом материал может бесплатно распространяться для всех видов использования, включая коммерческое, при отсылке на источник по лицензии CC-BY[8]. На сайте имеются ссылки для скачивания всего корпуса материалов[9] или его частей[10].

Каждой фразе при внесении на платформу присваивается порядковый номер, однако некоторые вклады (машинный перевод, дубликаты) впоследствии удаляются. Процент удаления может быть вычислен при сравнении последнего порядкового номера (открыть верхнюю фразу в списке последних вкладов на лицевой) со счётчиком фраз на лицевой странице. Например, 12 дек. 2011 они составили, соответственно, 1295340 и 1241274.

Поддерживаемые языки

Начальным ресурсом для сайта стал англо-японский корпус языковых примеров проф. Ясухиро Танаки. В декабре 2010 года Татоэба содержала более 648 000 предложений; в апреле 2012 эта цифра почти достигла 1.5 млн, 12 января составила 2 037 379. Наибольшее количество фраз (по убывающей, февраль 2013):

Кроме того, есть более тысячи предложений на следующих языках: арабский, исландский, хинди, уйгурский, вьетнамский, норвежский (букмол), белорусский, шанхайский и кантонский диалекты китайского языка.

Наряду с естественными языками в проекте фигурируют искусственные: эсперанто, клингон, интерлингва, CycL, токипона.

Первоначально для введения нового языка было достаточно лишь обратиться к администраторам и внести на нём пять примеров. Впоследствии необходимым требованием стало наличие сертификации вносимого языка согласно стандарту ISO 639-3. При заявке на добавление нового языкового раздела можно предложить флаг-символ, который его обозначит на сайте; этот графический знак не обязан представлять конкретное государство из современных либо существовавших ранее[11].

Деятельность

Открытость и доступность, в сочетании с удобством сайта, привела к устойчивому росту его популярности. (График активности сайта[12] фиксирует количество новых языковых примеров начиная с 1 января 2008). В настоящее время (декабрь 2010) количество ежедневных посетителей составляет ок. 1 800[13], которые добавляют до полутора-двух тысяч примеров в день.

Татоэба выступает за открытость и свободу Интернета в проекте Mozilla Drumbeat в числе нескольких сотен других проектов-участников.

Татоэба содействует многим электронным словарям и переводчикам — например, электронному словарю японского языка WWWJDIC[14]. Татоэба сотрудничает с проектом Shtooka  (нем.) — бесплатной коллекцией аудиозаписей слов, фраз, пословиц и т. п. на различных языках[15].

Аудио

Помимо письменной передачи предложений, платформа Татоэба коллекционирует их произношение. (Поэтому участникам запрещается вводить предложения с вариантами грамматических и лексических форм в скобках, которые потребовали бы более чем один вариант прочтения). Для участия в пополнении аудиораздела необходимо пройти аккредитацию, доказывающую качество записываемых примеров.[3] По этой причине аудиоразделы Татоэба пополняются сравнительно медленно.

См. также

Примечания

  1. tatoeba.org — Traffic Details from Alexa (неопр.). Alexa Internet, Inc  (англ.). Архивировано 6 июля 2012 года.
  2. Alexa Internet (англ.) — 1996.
  3. Rule 1. Understand the context of the project  (англ.)
  4. Tatoeba (Where to Learn)  (англ.)
  5. Профиль Trang Ho  (англ.)
  6. Rule 14. Spread the love (англ.)
  7. Rule 3. Do not pay attention to the other translations  (англ.)
  8. Rule 8. Do not add sentences from copyrighted content  (англ.)
  9. Downloads  (англ.)
  10. Public lists  (англ.)
  11. FAQ  (англ.)
  12. График активности  (англ.)
  13. If Tatoeba.org was a country, it would be larger than Niue with its 1,809 daily visitors!  (англ.)
  14. Example Sentence Management System  (англ.)
  15. Shtooka Project Download  (англ.)

Ссылки