Проект Татоэба (Tatoeba project, от японского слова татоэба (яп. 例えば, «например») — сайт для свободного обмена примерами фраз на всех доступных языках мира. В отличие от онлайн-словарей, в которых хранятся переводы слов, проект ориентирован на цельные семантические конструкции — фразы, предложения, пословицы и т. д.; их накапливаемые аналоги на различных языках сопоставляются друг с другом вручную или автоматически. Особенностью проекта является его открытость и общедоступность: Татоэба заявлена как некоммерческий проект[3], а любой желающий вне зависимости от специализации и языковой принадлежности может вносить изменения в базы данных проекта (добавлять или редактировать существующие фразы). Благодаря этим особенностям проект Татоэба постепенно получает признание как уникальное средство для самостоятельного обучения[4]. На декабрь 2010 года проект поддерживал 81 язык и предоставлял 11 вариантов языкового интерфейса; в ноябре 2011 эти показатели составили 94 и 17 соответственно; в феврале 2013 — 119 и 18.
Tatoeba Project | |
---|---|
URL | tatoeba.org |
Коммерческий | Нет |
Тип сайта | Открытый мультиязычный онлайн-словарь фраз |
Регистрация | Требуется только для редактирования |
Язык (-и) | 17 языков, включая русский; предложения на 119 языках |
Владелец | Trang Ho |
Автор | Trang Ho |
Начало работы | 2006 |
Текущий статус | Актуальный[1] |
Рейтинг Alexa | 74 235[2] |
Медиафайлы на Викискладе |
Создателем и лидером проекта является Чанг Хо (Trang Ho), француженка вьетнамского происхождения[5]. Первые примеры сайта датированы 30 сентября 2007 [1]. Предложение № 1 принадлежит пользователю sysko: это китайская фраза «Посмотрим-ка!» [2].
Содержание
Принцип работы
Принцип работы проекта заключается сборе и увязывании переводов той или иной фразы данного языка. Это могут быть, например, разговорные фразы, вопросы, пословицы и поговорки, любые другие связные предложения. Система анализирует все поступившие данные. Если конструкция А переводится на другой язык как конструкция В, а та, в свою очередь — как конструкция С, то все они будут считаться переводами друг друга, обозначающими одно и то же. После этого при запросе одной из них отображены будут все три.
Просматривать накопленный материал могут все желающие, добавлять и редактировать — только зарегистрированные участники. Участники со стажем могут получить статус «доверенного» («trusted user»). Он дает доступ к тегам, в также позволяет связывать адекватные переводы между собой или «отрезать» неадекватные. Ограниченный круг участников проекта имеет статус «блюстителей» (corpus maintainers), которые имеют администраторские полномочия.
В отличие от учебников, интернет-словарей и форумов, проект Татоэба не ориентирован на конкретную языковую аудиторию или профессиональный круг пользователей. Зарегистрироваться и дополнять примеры фраз на родном или изучаемом языке может любой желающий с базовыми навыками грамотности[6]. Для работы пользователям предлагается весь спектр имеющихся языков или возможность выборочного чтения с указанием языка оригинала и/или перевода. При этом для собственных переводов на Татоэба рекомендуется ориентироваться только на оригинал, так как сопутствующие переводы могут быть неточны[7]. Обсуждение нюансов перевода возможно тут же в комментариях к каждому из предложений.
Накапливаемый таким образом материал может бесплатно распространяться для всех видов использования, включая коммерческое, при отсылке на источник по лицензии CC-BY[8]. На сайте имеются ссылки для скачивания всего корпуса материалов[9] или его частей[10].
Каждой фразе при внесении на платформу присваивается порядковый номер, однако некоторые вклады (машинный перевод, дубликаты) впоследствии удаляются. Процент удаления может быть вычислен при сравнении последнего порядкового номера (открыть верхнюю фразу в списке последних вкладов на лицевой) со счётчиком фраз на лицевой странице. Например, 12 дек. 2011 они составили, соответственно, 1295340 и 1241274.
Поддерживаемые языки
Начальным ресурсом для сайта стал англо-японский корпус языковых примеров проф. Ясухиро Танаки. В декабре 2010 года Татоэба содержала более 648 000 предложений; в апреле 2012 эта цифра почти достигла 1.5 млн, 12 января составила 2 037 379. Наибольшее количество фраз (по убывающей, февраль 2013):
- Английский
- Эсперанто
- Немецкий
- Французский
- Японский
- Испанский
- Турецкий
- Португальский
- Итальянский
- Иврит
- Русский
- Польский
- Берберский
- Китайский (путунхуа)
- Венгерский
- Нидерландский
- Украинский
- Нижненемецкий
- Персидский
Кроме того, есть более тысячи предложений на следующих языках: арабский, исландский, хинди, уйгурский, вьетнамский, норвежский (букмол), белорусский, шанхайский и кантонский диалекты китайского языка.
Наряду с естественными языками в проекте фигурируют искусственные: эсперанто, клингон, интерлингва, CycL, токипона.
Первоначально для введения нового языка было достаточно лишь обратиться к администраторам и внести на нём пять примеров. Впоследствии необходимым требованием стало наличие сертификации вносимого языка согласно стандарту ISO 639-3. При заявке на добавление нового языкового раздела можно предложить флаг-символ, который его обозначит на сайте; этот графический знак не обязан представлять конкретное государство из современных либо существовавших ранее[11].
Деятельность
Открытость и доступность, в сочетании с удобством сайта, привела к устойчивому росту его популярности. (График активности сайта[12] фиксирует количество новых языковых примеров начиная с 1 января 2008). В настоящее время (декабрь 2010) количество ежедневных посетителей составляет ок. 1 800[13], которые добавляют до полутора-двух тысяч примеров в день.
Татоэба выступает за открытость и свободу Интернета в проекте Mozilla Drumbeat в числе нескольких сотен других проектов-участников.
Татоэба содействует многим электронным словарям и переводчикам — например, электронному словарю японского языка WWWJDIC[14]. Татоэба сотрудничает с проектом Shtooka (нем.) — бесплатной коллекцией аудиозаписей слов, фраз, пословиц и т. п. на различных языках[15].
Аудио
Помимо письменной передачи предложений, платформа Татоэба коллекционирует их произношение. (Поэтому участникам запрещается вводить предложения с вариантами грамматических и лексических форм в скобках, которые потребовали бы более чем один вариант прочтения). Для участия в пополнении аудиораздела необходимо пройти аккредитацию, доказывающую качество записываемых примеров.[3] По этой причине аудиоразделы Татоэба пополняются сравнительно медленно.
См. также
- Сайт проекта Shtooka (англ.)
- Сайт словаря WWWJDIC (англ.)
- Корпусная лингвистика
- Машинный перевод
- Forvo — интернет-платформа, коллекционирующая произношения слов.
Примечания
- ↑ tatoeba.org — Traffic Details from Alexa (неопр.). Alexa Internet, Inc (англ.). Архивировано 6 июля 2012 года.
- ↑ Alexa Internet (англ.) — 1996.
- ↑ Rule 1. Understand the context of the project (англ.)
- ↑ Tatoeba (Where to Learn) (англ.)
- ↑ Профиль Trang Ho (англ.)
- ↑ Rule 14. Spread the love (англ.)
- ↑ Rule 3. Do not pay attention to the other translations (англ.)
- ↑ Rule 8. Do not add sentences from copyrighted content (англ.)
- ↑ Downloads (англ.)
- ↑ Public lists (англ.)
- ↑ FAQ (англ.)
- ↑ График активности (англ.)
- ↑ If Tatoeba.org was a country, it would be larger than Niue with its 1,809 daily visitors! (англ.)
- ↑ Example Sentence Management System (англ.)
- ↑ Shtooka Project Download (англ.)
Ссылки
- Татоэба — главная страница проекта
- Статья про Татоэба на Лингвовики
- Введение в проект Татоэба — видеоролик, объясняющий суть проекта и его работу (англ.)
- Татоэба — участник интернет-проекта Mozilla Drumbeat (англ.)
- Обзор проекта на сайте Магазета
- Краткий обзор Татоэба на сайте Джунга (крупнейший русско-китайский интернет-словарь)
- Интервью Аллана Симона сайту Sinoglot.com, посвященному китайскому языку (англ.)
- Use tatoeba.org for mining sentences (англ.)
- Japonais, обучающая программа-переводчик для iPhone/iPod/iPad, использующие базу Татоэбы для немецкого и французского языков (англ.)
- Статья о корпусе Tanaka Corpus, базе данных фраз, с которой начинал свою работу проект Татоэба, на сайте Группы исследования и развития электронных словарей (англ.)
- Сайт японского словаря WWWJDIC (англ.)
- [4] — вспомогательный сайт со статистикой и разъяснениями правил Татоэба.
Это «статья-заготовка» по лингвистике. Вы можете помочь проекту, дополнив эту статью, как и любую другую в Википедии. Нажмите и узнайте подробности. |
Это «статья-заготовка» о веб-сайте. Вы можете помочь проекту, дополнив эту статью, как и любую другую в Википедии. Нажмите и узнайте подробности. |