Пробелы между китайскими иероглифами. Что если бы в китайском языке ввели пробел между словами при письме? История китайской письменности

Любой, кто работал с проектом из Китая или запускал там кампанию, знает, что местное представление о дизайне отличается от западного. За примерами далеко ходить не нужно — если вы работаете на международный бренд в Поднебесной или создаете какой-то продукт, который продается там, то посмотрите через Baidu.com или QQ.com, как ваша марка представлена в китайском online-пространстве.

Самое сильное различие заключается в том, что их сайты выглядят очень перегруженными. Много текстов, ссылок и даже анимации, которые, кажется, спроектированы так, чтобы страницу было невозможно читать.

Может быть, это и выглядит как цифровой хаос, однако китайские сайты создаются именно такими по нескольким причинам. Если вы планируете запустить свой бизнес в Китае, советуем вам узнать некоторые особенности местного веб-опыта.

Китайский язык совсем другой

Для начала перечислим несколько фактов, которые стоит знать:

1. В китайском языке нет заглавных букв. Западные читатели приучены выявлять большие буквы в тексте, чтобы найти начало и конец предложения. Именно поэтому китайские сайты могут выглядеть набором однотипных символов

2. Нет пробелов между символами. Западные языки используют пространство, чтобы отделить слова — этого в китайском тоже нет. Здесь длинная строка символов совершенно нормальна, в то время как западных пользователей она приводит в замешательство

3. Вы вдеили подбоыне тесткы? В принципе, все понятно, не так ли? Слова с перепутанными местами буквами легко читать, если первая и последняя буква находятся на своем месте и если они не написаны полностью в обратном порядке. Из-за этого люди скользят по тексту глазами, а не читают каждое слово. Но так как они не могут так же пробегать глазами по китайским текстам, (предполагается, что символы им незнакомы), строки таких символов кажутся им особенно хаотичными.

4. Китайские иероглифы гораздо более «плотные», чем латинские буквы или буквы кириллицы — 10 черточек в одном символе в среднем против одной или двух. Из-за этого опять же китайский текст выглядит «перегруженным» для западного пользователя.

Следующая особенность, которая приводит в недоумение — типичный китайский сайт выглядит как одна большая ссылка. На сайте Sohu.com буквально каждый символ является частью ссылки.

Есть две теории на этот счет. Первая заключается в том, что китайские иероглифы трудно печатать на клавиатуре с алфавитной раскладкой, поэтому вместо того, чтобы использовать поисковое окно, пользователи предпочитают кликать на ссылки.

Это довольно разумно, так как набор текста китайскими иероглифами включает либо рисование символов, либо использование западных букв для транскрипции пиньинь.

После того, как иероглиф написан или напечатана его транскрипция, появляются варианты символов, среди которых пользователю нужно выбрать правильный. Похоже, что делать это снова и снова для поиска достаточно тяжело.

Но есть еще одна теория. И с учетом популярности поискового сервиса Baidu, который предлагает китайский эквивалент поиску Google, есть причины в нее верить. По этой теории многие китайцы до сих пор пользуются низкоскоростным интернетом. А статистические данные исследования компании Akamai подтверждают это.

Процент онлайн-популяции в зависимости от страны и скорости Интернета: ниже 4 Мбайт/сек, выше 4 Мбайт/сек, ниже 10 Мбайт/сек, выше 10 Мбайт/сек

Как видно, две трети китайцев пользуются интернетом, скорость соединения которого ниже 4 Мб/с — это значительно ниже средней скорости в мире и почти неслыханно для западных стран.

В итоге, с такой относительно медленной скоростью интернета, разумно загружать одну страницу с большим количеством ссылок, а затем открывать их в новых вкладках. Это позволяет пользователям просматривать страницы параллельно вместо мучительно долгой загрузки страниц по очереди. Те, кто помнит интернет-соединение по телефонной линии, поймут, о чем идет речь.

И, наконец, на китайских сайтах используется множество мигающих текстов и баннеров.

Причина, по-видимому, кроется в том, что привлечь внимание, используя различные шрифты, в китайском намного сложнее, нежели в западных текстах. И у этого есть целый ряд причин, включая:

1. Имеется всего несколько шрифтов для китайских иероглифов
2. Курсив не существует, а выделение жирным обычно не используется
3. Минимальный размер шрифта — 12 пикселей

Более того (здесь мы обратимся к культурной составляющей), похоже, что китайцев мигающая графика просто заботит меньше, чем жителей Запада. В итоге, то, что нам кажется перегруженным, нормально для них.

И, кроме того, с учетом появления всплывающих окон на западных сайтах, китайские ресурсы уже не выглядят настолько отличающимися от них, как было раньше.

В заключение

Китайский язык является одним из старейших письменных языков мира. Его история насчитывает, по крайней мере, 3 тыс. лет. Надписи на нем были обнаружены на черепаховых панцирях времен династии Шан (1766-1123 до н. э.).

История китайской письменности

Китайская грамота моложе, чем шумерская или египетская, но нет доказательств того, что изобретение письма в Поднебесной было каким-либо образом стимулировано письменностью Ближнего Востока. Самыми ранними образцами китайских иероглифов являются гадальные тексты на костях и панцирях. Они состоят из вопроса прорицателю и ответа на него. Эта ранняя письменность показывает, что на заре своего развития она основывалась на пиктограммах. Например, слово «корова» изображалось головой животного, а «идти» - рисунком стопы.

С течением времени, однако, китайское письмо претерпело много изменений, и уже ко времени (206 до н. э. - 220 н. э.) оно потеряло большую часть своей изобразительности. Современные иероглифы сформировались в течение III и IV веков н. э. Удивительно, но после этого они почти не изменялись. В дополнение к стандартным формам существует также несколько рукописных. Наиболее распространены цаошу и синшу. Первый вид очень сложно читать людям, не имеющим специальной подготовки. Синшу является своего рода компромиссом между высокой скоростью цаошу и стандартной письменностью. Эта форма широко используется в современном Китае.

Сколько в китайском языке иероглифов?

Чтобы представить каждую морфему словаря, китайцы используют одиночные отличительные символы. Подавляющее большинство знаков являются письменными версиями произносимых звуков, которые имеют смысловое значение. Хотя система письма с течением времени изменялась по причине революций и политических катаклизмов, ее принципы, наряду с символами, остались в основном теми же.

Китайские слова-иероглифы первоначально изображали людей, животных или предметы, но на протяжении веков становились все более стилизованными и перестали походить на то, что они представляли. Хотя их существует около 56 тыс., подавляющее большинство из них типичному читателю неизвестны - ему для грамотности необходимо знать лишь 3000 из них. Пожалуй, эта цифра достовернее всего отвечает на вопрос, сколько в китайском языке иероглифов.

Упрощенные логограммы

Проблема обучения тысячам символов в 1956 году привела к тому, что написание китайских иероглифов было упрощено. В результате около 2000 логограмм стало проще читать и писать. Также их преподают в классах севернокитайского языка за рубежом. Эти символы более простые, то есть имеют меньше графических элементов, чем традиционные.

Упрощенные иероглифы существовали на протяжении сотен лет, но официально были включены в письменность лишь после основания КНР в 1950-х годах, чтобы повысить грамотность населения. Упрощенные логограммы использует народная ежедневная газета «Жэньминь жибао», они применяются в субтитрах новостей и видео. Однако люди, которые грамотно пишут, могут не знать традиционного варианта.

Данная система является стандартной в КНР (за исключением Гонконга) и Сингапуре, а традиционный китайский продолжает оставаться стандартом для Гонконга, Тайваня, Макао, Малайзии, Кореи, Японии и других стран.

Фонетическое письмо

Говорящие на кантонском создали свою систему фонетических знаков. Эти символы используются в дополнение к традиционным китайским иероглифам, например, в комиксах или развлекательных разделах газет и журналов. Часто эти иероглифы невозможно найти в словаре. Неофициальные логограммы применяются для передачи

Пиньинь

В попытке сделать китайский язык более понятным для Запада Китай разработал систему «пиньинь». Для передачи слов в ней используется В 1977 г. власти КНР сделали официальный запрос в Организацию Объединенных Наций для наименования географических мест Китая с использованием системы пиньинь. Пиньинь применяют те, кто больше знаком с латинским алфавитом и учится говорить на китайском языке.

16

Я хотел бы сделать MySQL полнотекстового поиска работы с японским и китайским текстом, а также с любым другим языком. Проблема в том, что эти языки и, возможно, другие обычно не имеют пробела между словами. Поиск не полезен, когда вы должны ввести то же предложение, что и в тексте.

Я не могу просто поставить пробел между каждым персонажем, потому что английский тоже должен работать. Я хотел бы решить эту проблему с PHP или MySQL.

Могу ли я настроить MySQL для распознавания символов, которые должны быть их собственными индексами? Есть ли модуль PHP, который может распознавать эти символы, чтобы я мог просто выбросить пробелы вокруг индекса?

Частичное решение:

$string_with_spaces = preg_replace("/[".json_decode(""\u4e00"")."-".json_decode(""\uface"")."]/", " $0 ", $string_without_spaces);

Это делает класс символов из, по крайней мере, некоторые из персонажей мне нужно лечить специально. Я должен, вероятно, упомянуть, допустимо пропустить индексированный текст.

Кто-нибудь знает все диапазоны символов, которые мне нужно будет вставлять в пробе?

Кроме того, должен быть лучший, переносимый способ представления этих символов в PHP? Исходный код в Literal Unicode не идеален; Я не узнаю всех персонажей; они могут не отображаться на всех машинах, которые я должен использовать.

3

Другие современные языки, которые не используют пробелы между словами тайский, Лао, кхмерский (камбоджийский), и бирманский (Мьянма). На вьетнамском языке существует связанная с этим проблема, что пробелы используются между всеми слогами, за исключением иностранных слов. - hippietrail 18 дек. 10 2010-12-18 12:48:10

  • 2 ответа
  • Сортировка:

    Активность

15

Слово нарушение для языков, упомянутых требуют лингвистического подхода , например, тот, который использует словарь наряду с пониманием основного правил, вытекающих .

Я слышал об относительно успешных приложениях полнотекстового поиска, которые просто разделяют каждый отдельный символ как отдельное слово на китайском языке, просто применяя ту же «токенизацию» критериев поиска, предоставляемых конечными пользователями. Затем поисковая система обеспечивает лучший рейтинг для документов, которые снабжают символы-слова в том же порядке, что и критерии поиска. Я не уверен, что это может быть распространено на такие языки, как японский, поскольку наборы символов Хиракана и Катаганы делают текст более похожим на европейские языки с коротким алфавитом.

EDIT :
Ресурсы
Это слово ломать проблемы, а также связанные с ними вопросы, так нетривиальной , что целые книги написаны об этом. См. Например, CJKV Information Processing (CJKV означает китайский, японский, корейский и вьетнамский языки, вы также можете использовать ключевое слово CJK, поскольку во многих текстах вьетнамский язык не обсуждается). См. Также Word Breaking in Japanese is hard для одного пейджера на эту тему.
Понятно, что большинство материалов, охватывающих эту тему, написано на одном из основных языков на родном языке и поэтому ограничено для людей без относительной владения этими языками. По этой причине, а также чтобы помочь вам проверить систему поиска, как только вы начнете внедрять логику прерывания слова, вам следует обратиться за помощью к носителю или двум носителям.

Различные идеи
Ваша идея идентифицирующих признаков, которые систематически подразумевают слово разорвать (скажем, цитаты, круглые скобки, дефис, как символы и такие) хорошо, и это, вероятно, один эвристический используется некоторыми из профессиональные разрывы слов. Тем не менее, вы должны искать авторитетный источник для такого списка, а не собирать его с нуля, основываясь на анекдотических выводах.
Родственная идея заключается в том, чтобы разбить слова на Kana-к-кандзи переходы (но я предполагаю, что не наоборот), и, возможно, в хирагане-к-катакан или наоборот переходов.
Несвязанный со сломанным правильным, индекс может [-или не может- ;-)] извлекать выгоду из систематического преобразования каждого, скажем, характера хираганы, в соответствующий характер катакана. Просто необразованная идея! Я не знаю достаточно о японском языке, чтобы знать, поможет ли это; интуитивно, это было бы слабо связано с систематической конверсией подчеркнутых букв и, таким образом, в соответствующее не акцентированное письмо, как это практикуется на нескольких европейских языках.

Возможно, идея, о которой я упоминал ранее, систематически индексировать индивидуальный характер (и ранжировать результаты поиска на основе их приближения по критерию поиска) может быть слегка изменена, например, сохраняя последовательные символы каны вместе, а затем некоторые другие правила... и создать несовершенную, но достаточно практичную поисковую систему.

Не разочаровывайтесь, если это не так... Как указано, это далеко не тривиально, и это может сэкономить вам время и деньги в долгосрочной перспективе, сделав паузу и прочитав книгу или две. Еще одна причина, чтобы попытаться узнать больше о «теории» и передового опыта, является то, что в данный момент вы, кажется, сосредоточены на слова нарушения , но в ближайшее время, поисковая система также может извлечь выгоду из вытекающих сознательность ; действительно, эти два вопроса, по крайней мере, связаны с лингвистикой, и могут быть полезны при обработке в тандеме.

Удачи вам в этом неприятном, но достойном стремлении.

0

@Joe: Добро пожаловать. У меня, похоже, интерес к лингвистике и НЛП, но очень, очень мало знаний, характерных для языков CJK. Прочитайте мое редактирование, добавив несколько ключевых слов и онлайн-ссылок, которые могут помочь вашему поиску.Удачи:-) - mjv 22 окт. 09