Нет никакой кириллицы

Под этим хорошо прожаренным заголовком — сочный пост о применении частотного анализа языка в шрифтовом дизайне. Вначале я хотел сравнить работу нескольких шрифтов в английском, русском и украинском, но это была бы целая книга. Лучше написать по одной статье про каждый язык.

Эта статья посвящена русскому языку и пригодится тем, кто создает шрифты с нуля или делает кириллицу на базе латиницы.

Для каждого шрифта и каждой письменности язык — это отдельная дисциплина. Шрифт может смотреться гармонично в русском языке, но неуклюже в украинском. Так же, как один человек может быть хорошим теннисистом, но плохим футболистом. Поэтому рассматривать отдельные языки более практично, чем всю кириллицу и всю латиницу. 

Буквы и слова русского языка

Грамматика и орфография определяет характер слов, распределение букв, и эти особенности уникальны для каждого языка. Поэтому, прежде чем ругать кириллицу, нужно рассмотреть, какие графемы она предоставляет языку, насколько они экономичны, различимы, визуально сбалансированы

Если кириллица «обделяет» ваш язык по этим важным параметрам, можно изменить отдельные графемы или даже перевести алфавит на латиницу. Но эту проблему лучше решать более практически, чем идеологически. Каждое изменение нужно проверять и оценивать.

Частотный словарь национального корпуса русского языка показывает, что все тексты на русском языке на 11% состоят из одной буквы о. И почти на половину из пяти букв о, е, а, и, н.

А еще в русскоязычных текстах заглавные буквы встречаются в 40 раз реже, чем строчные и используются в особых случаях: в начале предложений, именах собственных, аббревиатурах и титульных надписях. Поэтому они распределены по текстам иначе.

В одном из крупнейших текстов на русском языке — романе «Война и Мир» самыми распространенными заглавными буквами являются В, О, Н, П, К (имена персонажей исключены из подсчета), хотя без учета регистра буквы распределяются примерно так же, как во всем корпусе языка.

А эти удивительные приключения буквы А в паспортных данных показывают, что иногда важно анализировать язык более детально, выбирая тексты определенного жанра, вида или стиля, например, научные статьи, художественная литература, новости, названия улиц города.

Встречаемость определяет влияние пропорций каждый буквы на емкость всего шрифта. Например, при уменьшении ширины букв о, е, а на 10% большинство текстов будет занимать на 3% меньше места, хотя длина набранного в строку алфавита сократится всего на 0,9%.  Эти величины касаются только русскоязычных текстов, в других языках те же буквы влияют на емкость иначе.

Уточнение: проценты для слов (и, не, что, который) считаются не от всего корпуса, а от первых 100 слов.

Конечно, текст состоит не из отдельных букв, а из слов и они тоже распределены неравномерно. Частотный анализ показывает, что 37% всех русскоязычных текстов состоит из 100 слов. А восемь однобуквенных слов: и, в, с, я, а, к, у, о покрывают 13% корпуса языка.

Уточнение: на этом слайде проценты для сочетаний (ст, ну, ост, ные) считаются от первых 100 сочетаний.

Сочетания букв тоже будут более полезны, если учитывать их распространенность. Топ-100 двухбуквенных сочетаний покрывают 66% всех текстов на русском языке. Необъяснимо, но факт! 👽 Поэтому кернинг удобнее начинать с самых популярных сочетаний. Но лучше всего топовые сочетания и слова подходят для тестирования нерегулярных шрифтов: каллиграфии, леттеринга, имитации почерка.

Тестовые слова для ранних эскизов шрифта также можно улучшить, с учетом встречаемости букв. Например десятибуквенный «Нобельфайк» предсталяет 47% русскоязычных текстов и почти все типы графем русского алфавита. Неплохо для одного слова. Но «Нобервудлайк» охватывает 60% языка, все формы и выносные элементы, будучи всего на две буквы длиннее.

Форма и пластика букв русского алфавита

Каждый дизайнер хоть раз ругал кириллицу за форму и пластику букв. Ее называют забором, и не без причины. Но прежде чем выносить приговор, надо рассмотреть улики и разобраться, в чем именно подсудимый виновен. Может есть смягчающие обстоятельства?

Почти 40% заглавных букв в русскоязычных текстах — это настоящий забор. Жуткие перпендикуляры и три одинаковых свисания. Очень мало овальных форм — всего 20%. Но заглавные буквы покрывают только 2,6% языка и редко собираются в группы больше трех. Это смягчающее обстоятельство.

Строчные буквы намного гармоничнее. Они превращают в забор всего 29% русского языка. Зато 33% текстов состоит из приятных овалов, а 14% из неплохого сочетания полуовалов и прямых. Выносные элементы строчных букв довольно красивые. Жаль, что у, р, б, ф покрывают всего 10% текстов.

Но одно можно сказать точно, с таким маюскулом ИМПЕРИЮ не построить =)

Давайте посмотрим на «портрет русского алфавита». Похоже на фоторобот двух сообщников преступления. Они очень похожи друг на друга, что в данном случае, является отягчающим обстоятельством. Чрезмерное сходство маюскула и минускула не только некрасиво, но и непрактично. В русском алфавите есть очень серьезная проблема — слишком частое использование перекладины, как у Н, н. Эта зона используется в 16 строчных буквах и в 18 заглавных. Чрезмерная детализация строчных букв повышает риск оптических искажений и растекания краски при печати.

Для сравнения, в английском алфавите зона перекладины используется только в 5 строчных и 10 заглавных буквах. Эта простота формы вместе с большим количеством выносных элементов делает английский текст менее уязвимым для физических и оптических искажений. В следующих статьях будет больше подробностей об английском алфавите.

Вышеописанные особенности кириллицы в русском языке касаются графем и не имеют отношения к исторической ценности определенных форм. Но если задаться целью повысить качество русского алфавита, придется изменять некоторые буквы. В поиске подходящих замен пригодятся исторические формы, возможно, допетровские. Но не стоит зацикливаться на прошлом.

Ритм строки в русскоязычных текстах

Частотный словарь языка позволяет более объективно оценить не только графемы, но и некоторые особенности языка на уровне типографики. Язык может состоять из сотен тысяч слов но не все слова одинаково полезны, когда речь о кернинге, серебре набора и хаотичных эффектах леттеринга или письма.

В текстовых шрифтах, типа Roboto самые распространенные слова и буквосочетания нужного языка очень полезны для кернинговых пар и настройки пропорций знаков.

Нерегулярные шрифты, типа Hatter Display обычно имитируют случайность и разнообразие ручной работы. Варьироваться может буквально все: жирность, контраст, высота, ширина, наклон, искажения. Для создания ритма «случайностей» нужно следить за популярными сочетаниями букв и словами, чтобы в них были красивые нескучные вариации.

Истинная случайность выглядит некрасиво и даже неслучайно. Поэтому «эффект ручной работы» требует настройки под каждый язык.

Но в этом шрифте кириллица делалась после латиницы и, видимо, без учета частотности, поэтому хаотичность базовой линии, высоты и искажений в английском тексте намного заметнее, чем в русском.

Кириллизация хаотичного шрифта — непростая и интересная задача. Для повторения «пляшущей строки» нужно записать искажения в каждой букве и по частотности букв определить распространенность того или иного искажения во всем языке. Затем нужно перенести эти искажения на другой язык, с учетом частотности букв нужного алфавита. Например в английских текстах 30% букв будут подпрыгивать, а 25% провисать, значит русские буквы, согласно частотности в русских текстах, должны повторить это соотношение.

Все искажения нужно распределять так, чтобы самые распространенные слова и буквосочетания не выглядели скучно. Если ваши буквы отдаляются от базовой линии на -10, 0, 10 и сжимаются на -30%, 0%, 30% то нужно следить, чтобы в самых частых сочетаниях: ост, ени, ого, про, ств, ... не было рядов типа -10, -10, -10 или 30%, 30%, 30%.

В шрифтах, имитирующих каллиграфию или бытовой почерк, как Mojito, тоже приходится «приручать хаос». И в этом, как вы уже поняли, тоже помогут частотные словари самых распространенных языков мира.

Спасибо, что дочитали до конца! 

Полезные ссылки по теме

  • Национальный корпус русского языка: Открыть
  • Топ-200 слов и буквосочетаний русского языка: Скачать PDF

Использованные шрифты


Error

Anonymous comments are disabled in this journal

default userpic

Your IP address will be recorded