В этой статье я попытаюсь дать оценку быстродействию файловых систем, используемых в операционных системах WindowsNT/2000. Статья не содержит графиков и результатов тестирований, так как эти результаты слишком сильно зависят от случая, методик тестирования и конкретных систем, и не имеют почти никакой связи с реальным положением дел. В этом материале я вместо этого постараюсь описать общие тенденции и соображения, связанные с производительностью файловых систем. Прочитав данный материал, вы получите информацию для размышлений и сможете сами сделать выводы, понять, какая система будет быстрее в ваших условиях, и почему. Возможно, некоторые факты помогут вам также оптимизировать быстродействие своей машины с точки зрения файловых систем, подскажут какие-то решения, которые приведут к повышению скорости работы всего компьютера.
В данном обзоре упоминаются три системы - FAT (далее FAT16), FAT32 и NTFS, так как основной вопрос, стоящий перед пользователями Windows2000 - это выбор между этими вариантами. Я приношу извинение пользователям других файловых систем, но проблема выбора между двумя, внешне совершенно равнозначными, вариантами со всей остротой стоит сейчас только в среде Windows2000. Я надеюсь, всё же, что изложенные соображения покажутся вам любопытными, и вы сможете сделать какие-то выводы и о тех системах, с которыми вам приходится работать.
Данная статья состоит из множества разделов, каждый из которых посвящен какому-то одному вопросу быстродействия. Многие из этих разделов в определенных местах тесно переплетаются между собой. Тем не менее, чтобы не превращать статью в кашу, в соответствующем разделе я буду писать только о том, что имеет отношение к обсуждаемый в данный момент теме, и ни о чем более. Если вы не нашли каких-то важных фактов в тексте - не спешите удивляться: скорее всего, вы встретите их позже. Прошу вас также не делать никаких поспешных выводов о недостатках и преимуществах той или иной системы, так как противоречий и подводных камней в этих рассуждениях очень и очень много. В конце я попытаюсь собрать воедино всё, что можно сказать о быстродействии систем в реальных условиях.
Теория
Самое фундаментальное свойство любой файловой системы, влияющее на быстродействие всех дисковых операций - структура организации и хранения информации, т.е. то, как, собственно, устроена сама файловая система. Первый раздел - попытка анализа именно этого аспекта работы, т.е. физической работы со структурами и данными файловой системы. Теоретические рассуждения, в принципе, могут быть пропущены - те, кто интересуется лишь чисто практическими аспектами быстродействия файловых систем, могут обратиться сразу ко второй части статьи.
Для начала хотелось бы заметить, что любая файловая система так или иначе хранит файлы. Доступ к данным файлов - основная и неотъемлемая часть работы с файловой системой, и поэтому прежде всего нужно сказать пару слов об этом. Любая файловая система хранит данные файлов в неких объемах - секторах, которые используются аппаратурой и драйвером как самая маленькая единица полезной информации диска. Размер сектора в подавляющем числе современных систем составляет 512 байт, и все файловые системы просто читают эту информацию и передают её без какой либо обработки приложениям. Есть ли тут какие-то исключения? Практически нет. Если файл хранится в сжатом или закодированном виде - как это возможно, к примеру, в системе NTFS - то, конечно, на восстановление или расшифровку информации тратится время и ресурсы процессора. В остальных случаях чтение и запись самих данных файла осуществляется с одинаковой скоростью, какую файловую систему вы не использовали бы.
Обратим внимание на основные процессы, осуществляемые системой для доступа к файлам:
Поиск данных файла
Выяснение того, в каких областях диска хранится тот или иной фрагмент файла - процесс, который имеет принципиально разное воплощение в различных файловых системах. Имейте в виду, что это лишь поиск информации о местоположении файла - доступ к самим данным, фрагментированы они или нет, здесь уже не рассматривается, так как этот процесс совершенно одинаков для всех систем. Речь идет о тех "лишних" действиях, которые приходится выполнять системе перед доступом к реальным данным файлов.
На что влияет этот параметр: на скорость навигации по файлу (доступ к произвольному фрагменту файла). Любая работа с большими файлами данных и документов, если их размер - несколько мегабайт и более. Этот параметр показывает, насколько сильно сама файловая система страдает от фрагментации файлов.
NTFS способна обеспечить быстрый поиск фрагментов, поскольку вся информация хранится в нескольких очень компактных записях (типичный размер - несколько килобайт). Если файл очень сильно фрагментирован (содержит большое число фрагментов) - NTFS придется использовать много записей, что часто заставит хранить их в разных местах. Лишние движения головок при поиске этих данных, в таком случае, приведут к сильному замедлению процесса поиска данных о местоположении файла.
FAT32, из-за большой области самой таблицы размещения будет испытывать огромные трудности, если фрагменты файла разбросаны по всему диску. Дело в том, что FAT (File Allocation Table, таблица размещения файлов) представляет собой мини-образ диска, куда включен каждый его кластер. Для доступа к фрагменту файла в системе FAT16 и FAT32 приходится обращаться к соответствующей частичке FAT. Если файл, к примеру, расположен в трех фрагментах - в начале диска, в середине, и в конце - то в системе FAT нам придется обратиться к фрагменту FAT также в его начале, в середине и в конце. В системе FAT16, где максимальный размер области FAT составляет 128 Кбайт, это не составит проблемы - вся область FAT просто хранится в памяти, или же считывается с диска целиком за один проход и буферизируется. FAT32 же, напротив, имеет типичный размер области FAT порядка сотен килобайт, а на больших дисках - даже несколько мегабайт. Если файл расположен в разных частях диска - это вынуждает систему совершать движения головок винчестера столько раз, сколько групп фрагментов в разных областях имеет файл, а это очень и очень сильно замедляет процесс поиска фрагментов файла.
Вывод: Абсолютный лидер - FAT16, он никогда не заставит систему делать лишние дисковые операции для данной цели. Затем идет NTFS - эта система также не требует чтения лишней информации, по крайней мере, до того момента, пока файл имеет разумное число фрагментов. FAT32 испытывает огромные трудности, вплоть до чтения лишних сотен килобайт из области FAT, если файл разбросан разным областям диска. Работа с внушительными по размеру файлами на FAT32 в любом случае сопряжена с огромными трудностями - понять, в каком месте на диске расположен тот или иной фрагмент файла, можно лишь изучив всю последовательность кластеров файла с самого начала, обрабатывая за один раз один кластер (через каждые 4 Кбайт файла в типичной системе). Стоит отметить, что если файл фрагментирован, но лежит компактной кучей фрагментов - FAT32 всё же не испытывает больших трудностей, так как физический доступ к области FAT будет также компактен и буферизован.
Поиск свободного места
Данная операция производится в том случае, если файл нужно создать с нуля или скопировать на диск. Поиск места под физические данные файла зависит от того, как хранится информация о занятых участках диска.
На что влияет этот параметр: на скорость создания файлов, особенно больших. Сохранение или создание в реальном времени больших мультимедийных файлов (.wav, к примеру), копирование больших объемов информации, т.д. Этот параметр показывает, насколько быстро система сможет найти место для записи на диск новых данных, и какие операции ей придется для этого проделать.
Для определения того, свободен ли данный кластер или нет, системы на основе FAT должны просмотреть одну запись FAT, соответствующую этому кластеру. Размер одной записи FAT16 составляет 16 бит, одной записи FAT32 - 32 бита. Для поиска свободного места на диске может потребоваться просмотреть почти всего FAT - это 128 Кбайт (максимум) для FAT16 и до нескольких мегабайт (!) - в FAT32. Для того, чтобы не превращать поиск свободного места в катастрофу (для FAT32), операционной системе приходится идти на различные ухищрения.
NTFS имеет битовую карту свободного места, одному кластеру соответствует 1 бит. Для поиска свободного места на диске приходится оценивать объемы в десятки раз меньшие, чем в системах FAT и FAT32.
Вывод: NTFS имеет наиболее эффективную систему нахождения свободного места. Стоит отметить, что действовать "в лоб" на FAT16 или FAT32 очень медленно, поэтому для нахождения свободного места в этих системах применяются различные методы оптимизации, в результате чего и там достигается приемлемая скорость. (Одно можно сказать наверняка - поиск свободного места при работе в DOS на FAT32 - катастрофический по скорости процесс, поскольку никакая оптимизация невозможна без поддержки хоть сколь серьезной операционной системы).
Работа с каталогами и файлами
Каждая файловая система выполняет элементарные операции с файлами - доступ, удаление, создание, перемещение и т.д. Скорость работы этих операций зависит от принципов организации хранения данных об отдельных файлах и от устройства структур каталогов.
На что влияет этот параметр: на скорость осуществления любых операций с файлом, в том числе - на скорость любой операции доступа к файлу, особенно - в каталогах с большим числом файлов (тысячи).
FAT16 и FAT32 имеют очень компактные каталоги, размер каждой записи которых предельно мал. Более того, из-за сложившейся исторически системы хранения длинных имен файлов (более 11 символов), в каталогах систем FAT используется не очень эффективная и на первый взгляд неудачная, но зато очень экономная структура хранения этих самих длинных имен файлов. Работа с каталогами FAT производится достаточно быстро, так как в подавляющем числе случаев каталог (файл данных каталога) не фрагментирован и находится на диске в одном месте.
Единственная проблема, которая может существенно понизить скорость работы каталогов FAT - большое количество файлов в одном каталоге (порядка тысячи или более). Система хранения данных - линейный массив - не позволяет организовать эффективный поиск файлов в таком каталоге, и для нахождения данного файла приходится перебирать большой объем данных (в среднем - половину файла каталога).
NTFS использует гораздо более эффективный способ адресации - бинарное дерево, о принципе работы которого можно прочесть в другой статье (Файловая система NTFS). Эта организация позволяет эффективно работать с каталогами любого размера - каталогам NTFS не страшно увеличение количества файлов в одном каталоге и до десятков тысяч.
Стоит заметить, однако, что сам каталог NTFS представляет собой гораздо менее компактную структуру, нежели каталог FAT - это связано с гораздо большим (в несколько раз) размером одной записи каталога. Данное обстоятельство приводит к тому, что каталоги на томе NTFS в подавляющем числе случаев сильно фрагментированы. Размер типичного каталога на FAT-е укладывается в один кластер, тогда как сотня файлов (и даже меньше) в каталоге на NTFS уже приводит к размеру файла каталога, превышающему типичный размер одного кластера. Это, в свою очередь, почти гарантирует фрагментацию файла каталога, что, к сожалению, довольно часто сводит на нет все преимущества гораздо более эффективной организации самих данных.
Вывод: структура каталогов на NTFS теоретически гораздо эффективнее, но при размере каталога в несколько сотен файлов это практически не имеет значения. Фрагментация каталогов NTFS, однако, уверенно наступает уже при таком размере каталога. Для малых и средних каталогов NTFS, как это не печально, имеет на практике меньшее быстродействие.
Преимущества каталогов NTFS становятся реальными и неоспоримыми только в том случае, если в одно каталоге присутствуют тысячи файлов - в этом случае быстродействие компенсирует фрагментированность самого каталога и трудности с физическим обращением к данным (в первый раз - далее каталог кэшируется). Напряженная работа с каталогами, содержащими порядка тысячи и более файлов, проходит на NTFS буквально в несколько раз быстрее, а иногда выигрыш в скорости по сравнению с FAT и FAT32 достигает десятков раз.
Практика
К сожалению, как это часто бывает во всевозможных компьютерных вопросах, практика не очень хорошо согласуется с теорией. NTFS, имеющая, казалось бы, очевидные преимущества в структуре, показывает не настолько уж фантастические результаты, как можно было бы ожидать. Какие еще соображения влияют на быстродействие файловой системы? Каждый из рассматриваемых далее вопросов вносит свой вклад в итоговое быстродействие. Помните, однако, что реальное быстродействие - результат действия сразу всех факторов, поэтому и в этой части статьи не стоит делать поспешных выводов.
Объем оперативной памяти (кэширование)
Очень многие данные современных файловых систем кэшируются или буферизируются в памяти компьютера, что позволяет избежать лишних операций физического чтения данных с диска. Для нормальной (высокопроизводительной) работы системы в кэше приходится хранить следующие типы информации:
Данные о физическом местоположении всех открытых файлов. Это, прежде всего, позволит обращаться к системным файлам и библиотекам, доступ к которым идет буквально постоянно, без чтения служебной (не относящейся к самим файлам) информации с диска. Это же относится к тем файлам, которые исполняются в данный момент - т.е. к выполняемым модулям (.exe и .dll) активных процессов в системе. В эту категорию попадают также файлы системы, с которыми производится работа (прежде всего реестр и виртуальная память, различные .ini файлы, а также файлы документов и приложений).
Наиболее часто используемые каталоги. К таковым можно отнести рабочий стол, меню "пуск", системные каталоги, каталоги кэша интернета, и т.п.
Данные о свободном месте диска - т.е. та информация, которая позволит найти место для сохранения на диск новых данных.
В случае, если этот базовый объем информации не будет доступен прямо в оперативной памяти, системе придется совершать множество ненужных операций еще до того, как она начнет работу с реальными данными. Что входит в эти объемы в разных файловых системах? Или, вопрос в более практической плоскости - каким объемом свободной оперативной памяти надо располагать, чтобы эффективно работать с той или иной файловой системой?
FAT16 имеет очень мало данных, отвечающих за организацию файловой системы. Из служебных областей можно выделить только саму область FAT, которая не может превышать 128 Кбайт (!) - эта область отвечает и за поиск фрагментов файлов, и за поиск свободного места на томе. Каталоги системы FAT также очень компактны. Общий объем памяти, необходимый для предельно эффективной работы с FAT-ом, может колебаться от сотни килобайт и до мегабайта-другого - при условии огромного числа и размера каталогов, с которыми ведется работа.
FAT32 отличается от FAT16 лишь тем, что сама область FAT может иметь более внушительные размеры. На томах порядка 5 - 10 Гбайт область FAT может занимать объем в несколько Мбайт, и это уже очень внушительный объем, надежно кэшировать который не представляется возможным. Тем не менее, область FAT, а вернее те фрагменты, которые отвечают за местоположение рабочих файлов, в подавляющем большинстве систем находятся в памяти машины - на это расходуется порядка нескольких Мбайт оперативной памяти.
NTFS, к сожалению, имеет гораздо большие требования к памяти, необходимой для работы системы. Прежде всего, кэширование сильно затрудняет большие размеры каталогов. Размер одних только каталогов, с которыми активно ведет работу система, может запросто доходить до нескольких Мбайт и даже десятков Мбайт! Добавьте к этому необходимость кэшировать карту свободного места тома (сотни Кбайт) и записи MFT для файлов, с которыми осуществляется работа (в типичной системе - по 1 Кбайт на каждый файл). К счастью, NTFS имеет удачную систему хранения данных, которая не приводит к увеличению каких-либо фиксированных областей при увеличении объема диска. Количество данных, с которым оперирует система на основе NTFS, практически не зависит от объема тома, и основной вклад в объемы данных, которые необходимо кэшировать, вносят каталоги. Тем не менее, уже этого вполне достаточно для того, чтобы только минимальный объем данных, необходимых для кэширования базовых областей NTFS, доходил до 5 - 8 Мбайт.
[pagebreak]
К сожалению, можно с уверенностью сказать: NTFS теряет огромное количество своего теоретического быстродействия из-за недостаточного кэширования. На системах, имеющих менее 64 Мбайт памяти, NTFS просто не может оказаться быстрее FAT16 или FAT32. Единственное исключение из этого правила - диски FAT32, имеющие объем десятки Гбайт (я бы лично серьезно опасался дисков FAT32 объемом свыше, скажем, 30 Гбайт). В остальных же случаях - системы с менее чем 64 мегабайтами памяти просто обязаны работать с FAT32 быстрее.
Типичный в настоящее время объем памяти в 64 Мбайта, к сожалению, также не дает возможности организовать эффективную работу с NTFS. На малых и средних дисках (до 10 Гбайт) в типичных системах FAT32 будет работать, пожалуй, немного быстрее. Единственное, что можно сказать по поводу быстродействия систем с таким объемом оперативной памяти - системы, работающие с FAT32, будут гораздо сильнее страдать от фрагментации, чем системы на NTFS. Но если хотя бы изредка дефрагментировать диски, то FAT32, с точки зрения быстродействия, является предпочтительным вариантом. Многие люди, тем не менее, выбирают в таких системах NTFS - просто из-за того, что это даст некоторые довольно важные преимущества, тогда как типичная потеря быстродействия не очень велика.
Системы с более чем 64 Мбайтами, а особенно - со 128 Мбайт и более памяти, смогут уверенно кэшировать абсолютно всё, что необходимо для работы систем, и вот на таких компьютерах NTFS, скорее всего, покажет более высокое быстродействие из-за более продуманной организации данных. В наше время этим показателям соответствует практически любой компьютер.
Быстродействие накопителя
Влияют ли физические параметры жесткого диска на быстродействие файловой системы? Да, хоть и не сильно, но влияют. Можно выделить следующие параметры физической дисковой системы, которые по-разному влияют на разные типы файловых систем:
Время случайного доступа (random seek time). К сожалению, для доступа к системным областям на типичном диске более сложной файловой системы (NTFS) приходится совершать, в среднем, больше движений головками диска, чем в более простых системах (FAT16 и FAT32). Гораздо большая фрагментация каталогов, возможность фрагментации системных областей - всё это делает диски NTFS гораздо более чувствительными к скорости считывания произвольных (случайных) областей диска. По этой причине использовать NTFS на медленных (старых) дисках не рекомендуется, так как высокое (худшее) время поиска дорожки дает еще один плюс в пользу систем FAT.
Наличие Bus Mastering. Bus Mastering - специальный режим работы драйвера и контроллера, при использовании которого обмен с диском производится без участия процессора. Стоит отметить, что система запаздывающего кэширования NTFS сможет действовать гораздо более эффективно при наличии Bus Mastering, т.к. NTFS производит отложенную запись гораздо большего числа данных. Системы без Bus Mastering в настоящее время встречаются достаточно редко (обычно это накопители или контроллеры, работающие в режиме PIO3 или PIO4), и если вы работаете с таким диском - то, скорее всего, NTFS потеряет еще пару очков быстродействия, особенно при операциях модификации каталогов (например, активная работа в интернете - работа с кэшем интернета).
Кэширование как чтения, так и записи на уровне жестких дисков (объем буфера HDD - от 128 Кбайт до 1-2 Мбайт в современных дорогих дисках) - фактор, который будет более полезен системам на основе FAT. NTFS из соображений надежности хранения информации осуществляет модификацию системных областей с флагом "не кэшировать запись", поэтому быстродействие системы NTFS слабо зависит от возможности кэширования самого HDD. Системы FAT, напротив, получат некоторый плюс от кэширования записи на физическом уровне. Стоит отметить, что, вообще говоря, всерьез принимать в расчет размер буфера HDD при оценке быстродействия тех или иных файловых систем не стоит.
Подводя краткий итог влиянию быстродействия диска и контроллера на быстродействия системы в целом, можно сказать так: NTFS страдает от медленных дисков гораздо сильнее, чем FAT.
Размер кластера
Хотелось бы сказать пару слов о размере кластера - тот параметр, который в файловых системах FAT32 и NTFS можно задавать при форматировании практически произвольно. Прежде всего, надо сказать, что больший размер кластера - это практически всегда большее быстродействие. Размер кластера на томе NTFS, однако, имеет меньшее влияние на быстродействие, чем размер кластера для системы FAT32.
Типичный размер кластера для NTFS - 4 Кбайта. Стоит отметить, что при большем размере кластера отключается встроенная в файловую систему возможность сжатия индивидуальных файлов, а также перестает работать стандартный API дефрагментации - т.е. подавляющее число дефрагментаторов, в том числе встроенный в Windows 2000, будут неспособны дефрагментировать этот диск. SpeedDisk, впрочем, сможет - он работает без использования данного API. Оптимальным с точки зрения быстродействия, по крайней мере, для средних и больших файлов, считается (самой Microsoft) размер 16 Кбайт. Увеличивать размер далее неразумно из-за слишком больших расходов на неэффективность хранения данных и из-за мизерного дальнейшего увеличения быстродействия. Если вы хотите повысить быстродействие NTFS ценой потери возможности сжатия - задумайтесь о форматировании диска с размером кластера, большим чем 4 Кбайта. Но имейте в виду, что это даст довольно скромный прирост быстродействия, который часто не стоит даже уменьшения эффективности размещения файлов на диске.
Быстродействие системы FAT32, напротив, можно довольно существенно повысить, увеличив размер кластера. Если в NTFS размер кластера почти не влияет на размер и характер данных системных областей, то в системе FAT увеличивая кластер в два раза, мы сокращаем область FAT в те же два раза. Вспомните, что в типичной системе FAT32 эта очень важная для быстродействия область занимает несколько Мбайт. Сокращение области FAT в несколько раз даст заметное увеличение быстродействия, так как объем системных данных файловой системы сильно сократиться - уменьшается и время, затрачиваемое на чтение данных о расположении файлов, и объем оперативной памяти, необходимый для буферизирования этой информации. Типичный объем кластера для систем FAT32 составляет тоже 4 Кбайт, и увеличение его до 8 или даже до 16 Кбайт - особенно для больших (десяток и более гигабайт) дисков - достаточно разумный шаг.
Другие соображения
NTFS является достаточно сложной системой, поэтому, в отличие от FAT16 и FAT32, имеются и другие факторы, которые могут привести к существенному замедлению работы NTFS:
Диск NTFS был получен преобразованием раздела FAT16 или FAT32 (команда convert). Данная процедура в большинстве случаев представляет собой тяжелый случай для быстродействия, так как структура служебных областей NTFS, скорее всего, получится очень фрагментированной. Если есть возможность - избегайте преобразования других систем в NTFS, так как это приведет к созданию очень неудачного диска, которому не поможет даже типичный (неспециализированный) дефрагментатор, типа Diskeeper-а или встроенного в Windows 2000.
Активная работа с диском, заполненным более чем на 80% - 90%, представляет собой катастрофический для быстродействия NTFS случай, так как фрагментация файлов и, самое главное, служебных областей, будет расти фантастически быстро. Если ваш диск используется в таком режиме - FAT32 будет более удачным выбором при любых других условиях.
Выводы
В данной заключительной части "одной строчкой" собраны ключевые особенности быстродействия этих трех файловых систем.
FAT - плюсы:
Для эффективной работы требуется немного оперативной памяти.
Быстрая работа с малыми и средними каталогами.
Диск совершает в среднем меньшее количество движений головок (в сравнении с NTFS).
Эффективная работа на медленных дисках.
FAT - минусы:
Катастрофическая потеря быстродействия с увеличением фрагментации, особенно для больших дисков (только FAT32).
Сложности с произвольным доступом к большим (скажем, 10% и более от размера диска) файлам.
Очень медленная работа с каталогами, содержащими большое количество файлов.
NTFS - плюсы:
Фрагментация файлов не имеет практически никаких последствий для самой файловой системы - работа фрагментированной системы ухудшается только с точки зрения доступа к самим данным файлов.
Сложность структуры каталогов и число файлов в одном каталоге также не чинит особых препятствий быстродействию.
Быстрый доступ к произвольному фрагменту файла (например, редактирование больших .wav файлов).
Очень быстрый доступ к маленьким файлам (несколько сотен байт) - весь файл находится в том же месте, где и системные данные (запись MFT).
NTFS - минусы:
Существенные требования к памяти системы (64 Мбайт - абсолютный минимум, лучше - больше).
Медленные диски и контроллеры без Bus Mastering сильно снижают быстродействие NTFS.
Работа с каталогами средних размеров затруднена тем, что они почти всегда фрагментированы.
Диск, долго работающий в заполненном на 80% - 90% состоянии, будет показывать крайне низкое быстродействие.
Хотелось бы еще раз подчеркнуть, что на практике основной фактор, от которого зависит быстродействие файловой системы - это, как ни странно, объем памяти машины. Системы с памятью 64-96 Мбайт - некий рубеж, на котором быстродействие NTFS и FAT32 примерно эквивалентно. Обратите внимание также на сложность организации данных на вашей машине. Если вы не используете ничего, кроме простейших приложений и самой операционной системы - может случиться так, что FAT32 сможет показать более высокое быстродействие и на машинах с большим количеством памяти.
NTFS - система, которая закладывалась на будущее, и это будущее для большинства реальных применений сегодняшнего дня еще, к сожалению, видимо не наступило. На данный момент NTFS обеспечивает стабильное и равнодушное к целому ряду факторов, но, пожалуй, всё же невысокое - на типичной "игровой" домашней системе - быстродействие. Основное преимущество NTFS с точки зрения быстродействия заключается в том, что этой системе безразличны такие параметры, как сложность каталогов (число файлов в одном каталоге), размер диска, фрагментация и т.д. В системах FAT же, напротив, каждый из этих факторов приведет к существенному снижению скорости работы.
Только в сложных высокопроизводительных системах - например, на графических станциях или просто на серьезных офисных компьютерах с тысячами документов, или, тем более, на файл-серверах - преимущества структуры NTFS смогут дать реальный выигрыш быстродействия, который порой заметен невооруженным глазом. Пользователям, не имеющим большие диски, забитые информацией, и не пользующимся сложными программами, не стоит ждать от NTFS чудес скорости - с точки зрения быстродействия на простых домашних системах гораздо лучше покажет себя FAT32.
Жесткие диски (винчестеры), как электромеханические устройства, являются одним из самых ненадежных компонентов современного компьютера. Несмотря на то, что в большинстве случаев срок службы последних соизмерим, и даже превосходит время их эксплуатации до момента морального устаревания и замены более новыми моделями, все же отдельные экземпляры выходят из строя в течение первых месяцев эксплуатации. Выход жесткого диска из строя - самое худшее, что может случиться с вашим компьютером, так как при этом часто необратимо теряются накопленные на нем данные. Если резервная копия по какой-то причине отсутствует, то суммарный ущерб от поломки заметно превышает номинальную стоимость современных винчестеров.
Многие фирмы, пользуясь ситуацией, предлагают свои услуги по восстановлению информации с вышедшего из строя накопителя. Очевидно, это обходится недешево и целесообразно только тогда, когда на диске находилось что-то действительно ценное. В противном случае легче просто смириться с потерей.
Ремонт жестких дисков требует специального оборудования и практически невозможен в домашних условиях. Так, например, для вскрытия контейнера необходима особо чистая от пыли комната. Казалось бы, положение безнадежно и нечего даже помышлять о восстановлении поломанного диска в домашних условиях. Но, к счастью, не все поломки настолько серьезны, и во многих случаях можно обойтись для ремонта подручными (а иногда чисто программными) средствами.
Один из самых частых отказов винчестеров фирмы western digital (а также и некоторых других) выглядит следующим образом: жесткий диск не опознается bios, а головки при этом отчетливо стучат. Скорее всего, по какой-то причине не работает блок термокалибровки, и устройство не может обеспечить нужный зазор между головкой и рабочей поверхностью "блина". Обычно это происходит при отклонении от нормального температурного режима эксплуатации, например, в зимнее время, когда жесткие диски в плохо отапливаемых помещениях "выстывают" за ночь (при температуре 18...210С жесткий диск часто может исправно функционировать и с испорченным механизмом термокалибровки). Попробуйте дать поработать винчестеру в течение нескольких часов, чтобы он прогрелся, при этом рано или поздно винчестер попадает в необходимый диапазон температур и работоспособность (возможно, временно) восстанавливается. Разумеется, первым делом нужно скопировать всю информацию, поскольку работоспособность такого диска уже не гарантируется. То же можно рекомендовать и в отношении устаревших моделей без термокалибровки; часто они оказываются зависимыми от температурного режима, и с ростом износа винчестера эта зависимость проявляется все сильнее.
Вторым по распространенности отказом является выход из строя модуля диагностики при полной исправности остальных компонентов. Как это ни покажется парадоксальным, но полностью рабочий винчестер не проходит диагностику. При этом в регистре ошибок (порт ox1f1 для первого жесткого диска) могут содержаться значения, приведенные ниже:
Диагностические ошибки
Бит Содержимое Источник ошибки
7 0 Ошибка master диска
1 Ошибка slave диска
2-0 011 Ошибка секторного буфера
100 Ошибка контрогльной суммы, не устранимая избыточным кодированием
101 Ошибка микроконтроллера
Разные biosы могут различно реагировать на такую ситуацию, но все варианты сводятся к одному - жесткий диск не определяется и не "чувствуется". Однако на уровне портов ввода/вывода устройство функционирует отлично. Заметим, что существуют такие материнские платы (особенно среди новых моделей), которые, обнаружив ошибку микроконтроллера винчестера, просто отключают питание жесткого диска. Несложно написать для испорченного таким образом винчестера драйвер, который обеспечит работу с диском через высокоуровневый интерфейс int 0x13. Например, следующая процедура обеспечивает посекторное чтение и запись через порты ввода/вывода для первого жесткого диска в chs режиме.
lba mode для упрощения понимания не поддерживается. Необходимую техническую информацию обычно можно найти на сайте производителя вашего жесткого диска.
Этот фрагмент может служить вполне работоспособным ядром для драйвера 16-ти разрядного режима. Для упрощения понимания не включена задержка после каждого обращения к порту. В зависимости от соотношений скорости вашего процессора и контроллера диска эта задержка может и не потребоваться (в противном случае рекомендуется читать регистр статуса ox1f7, дожидаясь готовности контроллера). При этом не следует спешить с заменой такого жесткого диска на новый, с подобной неисправностью можно успешно работать не год и не два. Последнее, правда, лишь при условии, что все используемое программное обеспечение не будет конфликтовать с нестандартным драйвером. Писать драйвер, скорее всего, придется вам самому, поскольку не известно ни одной коммерческой разработки в этом направлении, а все любительские разработки выполнены в основном "под себя". Так, например, драйвер от kpnc hddfix3a поддерживает только винчестеры primary master до пятисот мегабайт и не работает в среде windows 95 (разработан на год раньше ее появления).
Более легкий, но не всегда осуществимый путь - запретить тестирование жестких дисков biosом или, по крайней мере, игнорировать результаты такового. Как это осуществить, можно прочесть в руководстве на материнскую плату (или обратиться за помощью к службе технической поддержки фирмы-производителя, поскольку в руководствах пользователя такие тонкости нередко опускают). Например, попробуйте установить "halt on" в "never" или перезаписать flach bios, модифицировав его так, чтобы тот не выполнял подобную проверку. Если Вам повезет, жесткий диск заработает! Однако иногда все же происходят и аппаратные отказы. Например, у винчестеров фирм samsung и conner отмечены случаи отказа модуля трансляции мультисекторного чтения/записи. Если это не будет обнаружено внутренним тестом устройства, то такой жесткий диск вызовет зависание операционной системы на стадии ее загрузки. Для предотвращения этого достаточно добавить в config.sys ключ multi-track=off и отключить аналогичные опции в blose. При этом, проиграв в скорости, все же можно заставить жесткий диск сносно работать. Понятно, что эксплуатировать восстановленный таким образом диск длительное время нерационально по причине потери быстродействия. Лучше приобрести новый, на который и скопировать всю информацию. С другой стороны, такой жесткий диск все же остается полностью рабочим и успешно может служить, например, в качестве резервного.
На том же connere эпизодически выходит из строя блок управления позиционированием головок, так что последние уже не могут удержаться на дорожке и при обращении к следующему сектору немного "уползают". При этом считывание на выходе дает ошибочную информацию, а запись необратимо затирает соседние сектора. Бороться с этим можно позиционированием головки перед каждой операцией записи/чтения, обрабатывая за один проход не более сектора. Понятно, что для этого необходимо вновь садиться за написание собственного драйвера. К счастью, он достаточно простой (можно использовать аппаратное прерывание от жесткого диска int 0x76 irq14, вставив в тело обработчика команду сброса контроллера. В данном случае подразумевается, что контроллер используемого жесткого диска проводит рекалибровку головки во время операции сброса. Некоторые модели этого не делают. В этом случае придется прибегнуть к операции позиционирования головки (функция ОхС дискового сервиса 0x13). Первые модели от вторых можно отличить временем, требуемым на сброс контроллера. Понятно, что электроника "сбрасывается" мгновенно, а позиционирование головки требует хоть и не большого, но все же заметного времени. Современные модели с поддержкой кэширования этого часто не делают или "откладывают" операции с головкой до первого к ней обращения. Разумеется, в этом случае кэширование придется выключить. Большинство bios позволяет это делать без труда, и нет нужды программировать контроллер самостоятельно. В другом случае вышедший из строя блок позиционирования (трансляции) подводит головки вовсе не к тому сектору, который запрашивался. Например, головки могли физически сместиться с оси, "уползая" в сторону. Разумеется, этот дефект можно скорректировать программно, достаточно проанализировать ситуацию и логику искажения трансляции. Многие модели позиционируют головку, используя разметку диска, что страхует от подобных поломок (к сожалению, сейчас от такого подхода большинство фирм отказались, выигрывая в скорости).
Конечно, все описанные программные подходы в действительности не устраняют неисправность, а только позволяют скопировать с казалось бы уже нерабочего винчестера ценные и еще не сохраненные данные. При этом ни к чему писать универсальный драйвер для win32 и защищенного режима. Вполне можно ограничиться dos-режимом. Для копирования файлов последнего должно оказаться вполне достаточно, конечно за исключением тех случаев, когда диск был отформатирован под ntsf или другую, не поддерживаемую ms-dos, систему. К счастью, для многих из них есть драйверы, которые позволяют "видеть" подобные разделы даже из "голой" ms-dos. В крайнем случае, можно ограничиться посекторным копированием на винчестер точно такой же топологии. При этом совершенно не имеет значения используемая файловая система и установленная операционная система.
Посекторно скопировать диск на винчестер с иной топологией трудно, но возможно. Дело в том, что многие современные контроллеры жестких дисков позволяют пользователю менять трансляцию произвольным образом. Для этого необходимо приобрести винчестер, поддерживающий lba-режим (а какой из современных жестких дисков его не поддерживает?). При этом он может быть даже большего объема, нежели исходный, но это никак не помешает копированию. Другой вопрос, что без переразбиения скопированный таким образом диск не "почувствует" дополнительных дорожек и следует запустить norton disk doctor, который устранит эту проблему.
Достаточно часто нарушается вычисление зон предком-пенсации. Дело в том, что плотность записи на разных цилиндрах не одинакова, так как линейная скорость растет от центра диска к периферии. Разумеется, гораздо легче постепенно уплотнять записи, нежели искать некий усредненный компромисс. На всех существующих моделях плотность записи изменяется скачкообразно и на последних моделях программно доступна через соответствующие регистры контроллера. При этом значения, выставленные в bios, практически любой жесткий диск (с интерфейсом ide) просто игнорирует. Предыдущие модели не имели с этим проблем, и только винчестеры, выпущенные в течение последних двух лет, склонны к подобным поломкам. Скорее, даже не к поломкам, а к сбоям, в результате которых искажается хранимая где-то в недрах жесткого диска информация. Если контроллер позволяет ее программно корректировать, то считайте, что ваш жесткий диск спасен. Конечно, придется пройти сквозь мучительные попытки угадать оригинальные значения, однако это можно делать и автоматическим перебором до тех пор, пока винчестер не начнет без ошибок читать очередную зону. Помните, что любая запись на диск способна нарушить низкоуровневую разметку винчестера, после чего последний восстановлению не подлежит и его останется только выкинуть. Производите только чтение секторов!
Если же контроллер не позволяет программно управлять предкомпенсацией, то еще не все потеряно. Попробуйте перед каждым обращением делать сброс контроллера, а точнее, его рекалибровку (команда ixh). В некоторых случаях это срабатывает, поскольку с целью оптимизации скорости обмена предкомпенсацией обычно управляет не один блок. И, кроме того, иногда контроллер кэша не учитывает предкомпенсацию, а его сброс реализует последнюю аппаратно. К сожалению, это по большей части догадки и результаты экспериментов автора, так как техническая документация фирм-производителей по этому поводу не отличается полнотой, а местами содержит противоречия. Можно испытать и другой способ - попробовать перезаписать микрокод контроллера (команда 92h). Конечно, это доступно только для специалистов очень высокого класса, но ведь доступно! Заметим, что не все контроллеры поддерживают такую операцию. С другой стороны, это и хорошо, так как уменьшает вероятность сбоя и не дает некорректно работающим программам (вирусам в том числе) испортить дорогое устройство. Жесткие диски от samsung обладают еще одной неприятной особенностью - часто при подключении шлейфа "на лету", при включенном питании, они перестают работать. Внешне это выглядит так: индикатор обращения к диску постоянно горит, но диск даже не определяется biosom, или определяется, но все равно не работает. Близкое рассмотрение показывает, что на шине пропадает сигнал готовности устройства. В остальном контроллер остается неповрежденным. Разумеется, если не обращать внимание на отсутствие сигнала готовности, то с устройством можно общаться, делая вручную необходимые задержки (поскольку физическую готовность устройства уже узнать не представляется возможным, приходится делать задержки с изрядным запасом времени). При этом, к сожалению, придется отказаться от dma-mode (а уж тем более ultra-dma) и ограничиться pio 1 (с небольшим риском - pio 2) режимом. Конечно, писать соответствующий драйвер вам придется опять самостоятельно. Разумеется, скорость обмена в режиме pio 1 по сегодняшним меркам совершенно неудовлетворительна и не годится ни для чего другого, кроме как копирования информации со старого на новый винчестер, но некоторые "нечистоплотные" продавцы компьютерной техники как-то ухитряются устанавливать подобные экземпляры на продаваемые машины. Будьте осторожны! Учитывая, что написание подобных драйверов для win32 - трудоемкое занятие, большинство ограничивается поддержкой одной лишь ms-dos, и вовсе не факт, что компьютер, демонстрирующий загрузку win95, содержит исправный, а не реанимированный подобным образом жесткий диск.
У жестких дисков фирмы samsung при подключении "налету" может появляться другой неприятный дефект - при запросах на чтение контроллер периодически "повисает" и не завершает операцию. В результате "замирает" вся операционная система (впрочем, windows nt с этим справляется, но, вероятно, не всегда). На первый взгляд может показаться, что с этого винчестера несложно скопировать ценные файлы, но при попытке выполнить это выясняется, что диск "зависает" все чаще и чаще и копирование растягивается до бесконечности. Однако если выполнить сброс контроллера, то можно будет повторить операцию. Это можно сделать аппарат -но, подпаяв одну кнопку на линию сброса и статуса. Последнее нужно для указания на ошибочную ситуацию, чтобы операционная система повторила незавершенную операцию. Если этого не сделать, то часть секторов не будет реально прочитана (записана). Или можно выполнять сброс автоматически, например, по таймеру. Чтобы не сталкиваться с подобной ситуацией, никогда не следует подсоединять/отсоединять винчестер при включенном питании. Очень часто это приводит к подобным ошибкам, хотя производители других фирм, по-видимому, как-то от этого все же защищаются, ибо аналогичной ситуации у них практически не встречается. Все же не стоит искушать судьбу... От аппаратных ошибок теперь перейдем к дефектам поверхности. Заметим сразу, что последнее встречается гораздо чаще и проявляется намного коварнее. Обычно это ситуация, в которой мало что можно предпринять. Но достичь главной цели - спасти как можно больше уцелевших данных - довольно часто удается. Возьмем такую типичную ситуацию как ошибка чтения сектора. Маловероятно, чтобы сектор был разрушен целиком. Чаще всего "сыплется" только какая-то его часть, а все остальные данные остаются неискаженными. Существуют контроллеры двух типов. Первые, обнаружив расхождение контрольной суммы считанного сектора, все же оставляют прочитанные данные в буфере и позволяют их извлечь оттуда, проигнорировав ошибку чтения. Вторые либо очищают буфер, либо просто не сбрасывают внутренний кэш, в результате чего все равно прочитать буфер невозможно. На практике обычно встречаются последние. При этом сброс кэша можно инициировать серией запросов без считывания полученных данных. Кэш при этом переполняется, и наиболее старые данные будут вытолкнуты в буфер. Остается их только прочесть. Конечно,-это крайне медленно, но, к сожалению, универсальной команды сброса кэша не существует. Разные разработчики реализуют это по-своему (впрочем, иногда это можно найти в документации на чипы, используемые в контроллере). western digital сообщает в техническом руководстве что при длинном чтении сектора без повтора контроль сектора не выполняется и он будет-таки целиком помещен в буфер. Кстати, так и должно быть по стандарту. Увы, остальные фирмы от него часто отклоняются по разным соображениям. Остается определить, какие же из прочитанных данных достоверные, а какие нет (если этого не видно "визуально" - например, в случае текстового или графического файлов)? Разумеется, в подобных рамках задача кажется неразрешимой, но это не совсем так. Дело в том, что можно произвести не только короткое, но и длинное чтение (ox22h req ploin long with retry), для чего можно использовать следующую процедуру. При этом кроме собственно данных читаются также и корректирующие коды. Автоматическая коррекция не выполняется (хотя некоторые контроллеры это реализуют аппаратно и не могут отключить автокоррекцию; в документации этот момент, кстати, не уточняется). Как правило, используются корректирующие коды Рида-Соломона, хотя последнее не обязательно. Математические законы позволяют не только определить место возникновения сбоя, но и даже восстановить несколько бит. При больших разрушениях можно определить только место сбоя, но достоверно восстановить информацию не удается.
Модуляция при записи такова, что все биты, стоящие справа от сбойного, уже не достоверны. Точнее, не все, а только в пределах одного пакета. Обычно за один раз записывается от 3 до 9 бит (необходимо уточнить у конкретного производителя) и содержимое остальных пакетов, как правило, остается достоверным. Самое интересное, что зачастую сбойный пакет можно восстановить методом перебора! При этом можно даже рассчитать, сколько вариантов должно получиться. Учитывая хорошую степень "рассеяния" корректирующих кодов можно сказать, что не очень много. И таким образом можно восстановить казалось бы безнадежно испорченные сектора, а вместе с ними и файлы, расположенные "поверх" последних.
Выше были перечислены наиболее типичные случаи отказов жестких дисков, которые поддавались чисто программному восстановлению если уж не винчестера, то хотя бы хранимых на нем данных. Разумеется, что иногда жесткий диск выходит из строя полностью (например, при неправильно подключенном питании, скачках напряжения) от вибрации или ударов, а то и просто из-за откровенного заводского брака. Есть один старый проверенный способ - найти жесткий диск такой же точно модели и заменить электронную плату. К сожалению, последнее из-за ряда конструктивных особенностей все реже и реже бывает возможно, а уж дефекты поверхности этот способ и вовсе бессилен вылечить. Поэтому, берегите свой жесткий диск и почаще проводите резервное копирование. Помните, что самое дорогое это не компьютер, а хранимая на нем информация!
Регионы нужны не только для того, чтобы резать дырки в формах. Иногда они могут оказаться довольно полезным инструментом именно в своём "родном" качестве, т.е. для отрисовки на экране достаточно сложных геометрических фигур. Например, для вывода карт, представляющих собой совокупность ломанных линий, построенных по массивам точек. Создать такую линию нам уже не составит труда, пора разобраться, как её показать юзеру.
Из функций отрисовки две первые нам уже смутно знакомы: они делают тоже, что делает параметр FillMode (ALTERNATE/WINDING) для функций CreatePolygonRgn и CreatePolyPolygonRgn. GetPolyFillMode получает заданный для указанного контекста режим заливки, а SetPolyFillMode устанавливает его. Просто на этот раз речь идёт не о создании региона, а всего лишь о его отрисовке. Установленное значение будет иметь смысл для всех функций, заливающих регион, т.е. PaintRgn и FillRgn, при этом сам регион останется таким, каким он и был создан, а вот раскрашен будет по разному, в том случае, если он состоит из нескольких пересекающихся регионов. Для простых регионов типа прямоугольника или элипса установка данного значения ничего не меняет.
Итак. Давайте срочно что-нить создадим и нарисуем. Можно, конечно, сделать это в одной функции, например в OnCreate, но тогда изображение будет весьма недолговечным - до первой перерисовки формы. Поэтому поступим иначе: объявим private property fRgn, в OnCreate его инициализируем, в OnPaint будем его отображать, а в OnDestroy - уничтожим. Код методов представлен ниже:
Следует помнить, что Функции отрисовки регионов всегда работают с цветом,
указанным в Canvas.Brush.Color. Даже рисуя бордюр (frame) использоваться будет не цвет Canvas.Pen, что, в общем-то, представляется более логичным, а цвет Canvas.Brush.
Ничего такой получился кружочек. Погребального вида. Давайте сделаем его более жизнерадостным, и заодно разберёмся, как работает FrameRgn:
У меня получилась такая вот картинка:
Насколько я могу судить, функции FillRgn и PaintRgn отличаются друг от друга только тем, что первая позволяет указать дескриптор кисти, не связанной с текущим canvas'ом. Сомнительная фича с точки зрения дельфей, т.к. манипулировать с текущим цветом кисти канваса всяко легче, чем создавать отдельный экземпляр класса TBrush. Вот, собственно, и всё об отрисовке. Примечательно то, что для того, чтобы нарисовать регион нам не нужно знать, что он из себя представляет. Мы просто передаём дескриптор одной и той же процедуре, а она отобразит на экране круг, овал, треугольник, звезду Давида - всё, что угодно.
Функции, представленные в разделе прочее ничего особенно интересного из себя не представляют, и, в общем-то, интуитивно понятны. поэтому рассотрим лишь некоторые из них.
Можно сказать, что современная корпорация буквально "пропитана" данными. Они повсюду и, более того, очень часто одни и те же данные могут находиться в нескольких местах. Корпорация должна иметь возможность идентифицировать источник, происхождение, семантику и пути доступа к данным. Метаданные или, как их обычно называют, "данные о данных", являются ключом для получения этой информации. Но, как это ни удивительно, у большинства корпораций нет отчетливой стратегии относительно метаданных. Различные подразделения организации используют разные наборы инструментов для поддержки своих данных.
Каждому такому набору соответствуют определенные метаданные. Поэтому картина, типичная для многих корпораций, - это так называемые "острова метаданных", т.е. некоторые объемы информации, которые невозможно связать друг с другом. Для решения этой проблемы некоторые организации начинают крупные проекты по интеграции метаданных, тратя на это значительные средства и время. Но, к сожалению, в большинстве проектов отсутствует структурный подход, поэтому временные и финансовые затраты не окупаются.
В предлагаемой статье обсуждаются подходы к управлению метаданными, в том числе то, какие метаданные необходимо собирать, как их можно моделировать, как создать требуемое архитектурное решение и как обеспечить простоту поддержки метаданных в долгосрочной перспективе. Большинство этих подходов уже существуют в той или иной форме в различных организациях. В данной статье сделана попытка собрать и обобщить имеющийся опыт.
Классификация метаданных
На самом высоком уровне метаданные могут быть разделены на две категории:
Элементы общих метаданных должны иметь совместные (непротиворечивые) определения и семантику в масштабах всей корпорации. Например, определение понятия "клиент" должно быть единым для всей компании.
Метаданные могут быть классифицированы и по другим параметрам:
Метаданные бизнеса включают определения объектов, относящихся к корпоративным пользователям, логическим картам данных и словарям Хранилищ данных. Технические метаданные включают данные о физических объектах: названия таблиц и столбцов, ограничения и правила физического преобразования между различными зонами. В метаданных процессов отражается статистическая информация о различных процессах: статистика загруженности, информация о календарном планировании и обработка исключений.
Создание решения для управления метаданными
Для создания успешного решения по управлению корпоративными метаданными автор рекомендует следовать определенной последовательности шагов:
1. собрать все требования, предъявляемые к метаданным;
2. выбрать соответствующую модель метаданных;
3. определить общие подходы к архитектуре;
4. внедрить выбранное решение и осуществлять его поддержку.
Сбор требований, предъявляемых к метаданным
Определение требований, предъявляемых к метаданным, может оказаться непростой задачей. Ключевые стороны, которым могут быть нужны метаданные, разнообразны и пространственно разобщены. Это могут быть как конечные пользователи или аналитики, так и приложения или наборы инструментов. Процесс сбора стандартных требований не должен слишком расплываться. Автор предлагает следующий подход, учитывающий специфическую природу метаданных:
* определение ключевых сторон для каждого элемента метаданных;
* отнесение каждого элемента метаданных к определенной категории: метаданным бизнеса, техническим или метаданным процессов;
* отнесение каждого элемента метаданных к категории общих или уникальных на основе их использования в тех или иных процессах.
Следующий шаг - идентификация источника элемента метаданных. Обычно они называются "официальными метаданными" или "метаданными записи"1. Метаданные записи указывают на официальную версию определенного элемента для какого-либо события, в котором может быть несколько источников одних и тех же данных. Для того чтобы назвать определенный элемент метаданных официальным, важно понимать различные процессы, которые могут привести к созданию этого элемента. Эта информация помогает определить официальный источник метаданных. Например, компания розничной торговли создает корпоративное Хранилище данных, при этом элементы, содержащие информацию о клиентах, появляются в нескольких местах, таких как Хранилище данных о потребителях, система управления отношениями с клиентами (Customer Relationship Management, сокр. CRM) и система сбыта. При этом важно проводить анализ надежности и полноты каждого источника и оценивать, какие именно определения могут использоваться в качестве официальной версии. В данном случае уже может существовать Хранилище данных о потребителях, определяющее соответствующее измерение, поэтому можно будет считать словарь данных этого Хранилища официальными метаданными записей. После того как этот процесс будет закончен для всех элементов метаданных, можно будет сказать, что организация требований к метаданным завершена.
Выбор метамодели
Следующий шаг после формализации требований к метаданным - создание модели. Моделирование метаданных важно, поскольку оно может стать элементом, который используется во всей корпорации. Существует несколько способов выбора модели метаданных:
* создание специальной модели данных для работы с метаданными;
* использование имеющихся стандартных моделей;
* оснащение доступного репозитория метаданных инструментами, позволяющими использовать его как источник интеграции.
Для создания специальной модели метаданных важно иметь корректные определения элементов, их атрибутов и связей с другими элементами. Такая модель может быть объектно-ориентированной или моделью типа объект-отношение. Что касается стандартных моделей, то тут существует два варианта: модель открытой информации (Open Information Model, сокр. OIM) и общая метамодель Хранилища данных (Common Warehouse Meta-Model, сокр. CWM). CWM описывает обмен метаданными между Хранилищами данных, средствами Business Intelligence и управления знаниями и портальными технологиями. Согласно компании Meta Data Coalition, OIM - это набор спецификаций метаданных для облегчения их совместного и многократного использования в области разработки приложений и Хранилищ данных. OIM описывается с помощью универсального языка моделирования (Unified Modeling Language, сокр. UML) и организуется по предметным областям, которые могут быть легко использованы и при необходимости расширены. Эта модель данных основана на отраслевых стандартах, таких как UML, XML и SQL.
Выбор подходящей метамодели является непростой задачей. Хотя специальные модели бывают гораздо более гибкими, создание надежной модели на корпоративном уровне и ее долгосрочная поддержка могут оказаться довольно обременительными. Для решения такой задачи нужен хорошо продуманный план. С другой стороны, стандартные модели довольно широкие: они охватывают большинство требований, предъявляемых на корпоративном уровне. Но настройка таких моделей под специфические нужды корпорации может оказаться проблематичной. Для тех корпораций, где существуют наборы инструментов и связанные с ними метаданные, хорошим решением будет использование метамоделей от любого поставщика. При этом, безусловно, понадобятся существенные интеграционные усилия. С другой стороны, если корпорация только начинает работать с метаданными и у нее нет несовместимых наборов инструментов, то хорошим решением может быть создание собственной специальной метамодели.
После завершения моделирования метаданных важно определить репозиторий для хранения данных. Это может быть реляционное или объектно-ориентированное Хранилище.
[pagebreak]
Определение архитектуры высокого уровня
Для внедрения решений по работе с метаданными существует целый ряд архитектурных возможностей. Одно из решений - централизованный репозиторий, где хранятся все метаданные.
Основные элементы метаданных, которые будут храниться в таком центральном репозитории, - это метаданные приложений, систем управления базами данных, бизнеса и метаданные, связанные с различными процессами. Создание и модификация элементов метаданных должны осуществляться с помощью общего интерфейса. Для такого решения можно разработать специальную метамодель или использовать одну из стандартных. Данная архитектура имеет несколько преимуществ:
* сравнительно простая поддержка метаданных;
* упрощенные процедуры взаимодействия между компонентами;
* простые процедуры подготовки отчетности.
Некоторые корпорации пытаются создавать очень небольшие решения для работы с метаданными. Это означает, что каждое подразделение организации конструирует свое собственное решение.
Для облегчения обмена метаданными в качестве основы для их передачи используется XML. Каждое приложение, система управления базами данных или инструмент вступает в контакт с репозиторием с помощью XML. Парсер репозитория преобразует формат XML в формат метамодели и обновляет содержимое репозитория.
Наконец, третье архитектурное решение известно под названием распределенной архитектуры. Это тот случай, когда корпорация уже потратила значительное количество ресурсов на создание локального решения для работы с метаданными, а интеграция в масштабах всей корпорации оказывается слишком дорогостоящей. В результате локальное решение продолжает существовать, а в тех случаях, когда это оправдано и выгодно, происходит совместное пользование метаданными из нескольких источников.
Внедрение и поддержка решения для работы с метаданными
После завершения разработки архитектуры и выбора метамоделей можно приступать к внедрению решения. При этом надо иметь в виду следующее:
1. природу репозитория метаданных (реляционная база данных, система файлов, объектно-ориентированная база данных или репозиторий XML);
2. вопросы безопасности репозитория метаданных (кто управляет репозиторием; кто имеет право читать информацию репозитория или обновлять ее);
3. механизмы создания, чтения и добавления компонентов метаданных;
4. инфраструктуру отчетности для метаданных.
После разработки плана и обеспечения соответствующих инструментальных средств можно приступать к внедрению решения для работы с метаданными.
Но собственно внедрение еще не обеспечивает решения всех проблем. Важно обеспечить достаточно продолжительное функционирование созданной системы и ее соответствующее обслуживание. Одно из основных требований при этом - правильное распределение ролей и ответственности в корпорации.
После распределения ролей и ответственности необходимо создать процесс, определяющий жизненный цикл метаданных. Этот цикл задает следующие параметры: кто создает метаданные, кто использует их компоненты и кто отвечает за поддержку этих компонентов. Один из главных критериев долгосрочного успеха решения для работы с метаданными - это его расширяемость. Архитектура должна позволять легко добавлять новые требования к метаданным. Для этого необходим специальный процесс, обеспечивающий добавление новой информации о метаданных. При этом необходимо получить ответы на следующие важные вопросы:
* нужно ли хранить новые метаданные в общем репозитории (если таковой имеется);
* каковы методы доступа к элементам этих метаданных (только чтение или чтение и запись);
* являются ли эти метаданные уникальными или будут использоваться несколькими приложениями.
На основе ответов на эти вопросы принимаются соответствующие решения о хранении компонентов новых метаданных.
Пример решения для работы с метаданными
В качестве примера автор приводит розничную компанию, имеющую несколько Хранилищ данных для обеспечения различных видов бизнес-отчетности. Компания имеет Хранилище для составления отчетов по каналам поставок, Хранилище для CRM, Хранилище для данных о продажах и отдельное Хранилище для финансовой информации. Компания хочет создать единое корпоративное Хранилище данных с помощью консолидации информации в масштабах всей организации. Это хранилище будет центральным репозиторием для всех корпоративных данных, а отдельные подразделения будут создавать себе витрины данных на его основе. В процессе реализации этого проекта пришло понимание того, что также необходимо выработать стратегию консолидации метаданных.
Для этого можно использовать подход, описанный выше, который включает четыре основных действия. Первое действие - определение требований к метаданным. Этот процесс включает идентификацию заинтересованных сторон и классификацию метаданных. Поскольку это проект консолидации Хранилища данных, то типы метаданных будут достаточно простыми. Основные элементы - это некоторые корпоративные измерения, которые должны быть определены, и корпоративные факты. Оба этих элемента связаны с одними и теми же метаданными бизнеса. Следующий набор метаданных - это список таблиц и граф, использующих данные измерения и факты, т.е. это технические метаданные. Наконец, для документирования процессов ETL (extraction, transformation, loading - извлечение, преобразование и загрузка) и создания витрин данных необходима информация о тех шагах, из которых они состоят, т.е. это метаданные о процессах.
Для этих метаданных заинтересованными сторонами являются те, кто занимаются моделированием данных, а также разработчики ETL, витрин данных и отчетов. Помимо этого, такие метаданные нужны для работы с инструментами ETL и отчетности. Для консолидации метаданных требуются все элементы метаданных, их классификация, а также информация о том, кто и какие именно данные использует.
Следующий шаг - моделирование решения для работы с метаданными. В организации было принято решение создать свою метамодель, которая бы учитывала требования к модели данных, процессу ETL, витринам данных и инструментам отчетности.
После создания метамодели необходимо определить общую архитектуру. Было решено создать единый репозиторий для метаданных и определить процесс, который обеспечит его наполнение из всех систем. Например, после определения измерений и фактов метаданные экспортируются из инструментов моделирования данных и сохраняются в репозитории. Информация о процессах ETL создается вручную и также сохраняется в репозитории. Репозиторий инструментов отчетности наполняется с помощью заранее определенной технологии. Для выполнения требований отчетности, предъявляемых к метаданным, была создана система отчетности на основе интернета, которая создает запросы к репозиторию для получения информации.
После создания такого решения консолидация метаданных может считаться практически законченной. Следующая проблема - обеспечение долговременной работы данного решения. Например, как должен обрабатываться новый элемент или измерение, созданные в модели данных? Как вносится информация о новом процессе ETL или новом отчете? Все это определяется процессом поддержки метаданных. Для моделей данных периодически используется процесс синхронизации репозиториев инструментов и метаданных. Для ETL и отчетности существуют аналогичные процессы.
Заключение
Важность метаданных для корпораций уже общепризнанна. При работе с метаданными очень важно предварительно выработать соответствующую стратегию. Также важно понимать, что метаданные не являются универсальным средством для управления данными. Это мощное средство, которое может существенно улучшить качество анализа данных в корпорации, тем самым способствуя росту эффективности ее работы. При этом важно не распыляться в поисках абсолютно совершенного решения, а создавать решение, наиболее оптимальное для конкретного бизнеса.
Выбрал куски из своей почты, растерзал по привычке синтаксической правкой (солнышки, ну почему вы так не любите русский язык? Что плохого он вам сделал?) и теперь считаю себя вправе включить в очередной FAQ. Рискую лицезреть возникновение необходимости отправить большим дядям из адсенса предложение переделать нафиг их собственный раздел частозадаваемых вопросов.
Как стать Вашим рефералом?
В правой колонке блога есть кнопка "Заработайте деньги на Вашем сайте. Google AdSense". Регистрация - на русском языке. Однако предварительно необходимо создать блог, пригодный для отправки на рассмотрение: зачисление в программу AdSense не происходит автоматически.
С моей же стороны набор требований минимален, то есть вообще нулевой. Даром что я ксенофоб, шовинист и ещё кто-то (кажется, анархист и люблю устраивать теракты в годовщину терактов). От самого реферальства мне ни горячо, ни холодно. Однако среди трудолюбивых и креативных (почему-то слово "творческих" никак сюда не лезет, ибо в последние годы творчеством в инете стали называть такое, что… ладно, не по теме) рефералов я буду подыскивать кандидатов для других проектов, не связанных с адсенсом; основная заповедь интернет-маркетинга гласит: разнообразные источники дохода! Иными словами, чеки должны приходить от разных юридических контор.
Адсенс хорош, но душа требует разнообразия. Опыт, который рефералы приобретут при работе с адсенсом, поможет им в достижении того самого разнообразия в получаемых чеках. Кроме того, пособие в формате .pdf будет доступно рефералам без всякой мзды, причём на русском языке.
Где брать контент для блогов?
Гугл не только всё знает - он многое отдаёт за "спасибо" (намалюйте в подъезде "ихь либе гугл"). К любому запросу добавляйте "free article" или "free articles". Подсказка для трудолюбивых: годные тексты статей, а не рекламная однострочная ботва с ключевыми словами, хорошо ищется по запросам: tips, tricks, advice, tutorial, manual, guide…
Разумеется, думайте головой, прежде чем искать tips по теме "некрофильское порно". Правда, адсенс будет бессилен показать тематические объявления по вышеозначенной теме на вашем блоге, но горячие головы упорно думают, что блоги должны быть непременно с hardcore. А ещё лучше с виагрой. Не буду ударяться в объяснения, чем дорвеи отличаются от адсенса - пусть это сделает кто-нибудь, кто занимается и тем, и другим. Я бы спросил Джоэла Комма, но он, зараза, про дорвеи ни слова не сказал до сих пор.
Пример запроса для поиска контента по ключевому слову Christmas turkey:
christmas turkey "free article"
christmas turkey "free recipes"
Обратите внимание на то, что я использовал слово "рецепты", так как индейка - это всё-таки ритуальная еда, и статьи просто про рождественское мясо писать непопулярно. Берите статьи с третьей страницы выдачи и далее, можно и с первой, но статьи из топа, сами понимаете, наверняка зачитаны до дыр. Те, что с более поздних страниц, имеют больше шансов оказаться малоизвестными потенциальным серферам. То есть статьи им понравятся, и они с радостью пойдут по объявлениям адсенса дальше. Подчёркиваю - с радостью! Ибо опечаленный серфер может с тоски неразделённой сказать гуглу, какую гадость вычитал на вашем блоге, а гугл возьмёт и согласится с печальным серфером… появится ещё один печальный адсенс-публишер. А зачем плодить печаль в миру?
Нужно ли хорошенько проспамить блог для раскрутки и подождать перед тем, как подавать заявку, или же главное - качественный ресурс, неважно, что он новый и пока поисковики о нем не знают?
Я не работаю аппрувером в команде AdSense (чьё-то счастье, хых), но полагаю, что команду link: тамошние мальчики и девочки знают и пользуют. И если заявленый на регистрацию в адсенсе блог имеет тучу входящих линков с виагровых гостевых книг, то тут уже и недалёкий человек догадается, что автор блога - ушлый крендель и уже приготовил лопату для адсенсовских денег.
Проявите свою прыткость в другом. В уникальном (да, я не опечатался) контенте. Не страдайте мозговым плоскостопием или шаблонностью, пишите с размахом и от души! Но чтите грамматику вне зависимости от языка. Поймите, аппрувер читает ВАШ блог, а не один из миллионов. И ваш блог должен ему понравиться. Дизайн может быть на любителя, но текст должен цеплять.
Кстати, не используйте в URL блога какие-либо заведомо денежные ключевые слова. То есть блог с адресом badcreditreport2006.blogspot.com, даже полный уникальных авторских статей (защищённых внешними скриптами собственной разработки для предотвращения считывания ботами), в глазах потенциального апррувера будет сильно походить на творение кренделя, вооружённого даже не лопатой, а бульдозером для сгребания адсенсовских денег.
Блог не должен за версту разить жаждой его обладателя поживиться. Блог - это самовыражение. Плевать, что по выбранной вами теме адсенс не сможет показать релевантные объявления - не это не волнует аппрувера. Его волнует соотношение контента и предполагаемых объявлений - чтобы последних было не в два раза больше, буде они появятся. Его волнует, чтобы контент был читабельным и личностным. Используйте местоимения "я", "мы", рассказывайте истории из своего жизненного опыта, о своих друзьях, об увлечениях - но если вы некрофил, то надейтесь, что ваш некрофильский бог сыщет для вас в команде адсенса аппрувера-некрофила, который проникнется вашим онлайн-дневником и откроет вам аккаунт в AdSense.
Сколько времени уходит на рассмотрение заявки на участие в программе AdSense?
Многие факторы влияют на конечный срок; подайте заявку в конце декабря, и ждите месяца два… А вообще от нескольких дней до нескольких недель. Хочу обратить ваше внимание, что письмо, которое приходит в ваш почтовый ящик сразу же после отправки заявки - не есть аппрув, это всего лишь проверка вашего электронного адреса.
На какую тему создавать блог, чтобы его приняли к регистрации в программе AdSense?
Не стоит высказывать какие-либо требования по ограничению, но среди беспроигрышных упомяну:
* Туризм, путешествия;
* Цифровая фотография (и не только цифровая), советы начинающим, инструкции, описание частых ошибок…;
* Видеосъёмка; свадебщики могут плясать от радости
* Обработка графики и видео; любители Adobe Premiere и Vegas Video тоже могут плясать
* Программирование - на любом языке (или без оного ) ;
* Домашняя выпечка, кулинария, приготовление индейки
* Спорт - велосипеды, спуск на байдарках, дайвинг и всё остальное;
* Психология, помощь в общении, советы по навыкам коммуникации в обществе; это настолько актуально в теперешние времена, что апрувер должен быть полным казлом, чтобы отказать такому блоггеру в регистрации;
* Образование, воспитание; дети - это вообще святое, за детей сам фюрер пасти рвал (правда, только за немецких детей, но зато пасти рвал всем, даже самим немецким детям);
* Семья, отношения; но будьте осторожны! Опишите происходящее в вашей постели - и вы пролетите с адсенсом как фанера над Парижем. С такими текстами вам будет уютнее на стульчик.ру.
* А вот от обсуждения американских политиков, восхваления Ким Чен Ира, насмешек над отцами католической церкви, порицания датских газетчиков - лучше воздержаться. Вы не исправите этот грешный мир. Максиммум, что вы можете сделать - поправить своё материальное положение. Думайте о втором.
* Как можно управлять сотнями блогов двумя кликами мышки? Чтобы само всё делалось, а я типа только раз в месяц отрываю задницу от стула, чтобы отнести чек в банк? Не знаю.
* Нужны ли комментарии в блогах? Стоит ли их создавать в режиме автомата? Смотрите сами; умеете защищаться от ребят с хрумером - вперёд. Я лично этих ребят обоснованно побаиваюсь
* На каком языке создавать блог? Обязателен ли английский? Несколько месяцев назад, до ввода полноценной службы поддержки программы AdSense на русском языке, я бы не рекомендовал пользоваться русским языком. Но теперь, видимо, это не аргумент, тем более, что гугл проявляет растущее внимание к российским вебмастерам. Блог на русском языке, скорее всего, будет оценивать русский аппрувер, наш эмигрант, так что это увеличивает шансы на благожелательное отношение.
С другой стороны, от всего русского принято ожидать подвоха. Думаете, почему так не любят доменную зону .ру? Вот по этой причине, если вы располагаете средствами создания блога на английском языке (допустим, студентка-отличница с филфака МГУ проживает в вашей постели), то используйте английский. Заодно подучите язык.
Можно ли в качестве контента использовать генераторы оного?
Можно. Как сказал вебмастер одной из директорий ссылок, "если вам лень вручную заполнять заявку на размещение ссылки, то мне точно также лень её размещать". Делайте выводы.
Как часто размещать статьи в регистрационном блоге ДО подачи заявки в AdSense? И сколько должно быть статей?
За две недели напишите десять полноценных статей объёмом 500-700 слов каждая. Это покажет аппруверу, что вы - серьёзный сетевой напесатель и программа AdSense от вашего участия сильно выиграет.
Стоит ли для подстраховки создавать несколько регистрационных блогов? Или ограничиться одним?
Если у вас так много прыти, сделайте супер-блог, одного взгляда на который хватит, чтобы апрувер схватился за сердце, выпил карвалола и сказал: "Свершилось! Этот блог создан! И мне выпала честь выдать его автору разрешение на размещение рекламы AdSense! Святые небеса, благодарю вас за то, что я избран для этой великой миссии!"
Отказ в регистрации делает лишённой смысла попытку зарегистрироваться в тот же день заново. Придётся ждать хотя бы пару месяцев.
Как утверждает Joel Comm, адсенс очень благосклонно относится к блогам с сервиса blogger.com, поэтому создавать регистрационный лучше всего там. Собственное же доменное имя не выступает гарантом успешной регистрации.
Резюмируем:
Для повышения процента вероятности успеха регистрации в программе адсенс с первого захода следует:
напрячься и ещё ДО создания блога подумать, на какую тему вы сможете влёгкую накатать десяток статей, заведомо не нарушая условия соглашения, не затрагивая сверхдорогие ключевые слова типа некоторых видов рака; придумать доменное имя, в котором НЕ будут фигурировать дорогие ключевые слова; я использовал свой ник Attente;
избегать использования цифр и всяческих внеалфавитных символов в доменном имени: вариант my_nickname-_2006–_coolguy не прокатит; мыслить широко и интересно для потенциальной аудитории; если вы открыли секрет, как ставить куриные яйца на торец - опишите сей процесс в деталях, с кучей фотографий, интервью с другими "яйцеставильщиками", статьями с других смежных по теме ресурсов - и адсенс-аппрувер будет в отпаде, зуб даю! Сам два часа учился яйца ставить вертикально, пока до меня дошло, как именно это делается;
излагать мысли и переживания реального человека; описывайте жизнь в динамике - ибо аппруверы в своём большинстве мужчины и лучше воспринимают действие, нежели описание;
использовать реальные имена, места, даты, топографические названия, номера частей и дивизий Минобороны за последнее по головке не погладит, но аппрув выдаёт пока что не оно;
размещать фотографии - стопроцентно сделанные любительской камерой (вашей); натыренные снимки из Google Images могут запросто вырыть вам могилку куда глубже шести футов;
указывать в качестве адреса электронной почты что-нибудь цивильное; вероятно, gmail просто идеален хотя признанный лидер бесплатной почты MSN и Hotmail тоже рулит.
На данный момент интернет - это огромная сеть, которая содержит в себе бесконечное множество различной информации. Пользователи получают ее путем серфинга веб-браузеров - программ, предназначенных для просмотра сайтов. Ну а каждый сайт непременно должен содержать контент - то, за чем и приходит на его страницы посетитель.
Как правило, при создании новых сайтов у веб-мастера появляется потребность в его информационном наполнении. Многие из них знают, что лучше всего ценится именно уникальный и качественный контент. Но, то ли в силу своей лености или ограниченности авторских способностей, не все создают его самостоятельно.
Да, зачем сидеть сутками за экраном монитора и сочинять какие-то тексты, которые потом еще будет кто-то читать. Можно просто скопировать этот самый контент с других сайтов.
Остановлюсь на причинах, почему так не стоит делать.
Первая - Престиж сайта, особенно, если он корпоративный. Тут можно провести аналогии с рекламой компании на шариковых ручках, чашках и прочих недорогих, но столь нужных вещей. Почему-то на них логотипы и название компании не копируются, а стараются создать свой, уникальный стиль.
Вторая - Незаконность. Множество статей и обзоров являются собственность их авторов. Поэтому публикация без их разрешения является незаконной и охраняется законом об авторском праве. К сожалению, наше несовершенное законодательство не позволяет в полной мере защитить интеллектуальную собственность.
Третья - поисковые машины уже давно научились находить настоящий источник статьи. Это уже проверено на своем сайте. Еще поисковики очень ценят уникальный контент, а не его дубликаты.
Автору данной статьи на одном из форумов о seo доводилось видеть приблизительные алгоритмы определения оригинальности контента. Благо, 5 лет университета не прошли даром - через мрак матриц, векторов и теории вероятности стало ясно, что на самом деле это не так и сложно. Для ЭВМ, конечно. А уж поверьте, что у того же Яндекса или Гугла вычислительные мощности уже исчисляются десятками тысяч(!) машин.
Думаю, этих доводов пока будет достаточно. Тут главное - понять саму суть проблемы, а не все ее мелочи. Еще в последнее время получили распространение сервисы, которые предлагают бесплатный контент. Это как нельзя кстати для новых и малобюджетных проектов. Единственным условием использования такого контента является наличие ссылки на первоисточник.
Но тут есть и обратная сторона медали - от этого выигрывает лишь сайт, предоставляющий контент. Ведь, по сути дела - это просто ссылка на его ресурс. Такие ссылки расползаются по всему инету, создавая для первоисточника просто сказочное количество бек-линков.
Бесплатный сыр, как говорится, может оказаться вовсе не бесплатным. Так и вышло, когда поисковики научились находить дубликаты и убирать содержащие их сайты из результатов выдачи.
К сожалению, на данный момент ситуация такова, что процент оригинального количества контента к общему так и остается на уровне 10-15% . И это только то, что смогли подсчитать поисковые машины, а ведь они по всему инету не ходят (на индексацию всего инета нужно от 300 до 400 лет).
Но все же есть люди, которые стараются создавать уникальный контент, а не копируя уже напечатанное. К некоторым понимание значимости оригинального контента приходит лишь со временем.
Помните, что оригинальный и свежий контент - это курица, которая несет золотые яйца. Не верите - попрактикуйтесь на реальных сайтах.
Данная статья полностью посвящена такому аспекту раскрутки сайта, как регистрация в каталогах. На примерах рассмотрим регистрацию в наиболее популярных каталогах: Top.Mail.ru, Yandex, Rambler's TOP100.
В процессе размещения сайта в каталогах нет ничего сложного. Благо, эти системы становятся более совершенными и простыми в использовании для владельцев сайтов. Как правило, для добавления сайта в каталог нужно выбрать соответствующий раздел каталога (или подкаталог в нем). Потом вам необходимо будет вручную заполнить регистрационную форму. Нажимаем "Разместить", "OK", "Submit" (в разных каталогах по-разному, но суть одна) - и все, ваш сайт в каталоге. Правда, его еще проверят модераторы на соответствие тематики сайта выбранному каталогу. И не нарушает ли ваш ресурс законов страны, в которой расположен каталог. Как правило, это относиться лишь к сайтам, размещенным на бесплатном хостинге. Это еще один из доводов в пользу платного хостинга - бесплатный сыр может оказаться вовсе не бесплатным.
Модератор всегда прав
Когда размещаете свой сайт в каталоге, не забывайте о пользователях. Ведь именно для них он и предназначен, поэтому постарайтесь наиболее точно составить его описание. В лучшем случае модератор каталога просто изменит его описание, или перенесет сайт в другую рубрику. В худшем... Будем стараться, чтобы такого не случилось. Советую также внимательно читать правила размещения ресурса в каталоге. И, само собой, придерживаться его требований и правил. Как и в любом деле, здесь нужно быть очень аккуратным и следовать правилам предоставления данной услуги.
По поводу выбора каталога, хочу заметить еще кое-что. Как правило, пользователи не случайно заходят в тот или иной каталог (рубрику) - хотя бывают и исключения :) Получается, что человек заинтересован именно в сайтах данной тематики, он ищет информацию в определенной области (наука, новости, автомобили и т.д.). Я думаю, он вряд ли зайдет на сайт, который не соответствует интересующей его тематике. А, случайно попав не него, долго на нем не пробудет. Но это, как правило, а в реальной жизни все может быть.
Шаги к успеху
А теперь о размещении в каталоге более детально. При регистрации вам предлагают внести название вашего сайта и его краткое описание. В названии, как правило, необходимо разместить название вашей организации (если сайт о ней) или же просто официальное название вашего сайта. Пусть это будет "Интернет-магазин "Все для кошек", "Домашняя страничка кота Мурчика", "Молокозавод "Лакомства для кошек" и т.п.
Можно, конечно, попробовать разместить в названии несколько ключевых слов. Можно, но в данном случае все на ваш страх и риск. Тут главное не перестараться, дабы не снискать немилость у владельцев каталога. И чем ресурс-владелец каталога популярнее, тем с ключевыми словами ситуация сложнее.
Теперь остановимся на описании сайта. Оно располагается сразу же после URL'а вашего сайта. Как и название, описание сайта является не менее важным. Тут главное еще до регистрации придумать описание, сбалансированное как по краткости, так и по соответствию тематике. Я думаю, что не стоит в нем использовать какие-либо жаргонные слова и делать его слишком длинным. Скорее всего модератору это понравиться, и будьте уверены, что он его заменит на свой лад. Вот чтобы не проверять судьбу, лучше этого не делать.
Ну а если составить описание вам все же сложно, то посмотрите описания сайтов с похожей тематикой. Гляди и появится идейка-вторая. Только вот копировать описание точь-в-точь я бы не советовал - проявите смекалку, пофантазируйте, переберите кучу вариантов. И у вас обязательно получится - не сомневайтесь. "Зато такого описания ни у кого нет" - разве это не может не радовать?
Еще можно использовать свой meta-description тег (если он удачно подобран). А почему бы и нет? Смело вносите его в описание сайта для каталога, не забывая при этом о вышеперечисленных советах.
Еще посоветую использовать те слова, которые часто встречаются на страницах вашего сайта. Если таковых вы не находите, или их совсем маловато, то тут следует призадуматься. Сайт у вас один, регистрировать вы его будете один раз, а его содержание будете часто менять (в идеале). Так почему бы сразу не оптимизировать текст под несколько ключевых слов? Я думаю, намек вам понятен...
Поэтому постарайтесь максимально придерживаться моих рекомендаций и у вас все непременно получиться. Конечно, у каждого каталога свои правила и требования к размещению ресурса. Тем не менее, главными остаются правильно выбрать раздел и составить понятное/точное описание.
Поменьше слов - побольше дела!
Ну а теперь рассмотрим наиболее популярные каталоги РУнета.
1) Яндекс
Тут ничего сложного нет. У Яндекса самая простая (по крайней мере из всех, что мне попадались) регистрация. Итак, заходим на Яндекс, на сайте находим ссылочку добавить сайт. А далее все просто - в строку постредине страницы вносим URL вашего сайта и жмем "Добавить".
Не лишним будет заметить, что Яндекс регистрирует только русскоязычные сайты или же представляющие интерес для русскоязычной аудитории.
2) Рамблер
У Рамблера каталог называется Rambler's TOP100. Вот на него-то мы и заходим Rambler's TOP100. Нажимаем на ссылочку "добавить ресурс" и переходим к соглашению о регистрации в каталоге. Прочитав его, жмем на кнопку "зарегистрировать". Ну а дальше все должно быть понятно, как-никак русским же языком все написано :)
Советую при выборе цвета счетчика подумать, как он будет сочетаться с цветовой гаммой вашего сайта. И не жмите дважды кнопку "зарегистрировать" :)
3) Рейтинг@Mail.ru
С регистрацией в данном каталоге у вас тоже не должно возникунть проблем. Сверху есть ссылка "зарегистрироваться в рейтинге@mail.ru" (так вот у них каталог своеобразно называется - как их почта).
Одно замечание - так как тематических каталогов и подкаталогов у них довольно много, то советую выбрать тот из них, который максимально соответствует тематике вашего сайта (можете просто зайти в заинтересовавший вас каталог и посмотореть на сайты, которые в нем размещены).
Эта статья посвящена всем вебмастерам, которые занимаются не только созданием сайтов, но и их продвижением в сети интернет. Под продвижением подразумевается получение посетителей на сайт (так называемого трафика).
На эту тему уже написано большое количество статей как русскоязычных оптимизаторов, так и зарубежных. Но до сих пор так и не выработано единого способа раскрутки, который бы 100% действовал для всех сайтов. Ведь у каждого сайта не только разная тематика, но и на него ведут разные ссылки опять-таки с разных сайтов, в немалой мере влияет название домена, html-код веб-страницы и даже грамотность текста.
В последнее время комплекс мероприятий по раскрутке сайтов называется seo (search engine optimization - оптимизация под поисковые машины). Почему именно под поисковые машины - потому что они дают целевой трафик и ими пользуется 60-80% (по разным оценкам) пользователей интернета. В мире очень много поисковых машин, толком даже никто не знает точного их количества, но главные известны - для рунета это Яндекс и Рамблер (недавно возник поисковик Вебальта, но пока от него заходит лишь индексирующий бот, а не посетители), для мирового инета - это Гугл (Google), Yahoo! и MSN. Последний, кстати, разработка компании Майкрософт, скорее всего и был бы неизвестным поисковиком, если бы не маркетологи компании, которые интегрировали его в ОС Windows - вот такой хитрый ход
Теперь о самой раскрутке. В первую очередь следует ориентироваться на два поисковика - Яндекс и Гугл (плюс Яху, если сайт англоязычный). Как показывает практика seo, только от этих поисковых машин можно получить какой-нибудь приличный трафик, который уже можно сконвертировать в вечнозеленые денежные знаки. Поэтому на форумах и блогах о поисковых машинах и поисковой оптимизации следует следить за новостями и методикой раскрутки именно для этих машин.
Спросите любого вебмастера, который уже не первый год занимается сайтами и он вам скажет, что создать сайт - это самое простое, а вот раскрутить его и получить стабильный трафик - это труд не одной недели и даже не одного месяца. Это самый настоящий труд, а не виртуальный, как может многим показаться - сидишь себе дома, серфишь по инету и ходишь в банкомат снимать деньги. Так думают только новички интернет-коммерции, те же, кто в этом бизнесе уже много лет скажут, что зарабатывать в инете гараздо труднее, чем в рельной жизни.
Проблема раскрутки может быть не такой острой, если на раскрутку вы можете выделить определенное количество финансов, но еще не все можно купить. Так, можно купить ссылки, но они могут быть не совсем тематическими или по ним не будет переходов на ваш сайт, можно заказать раскрутку через САР (системы автоматической раскрутки - я смотрю ваш сайт, вы - мой), получить первые места в топах, но иметь заказав на сайте. А все потому, что нет целевого, заинтресованного посетителя, которого может дать или поисковик или контекстная реклама (по поводу последней - можно долго спорить, но все же лучше САР и баннеров).
Но главное - не впадать в депрессию, тут действует единый принцип, на котором устроен мир - раз у кого-то получилось, получится и у меня. Главное не пасовать и сидеть сложа руки, расстраиваясь, что на ваш мега-сайт вот уже несколько месяцев нет посетителей. Для примера можно пройтись по нескольким сайтам, на которые вы сами попадали через поисковики при поиске софта или реферата - этим сайтам уже по 3 и более лет, на них уже собрано тысячи статей и обзоров программ.
Думаете, что человек взял да набрал все эти тысячи статей за ночь или какую софтину написал, чтобы она за него их сочиняла? Ну в первом случае все ограничено возможностями человека, а во втором - ну кому был бы интересен не текст, а бессмысленный набор слов? Все дело в постоянном добавлении новых статей, разделов, рубрик - вот со временем и вырастают такие монстры, не страдающие от нехватки трафика.
Естественно, что раскрутка домашней странички, информационного проекта и интернет-магазина - это разные виды раскруток, разные тактики и методы. Так, для домашних страничек важен ее главный герой, для информационного проекта (онлайн-журнал, газета) важно уделять внимание оптимизации текста, соблюдать частоту употребления ключевых слов, а для интернет-магазина нужно больше мультимедийной рекламы (баннеры, флеш, промоакции, покупка рекламных блоков, партнерские программы) чтобы сделать магазин узнаваемым.
Ясное дело, что при раскрутке любого ресурса нельзя ограничиться только одним, или двумя способами, большое значение имеет комплексный подход. Применение любого способа “в отрыве” от остальных даст слишком слабый, либо кратковременный результат. Ни первое ни второе неприемлемо для вашего сайта.
Результаты мероприятий по раскрутке требуется как-то измерять. Обычно это делается с помощью систем статистики, или счётчиков. Речь о них пойдёт в следующей статье.
Поисковые механизмы продолжают эволюционировать, становятся все более изощренными и усложненными, в то же время упрощаются их пользовательские интерфейсы, и размеры накопленных баз данных экспоненциально увеличиваются. Впрочем, постоянное развитие в этой области и неудивительно спрос на поиск нужной информации в Сети будет только расти, причем с каждым годом как пользователей, так и данных будет становиться все больше.
Поисковая индустрия также выглядит лакомым кусочком пирога для многочисленных стартапов, которые не прочь попробовать себя в этой области. Лидером здесь можно стать если не за считанные сутки, то за несколько месяцев, о чем свидетельствует история успеха Google. Два года назад о компании знали только энтузиасты, и еще недавно ссылались на данный поисковик как на "разработку студентов Стэнфордского университета", отмечая, что Google "имеет реальные шансы стать одной из самых авторитетных служб в своем классе".
Сегодня за место лидера рынка постоянно соревнуются две компании американская Google и норвежская FAST, и поэтому неудивительно, что в данном материале речь в основном пойдет именно о нововведениях этих фирм.
Файловые форматы
Признавая тот факт, что Internet постоянно пополняется большим количеством информации, которая не всегда выкладывается в формате HTML, Google сообщил о поддержке файловых форматов Microsoft Office. Таким образом, сегодня команда "Поиск" в Google, кроме HTML-документов, выдаст файлы форматов PostScript, Rich text Format, Lotus1-2-3, Lotus WordPro, MacWrite, Microsoft Word, Microsoft Excel и MicrosoftPowerPoint. До этого поисковик также успешно находил и PDF-документы.
Поддержка новых форматов вызвала немало проблем и даже курьезов. Сисадмины и специалисты по компьютерной безопасности наверняка не обрадуются поддержке форматов Microsoft Office. Теперь, щелкнув по ссылке, которая ведет на документ Word, пользователь имеет все шансы запустить у себя на машине макрос, и нет никакой гарантии, что он не причинит вреда. Именно для таких случаев Google предоставляет возможность ознакомления с HTML-версией документа, однако поддержка новых форматов влечет за собой новые проблемы для домашних пользователей теперь компьютерные вирусы можно будет получать прямо из поисковика.
Для более грамотных пользователей новые файловые форматы, несомненно, представляют ценность, так как в слайдах PowerPoint в Internet часто выкладывается учебная и деловая информация, а Excel является общепринятым способом распространения прайс-листов.
Специализация поиска
Норвежские разработчики также предпочли не просто наблюдать за рынком, а развивать специализированные услуги своего поисковика.
FAST запустила поиск новостей, являющийся, как утверждают разработчики, обладателем "желтой майки лидера", если вести речь о скорости. Ежедневно FAST News Search обрабатывает около 3 тыс. ресурсов, которые обновляются в режиме реального времени, как и положено новостийно-информационным изданиям. "Паук" от FAST индексирует около 800 статей каждую минуту.
В данном направлении ведут разработки и отечественные компании. Как сообщил нашему изданию Алексей Чуксин, директор по маркетингу компании"МЕТА", в рамках украинского поисковика создан "динамический индекс", который позволяет вносить обновленные страницы в базу данных"на лету", не замедляя таким образом скорость работы поиска.
Потенциально данная технология может быть использована для организации поиска новостей и обновлений, а также в качестве внутреннего поисковика для крупных сайтов. Разработчики "META" сегодня переводят на динамический поиск сайты своих клиентов, среди которых финансовый сервер Finance.com.ua, банковский Ukrsibbank.com и портал Volia.com.
FAST также предложила весьма интересную концепцию кластеризации результатов поиска. За основу технологии FAST Topics взят открытый каталог Dmoz.org, на его базе сделаны тематические подборки сайтов, которые затем объединяются в кластеры с общей тематикой. Введите "ukraine" в поисковике FAST, и всписке папок будет представлено девять категорий для возможного сужения поиска.
Релевантность
Даже самые громогласные тирады о всемогуществе современных поисковиков зачастую прекращаются, когда их создатели говорят о релевантности. Алгоритмы определения релевантности для ранжирования документов постоянно находятся в стадии разработки. Спаммеры поисковиков, с одной стороны, и добросовестные маркетологи сайтов, с другой, ведут борьбу за право оказаться в списке первых на странице с результатами поиска.
С ноября 2001 г. "МЕТА" для определения релевантности украинских сайтов начала использовать алгоритмы PageRank, где место в списке результатов зависит и от количества ссылок на документ. Google, которая возникла фактически благодаря технологии PageRank, на этот раз решила еще более усложнить путь для недобросовестных "раскрутчиков".
Разработчики Google тестируют технологию, которая позволит пользователям самостоятельно определять релевантность сайта, таким образом голосуя за более информативные ресурсы и исключая из списка результатов поиска сайты, не имеющие никакого отношения к запросу. Теоретически это может даже развязать руки спаммерам, голосующим за свой сайт с различных компьютеров, однако Google рассчитывает на то, что многомиллионная аудитория, ежедневно пользующаяся поисковиком, в целом будет рационально относиться к "избираемым" сайтам.
Быстрее, выше, сильнее?
Как оказалось, олимпийские лозунги не всегда обеспечивают позитивное отношение к поисковикам со стороны пользователей. По мере расширения своей базы данных и увеличения кэша на жестких дисках компании Google пришлось столкнуться с противодействием со стороны Web-мастеров. Google индексирует документы, не предназначенные для публичного использования, Google сохраняет на своем жестком диске копии документов, которые по каким-то причинам должны быть уничтожены, Google ставит под удар платные сайты, требующие денежной мзды за доступ к архивам с более старыми статьями.
На все эти обвинения компания реагирует весьма корректно. Что касается индексирования документов, которые выкладываются на серверы, однако не предназначены для посторонних глаз, представители Google утверждают, что их робот никогда не проиндексирует информацию, доступ к которой запрещен. Не будучи взломщиком, робот, тем не менее, индексирует все, что находит, и тот факт, что конфиденциальные документы попали в око "паука",свидетельствует о том, что неправильно был оформлен файл robots.txt или же администратор не принял должные меры защиты.
Для желающих уничтожить копии своих файлов на дисках Google (а туда, напомним, сейчас попадают и документы PDF, и Microsoft Word), Google представляет такую возможность на сайте для Web-мастеров.
Что касается расширения баз данных поисковиков, то здесь решили не останавливаться на достигнутом и разработчики "МЕТА" робот, по словам Алексея Чуксина, теперь поддерживает настройку полей для поиска структурированной информации (а проще говоря, может получить доступ и проиндексировать базу данных).
С миру по нитке
Что еще произошло в мире поиска за последнее время? Портал Yahoo! согласился сотрудничать с платным поиском Overture (ранее известным как Goto.com), и таким образом на Yahoo! теперь будут появляться платные ссылки, которые будут четко обозначены как коммерческие результаты. Overture, готовясь выйти на прибыль уже в ближайшее время, сумела доказать большинству пользователей, что продажа ссылок за деньги не есть что-то неприличное, а наоборот весьма прибыльный бизнес при условии, что посетитель четко осознает ангажированность результатов.
FAST внедрила свои поисковые технологии в Lycos. Две компании издавна являются партнерами, однако долгое время поиск в Lycos занимал последние места по части объема базы данных и релевантности ссылок. Новая версия поискового ядра от FAST способствует укреплению имиджа Lycos как поисковой машины для Web. На обновленное ядро перешла и российская версия портала, расположенная по адресу www.lycos.ru. Как сообщил"Компьютерному Обозрению" генеральный продюсер российской Lycos Андрей Себрант, основной задачей для разработчиков компании в ближайшее время станет ускорение индексации русскоязычных новостей и интеграция данного сервиса в Lycos.ru. Также одной из ключевых задач сегодняшнего дня является наращивание мультимедийной базы для поисковой машины.
Немного странно не видеть в данном обзоре Inktomi, которая обычно шествовала в колонне лидеров данного рынка. Компания в последнее время направляет свои усилия на корпоративный сектор, хотя игнорировать такого крупного игрока на рынке Internet-услуг пока что нельзя вряд ли Inktomi согласится стать побежденной в гонке лидеров, и вполне возможно, что скоро FAST и Google получат в ее лице достойного конкурента.
Приведенный ниже код содержит функцию DuplicateComponents, позволяющую проводить клонирование любых компонентов и их потомков во время выполнения приложения. Действия ее напоминают операцию копирования/вставки (copy/paste) во время разработки приложения.
Новые компоненты при создании получают тех же родителей, владельцев (в случае применения контейнеров) и имена (естественно, несколько отличающихся), что и оригиналы. В данной функции есть вероятность багов, но я пока их не обнаружил. Ошибки и недочеты могут возникнуть из-за редко применяемых специфических методов, которые, вместе с тем, могут помочь программистам, столкнувшимися с аналогичными проблемами.
Данная функция может оказаться весьма полезной в случае наличия нескольких одинаковых областей на форме с необходимостью синхронизации изменений в течение некоторого промежутка времени. Процедура создания дубликата проста до безобразия: разместите на TPanel или на другом родительском компоненте необходимые элементы управления и сделайте: "newpanel := DuplicateComponents(designedpanel)".