BigApple.ru » Интернет » HTML » Во что превратился мой документ?

Во что превратился мой документ?

Добавлено: 13.02.2012
Автор: rrrr

Одно из первых наблюдений, которое вы сделаете, будет заключаться в том, что многие HTML-редакторы автоматически вставляют в ваш документ разметку, которую вы никак не запрашивали. Помните простенький HTML-документ, с которого мы начали в гл. 2?

<html>

<head>

<title>My first HTML document</title>

</head>

<body>

<h2>My first HTML document</h2>

Hello, <i>World Wide Web!</i>

<!-- No "Hello, World" for us --> <p>

Greetings from<br>

<a href="http://www.ora.com">O'Reilly Media</a> <p>

Composed with care by: <cite>(insert your name here)</cite> <br>&copy;2000 and beyond </body> </html>

Вот как он будет выглядеть, когда вы загрузите его в Microsoft Word из Office XP:

<html xmlns:o="urn:schemas-microsoft-com:office:office"

xmlns:w="urn:schemas-microsoft-com:office:word"

xmlns="http://www.w3.org/TR/REC-html40">

<head>

<meta http-equiv=Content-Type content="text/html; charset=windows-1252">

<meta name=ProgId content=Word.Document>

<meta name=Generator content="Microsoft Word 10"> <meta name=Originator content="Microsoft Word 10"> <link rel=File-List href="html_files/filelist.xml"> <title><html></title> <!--[if gte mso 9]><xml> <w:WordDocument> <w:Compatibility> <w:BreakWrappedTables/> <w:SnapToGridInCell/> <w:WrapTextWithPunct/> <w:UseAsianBreakRules/> </w:Compatibility>

<w:BrowserLevel>MicrosoftInternetExplorer4</w:BrowserLevel> </w:WordDocument> </xml><![endif]--> <style> <!--/* Style Definitions */ p.MsoNormal, li.MsoNormal, div.MsoNormal {mso-style-parent:""; margin:0in; margin-bottom:.0001pt; mso-pagination:widow-orphan; font-size:12.0pt; font-family:"Times New Roman"; mso-fareast-font-family:"Times New Roman";} p.MsoPlainText, li.MsoPlainText, div.MsoPlainText {margin:0in; margin-bottom:.0001pt; mso-pagination:widow-orphan; font-size:10.0pt; font-family:"Courier New"; mso-fareast-font-family:"Times New Roman";} @page Section1

{size:8.5in 11.0in; margin:1.0in 65.95pt 1.0in 65.95pt; mso-header-margin:.5in; mso-footer-margin:.5in; mso-paper-source:0;} div.Section1

{page:Section1;} -->

</style>

<!--[if gte mso 10]> <style> /* Style Definitions */ table.MsoNormalTable

{mso-style-name:"Table Normal"; mso-tstyle-rowband-size:0; mso-tstyle-colband-size:0; mso-style-noshow:yes;

mso-style-parent:"";

mso-padding-alt:0in 5.4pt 0in 5.4pt;

mso-para-margin:0in;

mso-para-margin-bottom:.0001pt;

mso-pagination:widow-orphan;

font-size:10.0pt;

font-family:"Times New Roman";} </style> <![endif]--> </head>

<body lang=EN-US style='tab-interval:.5in'>

<div class=Section1>

<p class=MsoPlainText><html><o:p></o:p></p>

<p class=MsoPlainText><head><o:p></o:p></p>

<p class=MsoPlainText><title>My first HTML document</ title><o:p></o:p></p>

<p class=MsoPlainText></head><o:p></o:p></p>

<p class=MsoPlainText><body><o:p></o:p></p>

<p class=MsoPlainText><h2>My first HTML

document</h2><o:p></o:p></p>

<p class=MsoPlainText>Hello, <i>World Wide Web!</i><o:p></o:p></p>

<p class=MsoPlainText><span style='mso-spacerun:yes'> </span><!-- No &quot;Hello, World&quot; for us --><o:p></o:p></p>

<p class=MsoPlainText><p><o:p></o:p></p>

<p class=MsoPlainText>Greetings from<br><o:p></o:p></p>

<p class=MsoPlainText><a href=&quot;http://www.ora.com&quot;>O'Reilly Media</a><o:p></o:p></p>

<p class=MsoPlainText><p><o:p></o:p></p>

<p class=MsoPlainText>Composed with care by: <o:p></o:p></p>

<p class=MsoPlainText><cite>(insert your name here)</ cite><o:p></o:p></p>

<p class=MsoPlainText><br>&amp;copy;2000 and beyond<o:p></o:p></p>

<p class=MsoPlainText></body><o:p></o:p></p>

<p class=MsoPlainText></html></p>

</div>

</body>

</html>

Что произошло? Во что превратился документ? Избыточная разметка сделала его абсолютно нечитаемым. Особенно возмущает таких ревностных сторонников чистоты документа, как мы, во-первых, тот факт, что была добавлена куча вещей, о которых мы не просили и которые нам не нужны, а во-вторых, что Word автоматически считает любой текстовый документ с HTML-разметкой сырьем для своей фабрики. Вы можете убрать расширение html или htm из имени файла, вы можете убрать теги <html> и <head> из документа, – все бесполезно. Word вас достанет.

Microsoft Word – не единственный редактор, засоряющий исходный код. Большинство HTML-редакторов, как минимум, добавляет тег <meta> с информацией о самом редакторе. Многие идут дальше и «подправляют» ваш документ в соответствии с текущими стандартами и общепринятой практикой. Например, они добавляют все эти закрывающие теги абзацев и элементов списка, которые язык HTML разрешает опускать. (Мы должны признать, что с позиций XHTML такое вмешательство оправданно.)

К чести редактора Word, он работает довольно устойчиво, в отличие от других приложений, которые завершались аварийно, когда мы боролись с их интерпретацией разметки. Более того, Microsoft предлагает плагин для Word, убирающий дополнительную разметку и позволяющий восстановить первоначальный вид документа.1

0 комментариев
Оцените статью:
Участник обсуждения

Нажмите, чтобы ответить

     
Время формирования страницы на сервере: 0.314 сек.