Improve HTML parsing a lil' bit

JasonTheKitten · JasonTheKitten · commit 633e548497cb · 2024-12-01T15:43:07.000-05:00
diff --git a/Spec/src/main/java/com/github/webicitybrowser/spec/html/parse/ParseError.java b/Spec/src/main/java/com/github/webicitybrowser/spec/html/parse/ParseError.java
@@ -7,9 +7,11 @@ public enum ParseError {
 	NON_VOID_HTML_ELEMENT_START_TAG_WITH_TRAILING_SOLIDUS,
 	UNEXPECTED_SOLIDUS_IN_TAG,
 	MISSING_WHITESPACE_BETWEEN_ATTRIBUTES,
+	EOF_IN_DOCTYPE,
 	ABRUPT_CLOSING_OF_EMPTY_COMMENT,
 	EOF_IN_COMMENT,
 	NESTED_COMMENT,
+	INCORRECTLY_OPENED_COMMENT,
 	INCORRECTLY_CLOSED_COMMENT,
 	MISSING_ATTRIBUTE_VALUE,
 	UNEXPECTED_CHARACTER_IN_UNQUOTED_ATTRIBUTE,
diff --git a/SpiderHTML/src/main/java/com/github/webicitybrowser/spiderhtml/SpiderHTMLParserImp.java b/SpiderHTML/src/main/java/com/github/webicitybrowser/spiderhtml/SpiderHTMLParserImp.java
@@ -59,33 +59,6 @@ private void continueParsing() throws IOException {
 		}
 	}
 
-	/*@Override
-	public void parse(InputStream inputStream, HTMLTreeBuilder treeBuilder, ParserSettings settings) throws IOException {
-		Reader inputReader = EncodingUtil.decode(inputStream, StandardCharsets.UTF_8);
-		parse(inputReader, treeBuilder, settings);
-	}
-
-	@Override
-	public void parse(Reader inputReader, HTMLTreeBuilder treeBuilder, ParserSettings settings) throws IOException {
-		PushbackReader reader = new PushbackReader(inputReader, 32);
-		ParsingContext parsingContext = new ParsingContext(reader);
-		
-		while (true) {
-			TokenizeState tokenizeState = sharedContext.getTokenizeState();
-			if (tokenizeState == null) {
-				break;
-			}
-			
-			int ch = reader.read();
-			if (ch == '\r') {
-				ch = '\n';
-			} else if (ch == '\n' && parsingContext.readerHandle().peek() == '\r') {
-				reader.read();
-			}
-			tokenizeState.process(sharedContext, parsingContext, ch);
-		}
-	}*/
-
 	private void initializeContext(ParserSettings settings, SharedContext sharedContext) {
 		ParsingInitializer parsingInitializer = new ParsingInitializer(settings);
 
diff --git a/SpiderHTML/src/main/java/com/github/webicitybrowser/spiderhtml/tokenize/DoctypeState.java b/SpiderHTML/src/main/java/com/github/webicitybrowser/spiderhtml/tokenize/DoctypeState.java
@@ -1,10 +1,14 @@
 package com.github.webicitybrowser.spiderhtml.tokenize;
 
+import java.io.IOException;
 import java.util.function.Consumer;
 
+import com.github.webicitybrowser.spec.html.parse.ParseError;
 import com.github.webicitybrowser.spiderhtml.context.ParsingContext;
 import com.github.webicitybrowser.spiderhtml.context.ParsingInitializer;
 import com.github.webicitybrowser.spiderhtml.context.SharedContext;
+import com.github.webicitybrowser.spiderhtml.token.DoctypeToken;
+import com.github.webicitybrowser.spiderhtml.token.EOFToken;
 
 public class DoctypeState implements TokenizeState {
 
@@ -16,17 +20,23 @@ public DoctypeState(ParsingInitializer initializer, Consumer<TokenizeState> call
 	}
 	
 	@Override
-	public void process(SharedContext context, ParsingContext parsingContext, int ch) {
+	public void process(SharedContext context, ParsingContext parsingContext, int ch) throws IOException {
 		switch (ch) {
 		case '\t':
 		case '\n':
 		case '\f':
 		case ' ':
 			context.setTokenizeState(beforeDoctypeNameState);
 			break;
-		default:
-			// TODO
-			throw new UnsupportedOperationException();
+		case '>':
+			parsingContext.readerHandle().unread(ch);
+			context.setTokenizeState(beforeDoctypeNameState);
+			break;
+		case -1:
+			context.recordError(ParseError.EOF_IN_DOCTYPE);
+			// TODO: Force quirks
+			context.emit(new DoctypeToken());
+			context.emit(new EOFToken());
 		}
 	}
 
diff --git a/SpiderHTML/src/main/java/com/github/webicitybrowser/spiderhtml/tokenize/MarkupDeclarationOpenState.java b/SpiderHTML/src/main/java/com/github/webicitybrowser/spiderhtml/tokenize/MarkupDeclarationOpenState.java
@@ -3,6 +3,7 @@
 import java.io.IOException;
 import java.util.function.Consumer;
 
+import com.github.webicitybrowser.spec.html.parse.ParseError;
 import com.github.webicitybrowser.spiderhtml.context.ParsingContext;
 import com.github.webicitybrowser.spiderhtml.context.ParsingInitializer;
 import com.github.webicitybrowser.spiderhtml.context.ReaderHandle;
@@ -13,11 +14,13 @@ public class MarkupDeclarationOpenState implements TokenizeState {
 
 	private final DoctypeState doctypeState;
 	private final CommentStartState commentStartState;
+	private final BogusCommentState bogusCommentState;
 
 	public MarkupDeclarationOpenState(ParsingInitializer initializer, Consumer<TokenizeState> callback) {
 		callback.accept(this);
 		this.doctypeState = initializer.getTokenizeState(DoctypeState.class);
 		this.commentStartState = initializer.getTokenizeState(CommentStartState.class);
+		this.bogusCommentState = initializer.getTokenizeState(BogusCommentState.class);
 	}
 	
 	@Override
@@ -32,8 +35,10 @@ public void process(SharedContext context, ParsingContext parsingContext, int ch
 			reader.eat(7);
 			context.setTokenizeState(doctypeState);
 		} else {
-			// TODO
-			throw new UnsupportedOperationException();
+			context.recordError(ParseError.INCORRECTLY_OPENED_COMMENT);
+			CommentToken token = new CommentToken("");
+			parsingContext.setCurrentToken(token);
+			context.setTokenizeState(bogusCommentState);
 		}
 	}
 
diff --git a/SpiderHTML/src/main/java/com/github/webicitybrowser/spiderhtml/tokenize/ScriptDataDoubleEscapeEndState.java b/SpiderHTML/src/main/java/com/github/webicitybrowser/spiderhtml/tokenize/ScriptDataDoubleEscapeEndState.java
@@ -0,0 +1,49 @@
+package com.github.webicitybrowser.spiderhtml.tokenize;
+
+import java.io.IOException;
+import java.util.function.Consumer;
+
+import com.github.webicitybrowser.spec.infra.util.ASCIIUtil;
+import com.github.webicitybrowser.spiderhtml.context.ParsingContext;
+import com.github.webicitybrowser.spiderhtml.context.ParsingInitializer;
+import com.github.webicitybrowser.spiderhtml.context.SharedContext;
+import com.github.webicitybrowser.spiderhtml.token.CharacterToken;
+
+public class ScriptDataDoubleEscapeEndState implements TokenizeState {
+
+	private final ScriptDataDoubleEscapedState scriptDataDoubleEscapedState;
+	private final ScriptDataEscapedState scriptDataEscapedState;
+
+	public ScriptDataDoubleEscapeEndState(ParsingInitializer initializer, Consumer<TokenizeState> callback) {
+		callback.accept(this);
+		this.scriptDataDoubleEscapedState = initializer.getTokenizeState(ScriptDataDoubleEscapedState.class);
+		this.scriptDataEscapedState = initializer.getTokenizeState(ScriptDataEscapedState.class);
+	}
+
+	@Override
+	public void process(SharedContext context, ParsingContext parsingContext, int ch) throws IOException {
+		switch(ch) {
+		case '\t':
+		case '\n':
+		case '\f':
+		case ' ':
+		case '/':
+		case '>':
+			if (parsingContext.getTemporaryBuffer().equals("script")) {
+				context.setTokenizeState(scriptDataEscapedState);
+			} else {
+				context.setTokenizeState(scriptDataDoubleEscapedState);
+			}
+			context.emit(new CharacterToken(ch));
+		default:
+			if (ASCIIUtil.isASCIIAlpha(ch)) {
+				parsingContext.appendToTemporaryBuffer(ASCIIUtil.toASCIILowerCase(ch));
+				context.emit(new CharacterToken(ch));
+			} else {
+				parsingContext.readerHandle().unread(ch);
+				context.setTokenizeState(scriptDataDoubleEscapedState);
+			}
+		}
+	}
+
+}
diff --git a/SpiderHTML/src/main/java/com/github/webicitybrowser/spiderhtml/tokenize/ScriptDataDoubleEscapeStartState.java b/SpiderHTML/src/main/java/com/github/webicitybrowser/spiderhtml/tokenize/ScriptDataDoubleEscapeStartState.java
@@ -0,0 +1,49 @@
+package com.github.webicitybrowser.spiderhtml.tokenize;
+
+import java.io.IOException;
+import java.util.function.Consumer;
+
+import com.github.webicitybrowser.spec.infra.util.ASCIIUtil;
+import com.github.webicitybrowser.spiderhtml.context.ParsingContext;
+import com.github.webicitybrowser.spiderhtml.context.ParsingInitializer;
+import com.github.webicitybrowser.spiderhtml.context.SharedContext;
+import com.github.webicitybrowser.spiderhtml.token.CharacterToken;
+
+public class ScriptDataDoubleEscapeStartState implements TokenizeState {
+
+	private final ScriptDataDoubleEscapedState scriptDataDoubleEscapedState;
+	private final ScriptDataEscapedState scriptDataEscapedState;
+
+	public ScriptDataDoubleEscapeStartState(ParsingInitializer initializer, Consumer<TokenizeState> callback) {
+		callback.accept(this);
+		this.scriptDataDoubleEscapedState = initializer.getTokenizeState(ScriptDataDoubleEscapedState.class);
+		this.scriptDataEscapedState = initializer.getTokenizeState(ScriptDataEscapedState.class);
+	}
+
+	@Override
+	public void process(SharedContext context, ParsingContext parsingContext, int ch) throws IOException {
+		switch(ch) {
+		case '\t':
+		case '\n':
+		case '\f':
+		case ' ':
+		case '/':
+		case '>':
+			if (parsingContext.getTemporaryBuffer().equals("script")) {
+				context.setTokenizeState(scriptDataDoubleEscapedState);
+			} else {
+				context.setTokenizeState(scriptDataEscapedState);
+			}
+			context.emit(new CharacterToken(ch));
+		default:
+			if (ASCIIUtil.isASCIIAlpha(ch)) {
+				parsingContext.appendToTemporaryBuffer(ASCIIUtil.toASCIILowerCase(ch));
+				context.emit(new CharacterToken(ch));
+			} else {
+				parsingContext.readerHandle().unread(ch);
+				context.setTokenizeState(scriptDataEscapedState);
+			}
+		}
+	}
+
+}
diff --git a/SpiderHTML/src/main/java/com/github/webicitybrowser/spiderhtml/tokenize/ScriptDataDoubleEscapedDashDashState.java b/SpiderHTML/src/main/java/com/github/webicitybrowser/spiderhtml/tokenize/ScriptDataDoubleEscapedDashDashState.java
@@ -0,0 +1,55 @@
+package com.github.webicitybrowser.spiderhtml.tokenize;
+
+import java.io.IOException;
+import java.util.function.Consumer;
+
+import com.github.webicitybrowser.spec.html.parse.ParseError;
+import com.github.webicitybrowser.spiderhtml.context.ParsingContext;
+import com.github.webicitybrowser.spiderhtml.context.ParsingInitializer;
+import com.github.webicitybrowser.spiderhtml.context.SharedContext;
+import com.github.webicitybrowser.spiderhtml.token.CharacterToken;
+import com.github.webicitybrowser.spiderhtml.token.EOFToken;
+
+public class ScriptDataDoubleEscapedDashDashState implements TokenizeState {
+
+	private final ScriptDataDoubleEscapedLessThanSignState scriptDataDoubleEscapedLessThanSignState;
+	private final ScriptDataState scriptDataState;
+	private final ScriptDataDoubleEscapedState scriptDataDoubleEscapedState;
+
+	public ScriptDataDoubleEscapedDashDashState(ParsingInitializer initializer, Consumer<TokenizeState> callback) {
+		callback.accept(this);
+		this.scriptDataDoubleEscapedLessThanSignState = initializer.getTokenizeState(ScriptDataDoubleEscapedLessThanSignState.class);
+		this.scriptDataState = initializer.getTokenizeState(ScriptDataState.class);
+		this.scriptDataDoubleEscapedState = initializer.getTokenizeState(ScriptDataDoubleEscapedState.class); 
+	}
+
+	@Override
+	public void process(SharedContext context, ParsingContext parsingContext, int ch) throws IOException {
+		switch (ch) {
+		case '-':
+			context.emit(new CharacterToken('-'));
+			break;
+		case '<':
+			context.setTokenizeState(scriptDataDoubleEscapedLessThanSignState);
+			context.emit(new CharacterToken('<'));
+			break;
+		case '>':
+			context.setTokenizeState(scriptDataState);
+			context.emit(new CharacterToken('<'));
+			break;
+		case 0:
+			context.recordError(ParseError.UNEXPECTED_NULL_CHARACTER);
+			context.setReturnState(scriptDataDoubleEscapedState);
+			context.emit(new  CharacterToken('\uFFFD'));
+			break;
+		case -1:
+			context.recordError(ParseError.EOF_IN_SCRIPT_HTML_COMMENT_LIKE_TEXT);
+			context.emit(new EOFToken());
+			break;
+		default:
+			context.setReturnState(scriptDataDoubleEscapedState);
+			context.emit(new CharacterToken(ch));
+		}
+	}
+
+}
diff --git a/SpiderHTML/src/main/java/com/github/webicitybrowser/spiderhtml/tokenize/ScriptDataDoubleEscapedDashState.java b/SpiderHTML/src/main/java/com/github/webicitybrowser/spiderhtml/tokenize/ScriptDataDoubleEscapedDashState.java
@@ -0,0 +1,52 @@
+package com.github.webicitybrowser.spiderhtml.tokenize;
+
+import java.io.IOException;
+import java.util.function.Consumer;
+
+import com.github.webicitybrowser.spec.html.parse.ParseError;
+import com.github.webicitybrowser.spiderhtml.context.ParsingContext;
+import com.github.webicitybrowser.spiderhtml.context.ParsingInitializer;
+import com.github.webicitybrowser.spiderhtml.context.SharedContext;
+import com.github.webicitybrowser.spiderhtml.token.CharacterToken;
+import com.github.webicitybrowser.spiderhtml.token.EOFToken;
+
+public class ScriptDataDoubleEscapedDashState implements TokenizeState {
+
+	private final ScriptDataDoubleEscapedDashDashState scriptDataDoubleEscapedDashDashState;
+	private final ScriptDataDoubleEscapedLessThanSignState scriptDataDoubleEscapedLessThanSignState;
+	private final ScriptDataDoubleEscapedState scriptDataDoubleEscapedState;
+
+	public ScriptDataDoubleEscapedDashState(ParsingInitializer initializer, Consumer<TokenizeState> callback) {
+		callback.accept(this);
+		this.scriptDataDoubleEscapedDashDashState = initializer.getTokenizeState(ScriptDataDoubleEscapedDashDashState.class);
+		this.scriptDataDoubleEscapedLessThanSignState = initializer.getTokenizeState(ScriptDataDoubleEscapedLessThanSignState.class);
+		this.scriptDataDoubleEscapedState = initializer.getTokenizeState(ScriptDataDoubleEscapedState.class); 
+	}
+
+	@Override
+	public void process(SharedContext context, ParsingContext parsingContext, int ch) throws IOException {
+		switch (ch) {
+		case '-':
+			context.setTokenizeState(scriptDataDoubleEscapedDashDashState);
+			context.emit(new CharacterToken('-'));
+			break;
+		case '<':
+			context.setTokenizeState(scriptDataDoubleEscapedLessThanSignState);
+			context.emit(new CharacterToken('<'));
+			break;
+		case 0:
+			context.recordError(ParseError.UNEXPECTED_NULL_CHARACTER);
+			context.setReturnState(scriptDataDoubleEscapedState);
+			context.emit(new  CharacterToken('\uFFFD'));
+			break;
+		case -1:
+			context.recordError(ParseError.EOF_IN_SCRIPT_HTML_COMMENT_LIKE_TEXT);
+			context.emit(new EOFToken());
+			break;
+		default:
+			context.setReturnState(scriptDataDoubleEscapedState);
+			context.emit(new CharacterToken(ch));
+		}
+	}
+
+}
diff --git a/SpiderHTML/src/main/java/com/github/webicitybrowser/spiderhtml/tokenize/ScriptDataDoubleEscapedLessThanSignState.java b/SpiderHTML/src/main/java/com/github/webicitybrowser/spiderhtml/tokenize/ScriptDataDoubleEscapedLessThanSignState.java
@@ -0,0 +1,34 @@
+package com.github.webicitybrowser.spiderhtml.tokenize;
+
+import java.io.IOException;
+import java.util.function.Consumer;
+
+import com.github.webicitybrowser.spiderhtml.context.ParsingContext;
+import com.github.webicitybrowser.spiderhtml.context.ParsingInitializer;
+import com.github.webicitybrowser.spiderhtml.context.SharedContext;
+import com.github.webicitybrowser.spiderhtml.token.CharacterToken;
+
+public class ScriptDataDoubleEscapedLessThanSignState implements TokenizeState {
+
+	private final ScriptDataDoubleEscapeEndState scriptDataDoubleEscapeEndState;
+	private final ScriptDataDoubleEscapedState scriptDataDoubleEscapedState;
+
+	public ScriptDataDoubleEscapedLessThanSignState(ParsingInitializer initializer, Consumer<TokenizeState> callback) {
+		callback.accept(this);
+		this.scriptDataDoubleEscapeEndState = initializer.getTokenizeState(ScriptDataDoubleEscapeEndState.class);
+		this.scriptDataDoubleEscapedState = initializer.getTokenizeState(ScriptDataDoubleEscapedState.class);
+	}
+
+	@Override
+	public void process(SharedContext context, ParsingContext parsingContext, int ch) throws IOException {
+		if (ch == '/') {
+			parsingContext.resetTemporaryBuffer();
+			context.setTokenizeState(scriptDataDoubleEscapeEndState);
+			context.emit(new CharacterToken('/'));
+		} else {
+			parsingContext.readerHandle().unread(ch);
+			context.setTokenizeState(scriptDataDoubleEscapedState);
+		}
+	}
+
+}
diff --git a/SpiderHTML/src/main/java/com/github/webicitybrowser/spiderhtml/tokenize/ScriptDataDoubleEscapedState.java b/SpiderHTML/src/main/java/com/github/webicitybrowser/spiderhtml/tokenize/ScriptDataDoubleEscapedState.java
diff --git a/SpiderHTML/src/main/java/com/github/webicitybrowser/spiderhtml/tokenize/ScriptDataEscapedLessThanSignState.java b/SpiderHTML/src/main/java/com/github/webicitybrowser/spiderhtml/tokenize/ScriptDataEscapedLessThanSignState.java
diff --git a/SpiderHTML/src/test/java/com/github/webicitybrowser/spiderhtml/HTMLParserTest.java b/SpiderHTML/src/test/java/com/github/webicitybrowser/spiderhtml/HTMLParserTest.java
diff --git a/Webicity/src/main/java/com/github/webicitybrowser/webicity/core/renderer/RendererCrashException.java b/Webicity/src/main/java/com/github/webicitybrowser/webicity/core/renderer/RendererCrashException.java