JuliaLang · StefanKarpinski · Mar 1, 2018 · Feb 27, 2018 · Feb 27, 2018 · Feb 27, 2018
diff --git a/base/strings/util.jl b/base/strings/util.jl
@@ -275,9 +275,9 @@ split(str::T, splitter::Char;
     _split(str, equalto(splitter), limit, keep, T <: SubString ? T[] : SubString{T}[])
 
 function _split(str::AbstractString, splitter, limit::Integer, keep_empty::Bool, strs::Array)
-    i = start(str)
+    @assert (i = firstindex(str)) == 1
     n = lastindex(str)
-    r = coalesce(findfirst(splitter,str), i - 1)
+    r = coalesce(findfirst(splitter,str), 0)
     if r != 0:-1
         j, k = first(r), nextind(str,last(r))
         while 0 < j <= n && length(strs) != limit-1
@@ -342,22 +342,16 @@ rsplit(str::T, splitter::Char;
   _rsplit(str, equalto(splitter), limit, keep, T <: SubString ? T[] : SubString{T}[])
 
 function _rsplit(str::AbstractString, splitter, limit::Integer, keep_empty::Bool, strs::Array)
-    i = start(str)
     n = lastindex(str)
-    r = coalesce(findlast(splitter, str), i - 1)
-    j = first(r)-1
-    k = last(r)
-    while((0 <= j < n) && (length(strs) != limit-1))
-        if i <= k
-            (keep_empty || (k < n)) && pushfirst!(strs, SubString(str,k+1,n))
-            n = j
-        end
-        (k <= j) && (j = prevind(str,j))
-        r = coalesce(findprev(splitter,str,j), 0)
-        j = first(r)-1
-        k = last(r)
+    r = coalesce(findlast(splitter, str), 0)
+    j, k = first(r), last(r)
+    while j > 0 && k > 0 && length(strs) != limit-1
+        (keep_empty || k < n) && pushfirst!(strs, SubString(str,nextind(str,k),n))
+        n = prevind(str, j)
+        r = coalesce(findprev(splitter,str,n), 0)
+        j, k = first(r), last(r)
     end
-    (keep_empty || (n > 0)) && pushfirst!(strs, SubString(str,1,n))
+    (keep_empty || n > 0) && pushfirst!(strs, SubString(str,1,n))
     return strs
 end
 #rsplit(str::AbstractString) = rsplit(str, _default_delims, 0, false)

diff --git a/test/strings/util.jl b/test/strings/util.jl
@@ -75,81 +75,88 @@ end
 end
 
 @testset "rsplit/split" begin
-    @test isequal(split("foo,bar,baz", 'x'), ["foo,bar,baz"])
-    @test isequal(split("foo,bar,baz", ','), ["foo","bar","baz"])
-    @test isequal(split("foo,bar,baz", ","), ["foo","bar","baz"])
-    @test isequal(split("foo,bar,baz", r","), ["foo","bar","baz"])
-    @test isequal(split("foo,bar,baz", ','; limit=0), ["foo","bar","baz"])
-    @test isequal(split("foo,bar,baz", ','; limit=1), ["foo,bar,baz"])
-    @test isequal(split("foo,bar,baz", ','; limit=2), ["foo","bar,baz"])
-    @test isequal(split("foo,bar,baz", ','; limit=3), ["foo","bar","baz"])
-    @test isequal(split("foo,bar", "o,b"), ["fo","ar"])
-
-    @test isequal(split("", ','), [""])
-    @test isequal(split(",", ','), ["",""])
-    @test isequal(split(",,", ','), ["","",""])
-    @test isequal(split("", ','  ; keep=false), [])
-    @test isequal(split(",", ',' ; keep=false), [])
-    @test isequal(split(",,", ','; keep=false), [])
-
-    @test isequal(split("a b c"), ["a","b","c"])
-    @test isequal(split("a  b \t c\n"), ["a","b","c"])
-
-    @test isequal(rsplit("foo,bar,baz", 'x'), ["foo,bar,baz"])
-    @test isequal(rsplit("foo,bar,baz", ','), ["foo","bar","baz"])
-    @test isequal(rsplit("foo,bar,baz", ","), ["foo","bar","baz"])
-    @test isequal(rsplit("foo,bar,baz", ','; limit=0), ["foo","bar","baz"])
-    @test isequal(rsplit("foo,bar,baz", ','; limit=1), ["foo,bar,baz"])
-    @test isequal(rsplit("foo,bar,baz", ','; limit=2), ["foo,bar","baz"])
-    @test isequal(rsplit("foo,bar,baz", ','; limit=3), ["foo","bar","baz"])
-    @test isequal(rsplit("foo,bar", "o,b"), ["fo","ar"])
-
-    @test isequal(rsplit("", ','), [""])
-    @test isequal(rsplit(",", ','), ["",""])
-    @test isequal(rsplit(",,", ','), ["","",""])
-    @test isequal(rsplit(",,", ','; limit=2), [",",""])
-    @test isequal(rsplit("", ','  ; keep=false), [])
-    @test isequal(rsplit(",", ',' ; keep=false), [])
-    @test isequal(rsplit(",,", ','; keep=false), [])
-
-    #@test isequal(rsplit("a b c"), ["a","b","c"])
-    #@test isequal(rsplit("a  b \t c\n"), ["a","b","c"])
+    @test split("foo,bar,baz", 'x') == ["foo,bar,baz"]
+    @test split("foo,bar,baz", ',') == ["foo","bar","baz"]
+    @test split("foo,bar,baz", ",") == ["foo","bar","baz"]
+    @test split("foo,bar,baz", r",") == ["foo","bar","baz"]
+    @test split("foo,bar,baz", ','; limit=0) == ["foo","bar","baz"]
+    @test split("foo,bar,baz", ','; limit=1) == ["foo,bar,baz"]
+    @test split("foo,bar,baz", ','; limit=2) == ["foo","bar,baz"]
+    @test split("foo,bar,baz", ','; limit=3) == ["foo","bar","baz"]
+    @test split("foo,bar", "o,b") == ["fo","ar"]
+
+    @test split("", ',') == [""]
+    @test split(",", ',') == ["",""]
+    @test split(",,", ',') == ["","",""]
+    @test split("", ','  ; keep=false) == []
+    @test split(",", ',' ; keep=false) == []
+    @test split(",,", ','; keep=false) == []
+
+    @test split("a b c") == ["a","b","c"]
+    @test split("a  b \t c\n") == ["a","b","c"]
+
+    @test rsplit("foo,bar,baz", 'x') == ["foo,bar,baz"]
+    @test rsplit("foo,bar,baz", ',') == ["foo","bar","baz"]
+    @test rsplit("foo,bar,baz", ",") == ["foo","bar","baz"]
+    @test rsplit("foo,bar,baz", ','; limit=0) == ["foo","bar","baz"]
+    @test rsplit("foo,bar,baz", ','; limit=1) == ["foo,bar,baz"]
+    @test rsplit("foo,bar,baz", ','; limit=2) == ["foo,bar","baz"]
+    @test rsplit("foo,bar,baz", ','; limit=3) == ["foo","bar","baz"]
+    @test rsplit("foo,bar", "o,b") == ["fo","ar"]
+
+    @test rsplit("", ',') == [""]
+    @test rsplit(",", ',') == ["",""]
+    @test rsplit(",,", ',') == ["","",""]
+    @test rsplit(",,", ','; limit=2) == [",",""]
+    @test rsplit("", ','  ; keep=false) == []
+    @test rsplit(",", ',' ; keep=false) == []
+    @test rsplit(",,", ','; keep=false) == []
+
+    #@test rsplit("a b c") == ["a","b","c"]
+    #@test rsplit("a  b \t c\n") == ["a","b","c"]
 
     let str = "a.:.ba..:..cba.:.:.dcba.:."
-    @test isequal(split(str, ".:."), ["a","ba.",".cba",":.dcba",""])
-    @test isequal(split(str, ".:."; keep=false), ["a","ba.",".cba",":.dcba"])
-    @test isequal(split(str, ".:."), ["a","ba.",".cba",":.dcba",""])
-    @test isequal(split(str, r"\.(:\.)+"), ["a","ba.",".cba","dcba",""])
-    @test isequal(split(str, r"\.(:\.)+"; keep=false), ["a","ba.",".cba","dcba"])
-    @test isequal(split(str, r"\.+:\.+"), ["a","ba","cba",":.dcba",""])
-    @test isequal(split(str, r"\.+:\.+"; keep=false), ["a","ba","cba",":.dcba"])
-
-    @test isequal(rsplit(str, ".:."), ["a","ba.",".cba.:","dcba",""])
-    @test isequal(rsplit(str, ".:."; keep=false), ["a","ba.",".cba.:","dcba"])
-    @test isequal(rsplit(str, ".:."; limit=2), ["a.:.ba..:..cba.:.:.dcba", ""])
-    @test isequal(rsplit(str, ".:."; limit=3), ["a.:.ba..:..cba.:", "dcba", ""])
-    @test isequal(rsplit(str, ".:."; limit=4), ["a.:.ba.", ".cba.:", "dcba", ""])
-    @test isequal(rsplit(str, ".:."; limit=5), ["a", "ba.", ".cba.:", "dcba", ""])
-    @test isequal(rsplit(str, ".:."; limit=6), ["a", "ba.", ".cba.:", "dcba", ""])
+    @test split(str, ".:.") == ["a","ba.",".cba",":.dcba",""]
+    @test split(str, ".:."; keep=false) == ["a","ba.",".cba",":.dcba"]
+    @test split(str, ".:.") == ["a","ba.",".cba",":.dcba",""]
+    @test split(str, r"\.(:\.)+") == ["a","ba.",".cba","dcba",""]
+    @test split(str, r"\.(:\.)+"; keep=false) == ["a","ba.",".cba","dcba"]
+    @test split(str, r"\.+:\.+") == ["a","ba","cba",":.dcba",""]
+    @test split(str, r"\.+:\.+"; keep=false) == ["a","ba","cba",":.dcba"]
+
+    @test rsplit(str, ".:.") == ["a","ba.",".cba.:","dcba",""]
+    @test rsplit(str, ".:."; keep=false) == ["a","ba.",".cba.:","dcba"]
+    @test rsplit(str, ".:."; limit=2) == ["a.:.ba..:..cba.:.:.dcba", ""]
+    @test rsplit(str, ".:."; limit=3) == ["a.:.ba..:..cba.:", "dcba", ""]
+    @test rsplit(str, ".:."; limit=4) == ["a.:.ba.", ".cba.:", "dcba", ""]
+    @test rsplit(str, ".:."; limit=5) == ["a", "ba.", ".cba.:", "dcba", ""]
+    @test rsplit(str, ".:."; limit=6) == ["a", "ba.", ".cba.:", "dcba", ""]
     end
 
     # zero-width splits
-    @test isequal(rsplit("", ""), [""])
-
-    @test isequal(split("", ""), [""])
-    @test isequal(split("", r""), [""])
-    @test isequal(split("abc", ""), ["a","b","c"])
-    @test isequal(split("abc", r""), ["a","b","c"])
-    @test isequal(split("abcd", r"b?"), ["a","c","d"])
-    @test isequal(split("abcd", r"b*"), ["a","c","d"])
-    @test isequal(split("abcd", r"b+"), ["a","cd"])
-    @test isequal(split("abcd", r"b?c?"), ["a","d"])
-    @test isequal(split("abcd", r"[bc]?"), ["a","","d"])
-    @test isequal(split("abcd", r"a*"), ["","b","c","d"])
-    @test isequal(split("abcd", r"a+"), ["","bcd"])
-    @test isequal(split("abcd", r"d*"), ["a","b","c",""])
-    @test isequal(split("abcd", r"d+"), ["abc",""])
-    @test isequal(split("abcd", r"[ad]?"), ["","b","c",""])
+    @test split("", "") == rsplit("", "") == [""]
+    @test split("abc", "") == rsplit("abc", "") == ["a","b","c"]
+    @test rsplit("abc", "", limit=2) == ["ab","c"]
+    @test split("abc", "", limit=2) == ["a","bc"]
+
+    @test split("", r"") == [""]
+    @test split("abc", r"") == ["a","b","c"]
+    @test split("abcd", r"b?") == ["a","c","d"]
+    @test split("abcd", r"b*") == ["a","c","d"]
+    @test split("abcd", r"b+") == ["a","cd"]
+    @test split("abcd", r"b?c?") == ["a","d"]
+    @test split("abcd", r"[bc]?") == ["a","","d"]
+    @test split("abcd", r"a*") == ["","b","c","d"]
+    @test split("abcd", r"a+") == ["","bcd"]
+    @test split("abcd", r"d*") == ["a","b","c",""]
+    @test split("abcd", r"d+") == ["abc",""]
+    @test split("abcd", r"[ad]?") == ["","b","c",""]
+
+    # multi-byte unicode characters (issue #26225)
+    @test split("α β γ", " ") == rsplit("α β γ", " ") ==
+          split("α β γ", isspace) == rsplit("α β γ", isspace) == ["α","β","γ"]
+    @test split("ö.", ".") == rsplit("ö.", ".") == ["ö",""]
+    @test split("α β γ", "β") == rsplit("α β γ", "β") == ["α "," γ"]
 end
 
 @testset "replace" begin