[java] 동일한 출력을 생성하는 JavaScript의 encodeURIComponent에 해당하는 Java?

따옴표, 공백 및 “이국적인”유니 코드 문자를 포함하는 문자열을 인코딩하고 JavaScript의 encodeURIComponent 함수와 동일한 출력을 생성하는 것을 시도하는 다양한 Java 코드를 실험 해 왔습니다 .

내 고문 테스트 문자열 : “A”B ± “

Firebug에 다음 JavaScript 문을 입력하면 :

encodeURIComponent('"A" B ± "');

-그런 다음 얻을 수 있습니다.

"%22A%22%20B%20%C2%B1%20%22"

다음은 내 작은 테스트 Java 프로그램입니다.

import java.io.UnsupportedEncodingException;
import java.net.URLEncoder;

public class EncodingTest
{
  public static void main(String[] args) throws UnsupportedEncodingException
  {
    String s = "\"A\" B ± \"";
    System.out.println("URLEncoder.encode returns "
      + URLEncoder.encode(s, "UTF-8"));

    System.out.println("getBytes returns "
      + new String(s.getBytes("UTF-8"), "ISO-8859-1"));
  }
}

-이 프로그램은 다음을 출력합니다.

URLEncoder.encode는 % 22A % 22 + B + % C2 % B1 + % 22를 반환합니다.
getBytes는 "A"B ± "를 반환합니다.

닫히지 만 시가는 없습니다! JavaScript와 동일한 출력을 생성하도록 Java를 사용하여 UTF-8 문자열을 인코딩하는 가장 좋은 방법은 무엇입니까 encodeURIComponent?

편집 : Java 1.4를 사용하여 곧 Java 5로 이동합니다.



답변

구현 차이점을 살펴보면 다음과 같습니다.

의 MDCencodeURIComponent() :

  • 리터럴 문자 (정규식 표현) : [-a-zA-Z0-9._*~'()!]

에 대한 Java 1.5.0 설명서URLEncoder :

  • 리터럴 문자 (정규식 표현) : [-a-zA-Z0-9._*]
  • 스페이스 캐릭터 " " 는 더하기 기호로 변환됩니다 "+".

따라서 기본적으로 원하는 결과를 얻으려면 URLEncoder.encode(s, "UTF-8") 하고 몇 가지 사후 처리를 수행하십시오.

  • 모든 항목을 다음 "+"으로 대체"%20"
  • 등을 "%xx"나타내는 모든 항목을 [~'()!]리터럴 대응 부분으로 바꿉니다.


답변

이것은 결국 내가 생각해 낸 수업입니다.

import java.io.UnsupportedEncodingException;
import java.net.URLDecoder;
import java.net.URLEncoder;

/**
 * Utility class for JavaScript compatible UTF-8 encoding and decoding.
 *
 * @see http://stackoverflow.com/questions/607176/java-equivalent-to-javascripts-encodeuricomponent-that-produces-identical-output
 * @author John Topley
 */
public class EncodingUtil
{
  /**
   * Decodes the passed UTF-8 String using an algorithm that's compatible with
   * JavaScript's <code>decodeURIComponent</code> function. Returns
   * <code>null</code> if the String is <code>null</code>.
   *
   * @param s The UTF-8 encoded String to be decoded
   * @return the decoded String
   */
  public static String decodeURIComponent(String s)
  {
    if (s == null)
    {
      return null;
    }

    String result = null;

    try
    {
      result = URLDecoder.decode(s, "UTF-8");
    }

    // This exception should never occur.
    catch (UnsupportedEncodingException e)
    {
      result = s;
    }

    return result;
  }

  /**
   * Encodes the passed String as UTF-8 using an algorithm that's compatible
   * with JavaScript's <code>encodeURIComponent</code> function. Returns
   * <code>null</code> if the String is <code>null</code>.
   *
   * @param s The String to be encoded
   * @return the encoded String
   */
  public static String encodeURIComponent(String s)
  {
    String result = null;

    try
    {
      result = URLEncoder.encode(s, "UTF-8")
                         .replaceAll("\\+", "%20")
                         .replaceAll("\\%21", "!")
                         .replaceAll("\\%27", "'")
                         .replaceAll("\\%28", "(")
                         .replaceAll("\\%29", ")")
                         .replaceAll("\\%7E", "~");
    }

    // This exception should never occur.
    catch (UnsupportedEncodingException e)
    {
      result = s;
    }

    return result;
  }

  /**
   * Private constructor to prevent this class from being instantiated.
   */
  private EncodingUtil()
  {
    super();
  }
}


답변

Java 6과 함께 제공되는 JavaScript 엔진 사용 :


import javax.script.ScriptEngine;
import javax.script.ScriptEngineManager;

public class Wow
{
    public static void main(String[] args) throws Exception
    {
        ScriptEngineManager factory = new ScriptEngineManager();
        ScriptEngine engine = factory.getEngineByName("JavaScript");
        engine.eval("print(encodeURIComponent('\"A\" B ± \"'))");
    }
}

출력 : % 22A % 22 % 20B % 20 % c2 % b1 % 20 % 22

케이스는 다르지만 원하는 것에 더 가깝습니다.


답변

나는를 사용한다 java.net.URI#getRawPath().

String s = "a+b c.html";
String fixed = new URI(null, null, s, null).getRawPath();

의 값이 fixed될 것입니다 a+b%20c.html당신이 원하는이다.

의 출력을 사후 처리 하면 URI에 있어야 하는 URLEncoder.encode()모든 플러스가 제거됩니다 . 예를 들면

URLEncoder.encode("a+b c.html").replaceAll("\\+", "%20");

당신을 줄 것 a%20b%20c.html으로 해석 될 것이다, a b c.html.


답변

게시 된 솔루션에는 하나의 문제가 있기 때문에 인코딩해야하는 문자열에 +가 있으면 공백으로 변환되므로 고유 한 버전의 encodeURIComponent를 만들었습니다.

그래서 여기 내 수업이 있습니다.

import java.io.UnsupportedEncodingException;
import java.util.BitSet;

public final class EscapeUtils
{
    /** used for the encodeURIComponent function */
    private static final BitSet dontNeedEncoding;

    static
    {
        dontNeedEncoding = new BitSet(256);

        // a-z
        for (int i = 97; i <= 122; ++i)
        {
            dontNeedEncoding.set(i);
        }
        // A-Z
        for (int i = 65; i <= 90; ++i)
        {
            dontNeedEncoding.set(i);
        }
        // 0-9
        for (int i = 48; i <= 57; ++i)
        {
            dontNeedEncoding.set(i);
        }

        // '()*
        for (int i = 39; i <= 42; ++i)
        {
            dontNeedEncoding.set(i);
        }
        dontNeedEncoding.set(33); // !
        dontNeedEncoding.set(45); // -
        dontNeedEncoding.set(46); // .
        dontNeedEncoding.set(95); // _
        dontNeedEncoding.set(126); // ~
    }

    /**
     * A Utility class should not be instantiated.
     */
    private EscapeUtils()
    {

    }

    /**
     * Escapes all characters except the following: alphabetic, decimal digits, - _ . ! ~ * ' ( )
     *
     * @param input
     *            A component of a URI
     * @return the escaped URI component
     */
    public static String encodeURIComponent(String input)
    {
        if (input == null)
        {
            return input;
        }

        StringBuilder filtered = new StringBuilder(input.length());
        char c;
        for (int i = 0; i < input.length(); ++i)
        {
            c = input.charAt(i);
            if (dontNeedEncoding.get(c))
            {
                filtered.append(c);
            }
            else
            {
                final byte[] b = charToBytesUTF(c);

                for (int j = 0; j < b.length; ++j)
                {
                    filtered.append('%');
                    filtered.append("0123456789ABCDEF".charAt(b[j] >> 4 & 0xF));
                    filtered.append("0123456789ABCDEF".charAt(b[j] & 0xF));
                }
            }
        }
        return filtered.toString();
    }

    private static byte[] charToBytesUTF(char c)
    {
        try
        {
            return new String(new char[] { c }).getBytes("UTF-8");
        }
        catch (UnsupportedEncodingException e)
        {
            return new byte[] { (byte) c };
        }
    }
}


답변

http://blog.sangupta.com/2010/05/encodeuricomponent-and.html에 문서화 된 또 다른 구현을 생각해 냈습니다 . 구현은 유니 코드 바이트도 처리 할 수 ​​있습니다.


답변

다음과 같이 java.net.URI 클래스를 성공적으로 사용했습니다.

public static String uriEncode(String string) {
    String result = string;
    if (null != string) {
        try {
            String scheme = null;
            String ssp = string;
            int es = string.indexOf(':');
            if (es > 0) {
                scheme = string.substring(0, es);
                ssp = string.substring(es + 1);
            }
            result = (new URI(scheme, ssp, null)).toString();
        } catch (URISyntaxException usex) {
            // ignore and use string that has syntax error
        }
    }
    return result;
}