[javascript] Uint8Array를 Javascript의 문자열로

Javascript의 Uint8Array 요소 범위에있는 UTF-8 인코딩 데이터가 있습니다. 이것을 일반 자바 스크립트 문자열로 디코딩하는 효율적인 방법이 있습니까 (Javascript가 16 비트 유니 코드를 사용한다고 생각합니다)? 문자열 결합이 CPU를 많이 사용하므로 한 번에 한 문자를 추가하고 싶지 않습니다.



답변

TextEncoderTextDecoder로부터 인코딩 표준 에 의해 polyfilled된다 stringencoding 라이브러리 현과 ArrayBuffers간에 변환 :

var uint8array = new TextEncoder("utf-8").encode("¢");
var string = new TextDecoder("utf-8").decode(uint8array);


답변

이것은 작동합니다.

// http://www.onicos.com/staff/iz/amuse/javascript/expert/utf.txt

/* utf.js - UTF-8 <=> UTF-16 convertion
 *
 * Copyright (C) 1999 Masanao Izumo <iz@onicos.co.jp>
 * Version: 1.0
 * LastModified: Dec 25 1999
 * This library is free.  You can redistribute it and/or modify it.
 */

function Utf8ArrayToStr(array) {
    var out, i, len, c;
    var char2, char3;

    out = "";
    len = array.length;
    i = 0;
    while(i < len) {
    c = array[i++];
    switch(c >> 4)
    {
      case 0: case 1: case 2: case 3: case 4: case 5: case 6: case 7:
        // 0xxxxxxx
        out += String.fromCharCode(c);
        break;
      case 12: case 13:
        // 110x xxxx   10xx xxxx
        char2 = array[i++];
        out += String.fromCharCode(((c & 0x1F) << 6) | (char2 & 0x3F));
        break;
      case 14:
        // 1110 xxxx  10xx xxxx  10xx xxxx
        char2 = array[i++];
        char3 = array[i++];
        out += String.fromCharCode(((c & 0x0F) << 12) |
                       ((char2 & 0x3F) << 6) |
                       ((char3 & 0x3F) << 0));
        break;
    }
    }

    return out;
}

해킹을 사용하지 않고 브라우저 JS 기능에 의존하지 않기 때문에 다른 솔루션보다 다소 깨끗합니다. 예를 들어 다른 JS 환경에서도 작동합니다.

JSFiddle 데모를 확인하십시오 .

관련 질문도 참조하십시오 : 여기여기


답변

내가 사용하는 것은 다음과 같습니다.

var str = String.fromCharCode.apply(null, uint8Arr);


답변

Chrome 샘플 애플리케이션 중 하나에서 찾을 수 있지만 이는 비동기 변환에 문제가없는 더 큰 데이터 블록을위한 것입니다.

/**
 * Converts an array buffer to a string
 *
 * @private
 * @param {ArrayBuffer} buf The buffer to convert
 * @param {Function} callback The function to call when conversion is complete
 */
function _arrayBufferToString(buf, callback) {
  var bb = new Blob([new Uint8Array(buf)]);
  var f = new FileReader();
  f.onload = function(e) {
    callback(e.target.result);
  };
  f.readAsText(bb);
}


답변

노드에서 ” Buffer인스턴스도 Uint8Array인스턴스buf.toString()이므로이 경우에 작동합니다.


답변

Albert가 제공 한 솔루션은 제공된 함수가 자주 호출되지 않고 적당한 크기의 배열에만 사용되는 한 잘 작동합니다. 그렇지 않으면 매우 비효율적입니다. 다음은 Node와 브라우저 모두에서 작동하며 다음과 같은 장점이있는 향상된 바닐라 JavaScript 솔루션입니다.

• 모든 옥텟 배열 크기에 대해 효율적으로 작동

• 중간에 던져 버리는 문자열을 생성하지 않습니다.

• 최신 JS 엔진에서 4 바이트 문자 지원 (그렇지 않으면 “?”로 대체 됨)

var utf8ArrayToStr = (function () {
    var charCache = new Array(128);  // Preallocate the cache for the common single byte chars
    var charFromCodePt = String.fromCodePoint || String.fromCharCode;
    var result = [];

    return function (array) {
        var codePt, byte1;
        var buffLen = array.length;

        result.length = 0;

        for (var i = 0; i < buffLen;) {
            byte1 = array[i++];

            if (byte1 <= 0x7F) {
                codePt = byte1;
            } else if (byte1 <= 0xDF) {
                codePt = ((byte1 & 0x1F) << 6) | (array[i++] & 0x3F);
            } else if (byte1 <= 0xEF) {
                codePt = ((byte1 & 0x0F) << 12) | ((array[i++] & 0x3F) << 6) | (array[i++] & 0x3F);
            } else if (String.fromCodePoint) {
                codePt = ((byte1 & 0x07) << 18) | ((array[i++] & 0x3F) << 12) | ((array[i++] & 0x3F) << 6) | (array[i++] & 0x3F);
            } else {
                codePt = 63;    // Cannot convert four byte code points, so use "?" instead
                i += 3;
            }

            result.push(charCache[codePt] || (charCache[codePt] = charFromCodePt(codePt)));
        }

        return result.join('');
    };
})();


답변

@Sudhir가 말한 것을 한 다음 쉼표로 구분 된 숫자 목록에서 문자열을 얻으려면 다음을 사용하십시오.

for (var i=0; i<unitArr.byteLength; i++) {
            myString += String.fromCharCode(unitArr[i])
        }

여전히 관련이있는 경우 원하는 문자열을 제공합니다.