import z bazy z błędnym kodowaniem

Ostatnio musiałem importować dane z bazy danych z kodowaniem w której zachodnioeuropejskiego w której były przechowywane polskie znaki. Było z tym trochę problemów, więc opiszę rozwiązanie

Zagadnienie Baza A – źródłowa, u klienta. Kodowanie zachodnioeuropejskie WE8DEC. Przechowywane są w niej jednak polskie znaki w kodowaniu EE8ISO8859P2 czyli ISO-8859-2. Takie kodowanie stosuje klient bazy. Oracle pozwala na takie kombinacje. Miałem kiedyś do czynienia z bazą danych w kodowaniu US7ASCII, która też przechowywała polskie znaki, mimo że to kodowanie zawiera tylko na znaki do kodu 127 a więc bez narodowych. Można zapisywać lub odczytywać dane z poziomu klienta tak aby konwersje nie miały miejsca – dzięki temu obce kodowanie nie przeszkadza. Problem pojawił się przy dostępie przez DB linki, ale o tym za chwilę. Baza B – docelowa, u nas. Optymalne kodowanie AL32UTF8 pozwalające przechowywać wszystkie znaki łącznie ze wschodnioazjatyckimi.

Próba rozwiązania Pierwsza próba importu polegała na wykonaniu insert into /tabela z B/ select … from /tabela z A/. Przy takiej operacji Oracle robił konwersję znaków z kodowania zachodnioeuropejskiego na unicode. W efekcie otrzymywaliśmy “krzaczki”, ale były to różne “krzaczki”, tak się przynajmniej na początkowo wydawało. Skoro literka Ą ma w kodowaniu ISO 8859-2 kod 0xA1 a pod tym kodem w ISO 8859-1 widnieje znak ¡, więc importował się np. ZWI¡ZEK. Wydawało się, że wystarczy tylko dopisać funkcję konwertującą odpowiedni “krzaczek” na odpowieni polski znak i będzie po kłopocie. Okazało się jednak, że literki Ś i Ż konwertują się na ten sam symbol � oznaczający nieznany znak. Rozwiązanie Pojawił się pomysł, aby funkcją utl_raw.cast_to_raw skonwertować oryginalny VARCHAR2 z systemu A na tym RAW, potem zaimportować do B i tam funkcją utl_raw.cast_to_varchar2 przekształcić z RAW na VARCHAR2 omijając po drodze konwersję. Okazało się jednak, że podczas odwoływania się z B do A poprzez dblink konwersja następuje przed wywołaniem utl_raw.cast_to_raw i to mimo wymuszenia, aby funkcja się wykonywała na zdalnym serwerze. Konieczne okazało się utworzenie na A widoków zwracających wynik operacji utl_raw.cast_to_raw na polach z polskimi znakami. Dzięki temu poprzez dblink importowane są z A do B tablice bajtów typu RAW. Potem można w B przekonwertować wpis z RAW do VARCHAR2, ale najpierw trzeba przekształcić odebraną tablicę bajtów aby tekst zapisany w niej w kodowaniu EE8ISO8859P2 został przekształcony na tekst zapisany w kodowaniu bazy B – AL32UTF8. Polecenie wygląda więc następująco utl_raw.cast_to_varchar2(utl_raw.convert(kolumna_z_polskimi_znakami, ‘AMERICAN_AMERICA.AL32UTF8’, ‘AMERICAN_AMERICA.EE8ISO8859P2’)) i rozwiązało problem konwersji.

@Test public void savingAndUpdatingPersonShouldCreateTwoHistoricalVersions() { //given Person person = createAndSavePerson(); String oldFirstName = person.getFirstName(); String newFirstName = oldFirstName + "NEW"; //when updatePersonWithNewName(person, newFirstName); //then verifyTwoHistoricalVersionsWereSaved(oldFirstName, newFirstName); } private Person createAndSavePerson() { Transaction transaction = session.beginTransaction(); Person person = PersonFactory.createPerson(); session.save(person); transaction.commit(); return person; } private void updatePersonWithNewName(Person person, String newName) { Transaction transaction = session.beginTransaction(); person.setFirstName(newName); session.update(person); transaction.commit(); } private void verifyTwoHistoricalVersionsWereSaved(String oldFirstName, String newFirstName) { List<Object[]> personRevisions = getPersonRevisions(); assertEquals(2, personRevisions.size()); assertEquals(oldFirstName, ((Person)personRevisions.get(0)[0]).getFirstName()); assertEquals(newFirstName, ((Person)personRevisions.get(1)[0]).getFirstName()); } private List<Object[]> getPersonRevisions() { Transaction transaction = session.beginTransaction(); AuditReader auditReader = AuditReaderFactory.get(session); List<Object[]> personRevisions = auditReader.createQuery() .forRevisionsOfEntity(Person.class, false, true) .getResultList(); transaction.commit(); return personRevisions; }

import z bazy z błędnym kodowaniem

Tags:

Jan Matusiewicz

After WarJUG

Drawing arrows in JavaFX

GWT Developer’s Plugin for Firefox 13

JBoss Envers and Spring transaction managers

Subtle feature of CONNECT BY

import z bazy z błędnym kodowaniem

Tags:

Jan Matusiewicz

After WarJUG

Drawing arrows in JavaFX

You May Also Like