Excel sössi ainakin sadat geenitutkimukset koska muutti geeninimiä päivämääriksi (mm. ”MARCH1” -> 1. maaliskuuta)

AdminSB

Geenivirheet Excelissä

Excel sekä monet Microsoftin tuotteet ovat tunnetut siitä, että monilta osin kehitys on mennyt vuosittain taaksepäin. Vaikka mm. uusia hyviä ominaisuuksia on, monet perustoiminnallisuudet ovat bugiutuneet ja blue screen on palannut windows 10 käyttäjien ”iloksi”. Nythän BSOD:ssä on kuitenkin hauska ”:(” hymiö, joten ei siitä sen enempää. Vanha tuttu XP-ajoilta.

Excel-näkymä
Excel-näkymä

Joku ehkä ajattelee, että Windows, mitä vikaa, Microsoft, hienoa materiaalia. Mutta tehokäyttäjät ovat tuttuja ongelmien kanssa.

Excel on tunnettu siitä, että se ”ajattelee” itsenäisesti. Nimittäin enimmäkseen siten, että aina kun copy-pasteaa materiaalia, jossa on päivämäärää muistuttavia rivejä, niin excel joskus kääntää ne päivämäärä-formaattiin. Tämän lisäksi excel osaa ”älykkäästi” laskea yhteen tekstiä, numeroita ja päivämääriä siitä sen kummemmin valittamatta. Eli ongelmat joita migraatioissa csv:n kautta tulee ei monesti huomaa ellei käy läpi datan rivejä. Usein onkin helpointa tehdä migraatiot mm. LibreOfficella ja käyttää Exceliä muotoiluun.

Geeninimet muuntuvat gif-animaatiossa
Geeninimet muuntuvat gif-animaatiossa

Asia havattiin tutkimuksessa jo vuonna 2016 (Gene name errors are widespread in the scientific literature [linkki tutkimukseen]). Mm. seuraavia muutoksia dataan oli tapahtunut:

Geenisymboli SEPT2 (Septin 2) muuttui 2. päivä syyskuuta ja MARCH1 [Membrane-Associated Ring Finger (C3HC4) 1, E3 Ubiquitin Protein Ligase] muuttui muotoon 1. maaliskuuta. RIKEN-tunnisteet, esim. ‘2310009E13’, olivat muuttuneet liukuluvuksi ‘2.31E+13’.

Kuvakaappaus Tutkimuksesta - Gene name errors are widespread in the scientific literature
Kuvakaappaus Tutkimuksesta – Gene name errors are widespread in the scientific literature

Tässä tutkittiin 7467 -geenilistausta 3597 tutkimuksesta. Näistä tutkimuksista 19,6 prosentissa oli käytetty Excelin vääristämää geenidataa. Tästä voi päätellä, että vertaisarvioituina tutkimuksina, nämä tutkimukset ovat todennäköisesti tuottaneet välillisesti vääriä päätelmiä myös niitä lainanneissa tutkimuksissa. Eli käytännössä on sitten mahdoton selvittää, että mitkä tutkimukset eivät ehkä pidäkään täysin paikkaansa.

Lisäksi voidaan ottaa huomioon, että tässä tutkittiin vain rajattua joukkoa tutkimuksia, joissa oli käytetty tiettyjä geenilistoja. Näistä kun viidennes oli datan osalta osittain virheellistä, voidaan vain pohtia kuinka yleinen tämä ongelma tiedemaailmassa on.

On nimittäin hankala selvittää kuinka kauan ja mitkä kaikki tutkimukset ovat Excelin sotkemia.

Eli eiköhän tämä ole hyvä muistutus tiedeyhteisölle, että vertaisarviointikaan ei tarkasta onko lähdemateriaali kunnossa. Lisäksi voidaan olettaa, että taulukoita pyöritellessä on saattanut syntyä virheitä matkalla, jotka ovat muuttuneet oikeannäköisiksi lopullisessa taulukossa. Nythän siis puhutaan Excel-taulukoista, joissa on kymmeniä tuhansia riviä dna-tietoa. Hyvin vaikea jälkikäteen selvittää mitä on matkalla tapahtunut – Käytännössä mahdotonta.

Ja tämä on muistettava myös manuaalisissa migraatioissa ja integraatioissa kaikissa ICT-projekteissa, joissa data jossain vaiheessa käy läpi Excelin muotoilua, esim. csv -> Excel -> csv. Matkalla on voinut tapahtua jotain, joka ei koskaan selviä, mutta data on muuttunut.

Blue Screen of death (BSOD)
Blue Screen of death (BSOD)

Tutkijoiden ja ICT-ihmisten kannattaa seurata hieman vaikkapa tuon twiitin keksustelua, joka on vilkasta. Linkki Twiittiin.

Pahoittelut Micorosoftin dissaamisesta, mutta se on mielestäni asiallista, koska voidaan myös pohtia kuinka kalliiksi kaikki tämä tulee ja on tullut.

Tässä oivallinen video, jolla esitellään, että Excel ei kuitenkaan lähes koskaan muuta tekstiä päivämääräksi kun sitä tahtoisi:

Itse aikoinaan runsaasti csv-excel-asioita käsitelleenä, täytyy sanoa, että Open Office oli silloin iso apu. Toisaalta ongelmat excelissä olisivat voineet jäädä helposti huomaamatta ja vaati melkoista päättelykykyä selvittää onko virheitä mahdollisesti tulossa. Moneen asia excel kuitenkin oli paras, etenkin koska se kykeni käsittelemään dataa niin suuria määriä.

LibreOffice
LibreOffice

LibreOfficea on kehuttu uudesta versiosta, näemmä Calc kykenee ottamaan 1.048.576 riviä ja 1024 sarakettan – saman kuin Excel. Huomattavaa on, että LibreOffice on ilmainen ja sitä kehitetään järkevään suuntaan käyttäjäkuntaa kuunnellen. LibreOfficen voi ladata tästä linkistä.

Kyllä, se ei todellakaan maksa mitään ja toimii hyvin.

My Journey iMy Journey in Cyber World: Exceln Cyber World Excel
My Journey in Cyber World: Excel

Lähteet: The Verge – Scientists rename human genes to stop Microsoft Excel from misreading them as dates, https://www.ubergizmo.com/2020/08/excel-formatting-gene-research/